次へ: 4 複数ページの記事一覧ファイル 上へ: AWK によるシェル作業 前へ: 2 今回行う作業 (PDF ファイル: awkwww4.pdf)


3 wget

WWW ページの HTML ファイルを取得するには、 ブラウザを使ってその WWW ページにアクセスし、 そのブラウザの機能を使ってファイルとして保存するという方法がありますが、 そのやり方だと自動化はできませんし、複数のファイルを取得するのは面倒です。

wget はコマンドライン5で URL を指定して、 その URL の HTML ファイルを取得し手元に保存してくれるフリーソフトです。 これは非常に高機能で、 一度にたくさんのファイルをダウンロードしたりすることもできるのですが、 今回はこの wget を使ってひとつひとつ必要なファイルを ダウンロードすることにします。

wget は、最近の Unix では既にインストールされているかもしれませんが、 以下に Unix 用のソースファイル、MS-Windows 用の実行バイナリファイルなどが あります。 小さいソフトですし便利なものなので、入れておいて損はないでしょう。

インストールや使い方については詳しくは説明しませんが、 ひとつだけ注意をしておきます。 WWW ページへのアクセスでプロクシサーバを利用している場合は、 環境変数 http_proxy にそれを設定しておくと、 wget は自動的にそれを見るようになります。MS-Windows の場合、 例えばプロクシサーバが 192.168.0.1 で、ポートが 8080 の場合は
set http_proxy=http://192.168.0.1:8080
のように設定します。Unix の場合でも環境変数名は同じです。 これは初期設定ファイルで設定することもできるようですが、 それについては wget のマニュアルを参照してください。

今回は、wget の使い方としては、単純に以下のような使い方のみを利用します。

wget -O [ファイル名] "[URL 名]"
このようにすると、[URL 名] として指定した URL の WWW ページの HTML ファイルを、 [ファイル名] として指定したファイルとして保存してくれます。 この場合、そのページ内に貼られている画像ファイルなどはダウンロードしません6


次へ: 4 複数ページの記事一覧ファイル 上へ: AWK によるシェル作業 前へ: 2 今回行う作業
竹野茂治@新潟工科大学
2006年9月29日