次へ: 4 複数ページの記事一覧ファイル 上へ: AWK によるシェル作業 前へ: 2 今回行う作業 (PDF ファイル: awkwww4.pdf)

3 wget

WWW ページの HTML ファイルを取得するには、ブラウザを使ってその WWW ページにアクセスし、そのブラウザの機能を使ってファイルとして保存するという方法がありますが、そのやり方だと自動化はできませんし、複数のファイルを取得するのは面倒です。

wget はコマンドライン⁵で URL を指定して、その URL の HTML ファイルを取得し手元に保存してくれるフリーソフトです。これは非常に高機能で、一度にたくさんのファイルをダウンロードしたりすることもできるのですが、今回はこの wget を使ってひとつひとつ必要なファイルをダウンロードすることにします。

wget は、最近の Unix では既にインストールされているかもしれませんが、以下に Unix 用のソースファイル、MS-Windows 用の実行バイナリファイルなどがあります。小さいソフトですし便利なものなので、入れておいて損はないでしょう。

wget 公式サイト: http://www.gnu.org/software/wget/wget.html
wget のソースの置き場所: http://ftp.gnu.org/pub/gnu/wget/
MS-Windows 用バイナリ等: http://xoomer.alice.it/hherold/
MS-Windows 用バイナリ等: http://users.ugent.be/~bpuype/wget/

インストールや使い方については詳しくは説明しませんが、ひとつだけ注意をしておきます。 WWW ページへのアクセスでプロクシサーバを利用している場合は、環境変数 http_proxy にそれを設定しておくと、 wget は自動的にそれを見るようになります。MS-Windows の場合、例えばプロクシサーバが 192.168.0.1 で、ポートが 8080 の場合は

set http_proxy=http://192.168.0.1:8080

のように設定します。Unix の場合でも環境変数名は同じです。これは初期設定ファイルで設定することもできるようですが、それについては wget のマニュアルを参照してください。

今回は、wget の使い方としては、単純に以下のような使い方のみを利用します。

wget -O [ファイル名] "[URL 名]"

このようにすると、[URL 名] として指定した URL の WWW ページの HTML ファイルを、 [ファイル名] として指定したファイルとして保存してくれます。この場合、そのページ内に貼られている画像ファイルなどはダウンロードしません⁶。

次へ: 4 複数ページの記事一覧ファイル 上へ: AWK によるシェル作業 前へ: 2 今回行う作業

竹野茂治＠新潟工科大学
2006年9月29日