次へ: 2 Yahoo! ニュース一覧の構造
上へ: AWK による HTML ファイルの整形 その 2
前へ: AWK による HTML ファイルの整形 その 2
(PDF ファイル: awkwww2.pdf)
1 はじめに
以前、[4] で AWK で
- Yahoo! ニュース:
http://headlines.yahoo.co.jp/hl
のニュース記事を加工する例を紹介しました。
そこでは、ニュース記事のページを HTML ファイルとして手元に保存した後、
その必要な部分のみ取り出した HTML ファイルを作成する、
という方法を紹介しました。
今回は、複数のデータファイルを一度に処理する例として、
[4] でも触れた、ニュース記事の一覧を加工することによる
ニュース記事へのアクセスの向上をはかる方法について紹介します。
今回は以下のことを目標とします。
- 複数に分かれている一覧の HTML ファイルから必要な情報のみを取り出し
一つの HTML ファイルにつなげる (リンクの貼り方も少し加工する)
私は、普段こうやって作った HTML ファイルをさらに加工しているのですが、
それについてはまた次の機会に紹介したいと思います。
なお、加工したデータを個人的に楽しむのは違法ではありませんが、
それを公開したり、第 3 者に渡したりするのは問題がありますので
注意してください。
次へ: 2 Yahoo! ニュース一覧の構造
上へ: AWK による HTML ファイルの整形 その 2
前へ: AWK による HTML ファイルの整形 その 2
竹野茂治@新潟工科大学
2006年9月5日