次へ: 2 前回作成した一覧ファイル 上へ: AWK による HTML ファイルの整形 その 3 前へ: AWK による HTML ファイルの整形 その 3 (PDF ファイル: awkwww3.pdf)


1 はじめに

これまで、[4], [5] で AWK で のニュース記事を加工する例を紹介してきました。 [4] では、 ニュース記事のページを HTML ファイルとして手元に保存した後、 その必要な部分のみ取り出した HTML ファイルを作成する方法について、 [5] では、 複数の HTML ファイルに分割されているニュースの記事一覧から 必要な部分を取り出して一つの HTML ファイルとして作成する方法について 紹介しました。 そして AWK に関する知識としては、 [4] では主にデータから必要な部分を取り出す方法として sub(),gsub(),match(),substr() の利用法や正規表現、 getline を使った読み飛ばしなどを、 また [5] では同様の必要な部分の抜き出しと、 複数のデータファイルを一度に処理する方法について取り上げてきました。

今回はその続きとして、 前回結合したニュース記事の一覧のファイルをさらに加工して、 記事をある程度分類する方法を紹介します。 もちろん Yahoo! ニュースの方でも 社会ニュース、スポーツニュース、 政治ニュースのように一応は分類されていて、 前回のニュース記事の一覧もその分野のニュースに関するものなのですが、 例えば社会ニュースなどの場合 1 日に 200 件近くの流量があり、 前回作成した 1 つのファイルでの記事の一覧も 単に時系列順にニュースを並べたものなので、 例えばある特定のニュースの続報を見る、 といった場合にそれを探すのが大変です。

よって、今回は社会ニュースなら社会ニュースを、 キーワードによるマッチングの手法を使って、 さらにある程度ジャンル毎に分類する方法について紹介します。 今回は AWK の 2 次元配列やスクリプトの分割 (ライブラリ化) についても 紹介する予定です。

今回紹介する方法は、 ほぼ私が普段ニュース記事を参照するのに利用している方法ですが、 ブラウザで HTML ファイルを保存する場合、 ブラウザによっては (例えば MS-IE) 単純に保存するのではなく 色々加工して保存することもあるようで、 そのような場合は今回のスクリプトではうまく処理できないかもしれません。

また、今回は [5] で作成したニュース記事の一覧ファイルを 対象としますので、それで作ったファイルが必要となります。 詳しくは [5] を参照してください。

なお、加工したデータを個人的に楽しむのは違法ではありませんが、 それを公開したり、第 3 者に渡したりするのは問題がありますので 注意してください。


次へ: 2 前回作成した一覧ファイル 上へ: AWK による HTML ファイルの整形 その 3 前へ: AWK による HTML ファイルの整形 その 3
竹野茂治@新潟工科大学
2006年9月8日