http://headlines.yahoo.co.jp/hl
今回はその続きとして、 前回結合したニュース記事の一覧のファイルをさらに加工して、 記事をある程度分類する方法を紹介します。 もちろん Yahoo! ニュースの方でも 社会ニュース、スポーツニュース、 政治ニュースのように一応は分類されていて、 前回のニュース記事の一覧もその分野のニュースに関するものなのですが、 例えば社会ニュースなどの場合 1 日に 200 件近くの流量があり、 前回作成した 1 つのファイルでの記事の一覧も 単に時系列順にニュースを並べたものなので、 例えばある特定のニュースの続報を見る、 といった場合にそれを探すのが大変です。
よって、今回は社会ニュースなら社会ニュースを、 キーワードによるマッチングの手法を使って、 さらにある程度ジャンル毎に分類する方法について紹介します。 今回は AWK の 2 次元配列やスクリプトの分割 (ライブラリ化) についても 紹介する予定です。
今回紹介する方法は、 ほぼ私が普段ニュース記事を参照するのに利用している方法ですが、 ブラウザで HTML ファイルを保存する場合、 ブラウザによっては (例えば MS-IE) 単純に保存するのではなく 色々加工して保存することもあるようで、 そのような場合は今回のスクリプトではうまく処理できないかもしれません。
また、今回は [5] で作成したニュース記事の一覧ファイルを 対象としますので、それで作ったファイルが必要となります。 詳しくは [5] を参照してください。
なお、加工したデータを個人的に楽しむのは違法ではありませんが、 それを公開したり、第 3 者に渡したりするのは問題がありますので 注意してください。