次へ: 3 複数のデータファイルの処理 上へ: AWK による HTML ファイルの整形 その 2 前へ: 1 はじめに (PDF ファイル: awkwww2.pdf)


2 Yahoo! ニュース一覧の構造

Yahoo! ニュースの記事の一覧は、基本的に <ul>$\sim$</ul> タグ (箇条書き) を使って、

  <ul>
  <li><a href="[記事本体の URL]">どこそこで交通事故</a><small> (XXX 新聞)
  - 15 日(火)15時35分</small><br>
  <li><a href="[記事本体の URL]">どこそこで火事</a><small> (XXX 新聞)"
  - 15 日(火)15時30分</small><br>
  ....
  </ul>
のように書かれていて、それによってブラウザでは、 のように表示され、記事本体へのリンクが貼られています。

しかし、[4] で紹介したニュース記事本体の HTML ファイルの構造と同様に、 この一覧の HTML ファイルにも一覧以外に不要な情報が数多く含まれていますし、 一覧が多い場合は一覧自体が複数の HTML ファイルに渡ることもあります。

よって、まずはその複数の一覧ファイルから必要な情報をとり出し、 それをつなげて一つの HTML ファイルにすることを考えます。

必要な情報とは、以下のものとします。

  1. <!--- CONTENTS_TITLE_TABLE ---> の下にある
        <b><font size=+1>XXX ニュース</font></b>
        <small> - 8月15日(火)15時40分</small></td>
    
    のニュースタイトルと日付の部分
  2. <!--- OUTLINE_TABLE ---> の下にある記事の一覧部分 (<ul>$\sim$</ul> の部分)

他にも使えそうな情報がなくはないのですが、 今回はこれらのみを取り出すことにします。


次へ: 3 複数のデータファイルの処理 上へ: AWK による HTML ファイルの整形 その 2 前へ: 1 はじめに
竹野茂治@新潟工科大学
2006年9月5日