Yahoo! ニュースの記事の一覧は、基本的に <ul></ul> タグ (箇条書き) を使って、
<ul> <li><a href="[記事本体の URL]">どこそこで交通事故</a><small> (XXX 新聞) - 15 日(火)15時35分</small><br> <li><a href="[記事本体の URL]">どこそこで火事</a><small> (XXX 新聞)" - 15 日(火)15時30分</small><br> .... </ul>のように書かれていて、それによってブラウザでは、
しかし、[4] で紹介したニュース記事本体の HTML ファイルの構造と同様に、 この一覧の HTML ファイルにも一覧以外に不要な情報が数多く含まれていますし、 一覧が多い場合は一覧自体が複数の HTML ファイルに渡ることもあります。
よって、まずはその複数の一覧ファイルから必要な情報をとり出し、 それをつなげて一つの HTML ファイルにすることを考えます。
必要な情報とは、以下のものとします。
<!--- CONTENTS_TITLE_TABLE --->
の下にある
<b><font size=+1>XXX ニュース</font></b> <small> - 8月15日(火)15時40分</small></td>のニュースタイトルと日付の部分
<!--- OUTLINE_TABLE --->
の下にある記事の一覧部分
(<ul></ul> の部分)
他にも使えそうな情報がなくはないのですが、 今回はこれらのみを取り出すことにします。