多くの方がご存じのように、Yahoo! (http://www.yahoo.co.jp/
) には
各新聞社などが提供するニュース1を紹介しているコーナーがあります。
http://headlines.yahoo.co.jp/hl
しかし、私が普段利用している古い (がしかし軽快な) ブラウザ Netscape 3.04 で見るときに不便に感じる点がいくつかあります。
ニュース記事のページには前後 2 つずつ位の記事へのリンクも 貼られているのですが、やはり一覧全体を見て記事を探したいので、 そちらに戻ることになります。
最近のタブブラウザならば、過去にアクセスしたページとの切り替えは 軽快に行えるのですが、Netscape 3.04 はそうではないので、 一覧に戻ろうとするとまたそこでネットワークにアクセスして一覧のデータを 再び取得しようとしてしまいます。
例えば社会ニュースのように 1 日 100 件以上のニュースが流れているところは、 一覧自体が 6 ページ位に分かれていて、 一覧の全体を見るのにもいちいちページの切り替えと ネットワークアクセスが必要となります。
私はこれらを解消するために、一覧の記事全体を手元に一旦取得してから、 csh のスクリプトや AWK のスクリプトを利用して それらを加工して新たな一覧を作って、 上のような問題を解消するような方法でニュースの閲覧を行っています。
今回はこの 4. の、記事のページから不要なものを削除する、 という方法について紹介します。
なお、この 4. に関しては、 ブラウザで記事の内容を見るときにこれを行っているわけではありません。 つまり見るときは通常の広告等の入った記事を見ていますが、 それを印刷するときにそのページを一旦手元に保存して、 今回で紹介するような AWK スクリプトを使って加工して、 記事の内容だけを取りだしたものを印刷する、という手法を使っています。
もし、記事を閲覧するときにも広告等を削除したものを見るようにするには、 すべての記事を一旦手元に持ってきて、それらをすべて加工してから閲覧する、 ということをしなければいけませんが、 一覧はすべて目を通しますが ニュース記事は必ずしもすべての記事を読むわけではありませんから、 それは不要な記事まで持ってくるための不要なネットワークアクセスを 増やすことになりますので、そういう風にはしていません。
また、今回は 1., 2., 3. の 手法、すなわち一覧を取得してそれを加工する、 という方法については説明しませんが、 これは別の機会に紹介したいと思います。