<b><font size=+1>
という行がここにしかないようなので、
簡単のためにこれを利用してこの行を取得し、
その次の行も getline で取得することにします。
不要なタグ部分は、sub() で削除します。
タイトルと日付は最初のファイルから取得すればいいので、 ARGIND が 1 のときにだけ取得します。
##### タイトルや日付の取得 ##### (ARGIND == 1 && $0 ~ /<b><font size=\+1>/){ sub(/.*<b><font size=\+1>/,"") sub(/<\/font><\/b>.*/,"") title=$0 getline sub(/.*<small> - /,"") sub(/<\/small>.*/,"") date=$0 }正規表現は
/ /
で囲んで指定します。
+
は正規表現では特別な意味 (1 回以上の繰り返し) を持ちますので、
\
でエスケープする必要があります。
また、.*
という正規表現は、
ということで、 すなわち「空文字列も含む任意の文字列」ということを意味しています。 よって、例えば.
= 任意の 1 文字
.*
= 任意の 1 文字の 0 文字以上の繰り返し
sub(/<\/small>.*/,"")
は、
することを意味します。</small>
とその後につながる任意の文字列を、 空文字列""
に変換