|設計|構築|集客|分析|精神論|その他|

2007/10/17

自動抽出する前に〜どのRSSがいいか?

ところで、Fumy RSS&ATOM Makerは、いろいろなバージョンのRSSに対応しています。RSS1.0、RSS2.0、ATOM0.3、の3種類に対応しています。
どれがいいのか、というのは悩み所です。
私は最初は3種類全て作って配布していましたが、現在は一番ベーシックなRSS1.0だけしかやっていません。
なぜかというと、特別RSS2.0だから機能的に優れているとか、ATOM0.3にした方が効果が高いとか、そういう違いはまったくといいほど感じられなかったので。
そしてもう一つ大きな理由として、Pingサーバーの中には、RSSファイルを決め打ちで探しに行くものがあり、RSSファイル名が"index.*"でないとPingが失敗するサーバーが結構ありました(少なくとも数年前は)。
ですので、いろいろ試してみたところ、安心して配布できるRSSファイル名は"index.rdf"一種類のみでした。そうなると、配布するRSSも一種類にする必要があった、という事情があります。
ということで、とりあえず本記事ではRSS1.0の抽出方法にのみ解説します。(もちろん、他のRSSでもほとんど同じですが)

とりあえずRSS情報を抽出してみる

まずは、を押します。
すると、以下のような画面が登場します。

赤枠内に注目です。ここに、(現在選択されているファイルの)抽出される予定の情報が表示されます。
実際のファイルの中身と比べてみます。
実際のファイル(この場合、index.html)の中身 抽出される情報
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<HTML lang="ja">
<HEAD>
<META http-equiv="Content-Type" content="text/html; charset=Shift_JIS">
<META http-equiv="Content-Style-Type" content="text/css">
<meta name="keywords" content="これはkeywordsの内容です。">
<meta name="description" content="これはdescriptionの内容です。">
<meta name="copyright" content="http://www.xxx.com/index.html">
<meta name="robots" content="index,follow">
<TITLE>RSSの作成サンプル トップページ</TITLE>
</HEAD>
<BODY>
<DIV align="center">RSS作成サンプルのページです。(BODY)</DIV>
</BODY>
</HTML>
タイトル RSSの作成サンプル トップページ
カテゴリ これはkeywordsの内容です。
概要 これはdescriptionの内容です。
内容 <DIV align="center">RSS作成サンプルのページです。(BODY)</DIV>
このように、タイトルは<TITLE>タグ、カテゴリはメタタグのkeywords、概要はメタタグのdescription、内容は<BODY>タグ直後の情報を使っていることが分かると思います。
ここで問題は、「内容」。
<DIV>タグも一緒に抽出されてしまっています。ですが、これはあまり気にしないでいいです。現実、RSSリーダーで表示されたり、Pingサーバで提示されるのは「概要」のみで、「内容」までは表示しないですから。(^^;
それはそれとして、他にも気になるところはあります。
例えば、「カテゴリ」や「概要」をメタタグ情報から持ってきていますが、メタタグを指定していない方も多いでしょうし、メタタグではない他の情報を指定したいという方もいるでしょう。
ですので、個々の情報の抽出する方法を微調整し、より最適なRSSを作成できるようにしないといけませんね。

RSS抽出方法の変更

その方法は、以下の画面で設定します。
サイト設定-情報抽出方法

デフォルトで以上のような設定になっています。この法則に従って抽出されたのが先ほどの情報です。
で、実際にどうすればいいのかは、抽出するHTMLファイルがどうなっているのか次第ですので、いろいろ試して最適な設定を探してみてください。
ただし、この画面はHTMLのタグの知識を持っている方が前提です。タグについての説明は省かさせて頂きますのでご了承ください。

ここを設定すると、細かくRSSの情報を制御できます。
例えば、HTMLファイルに直接RSS抽出用のタグを埋め込んで明示するなんていうこともできます。実際に自分も使っているテクニックですが、ファイル中に不可視のタグ(例:<A name="RSSStart"></A>)を埋め込んでおいて、抽出条件にそれを指定しておけば、確実に抽出したい情報を抽出させることができます。
こんな感じに設定