|設計|構築|
集客|分析|精神論|
その他|
2007/10/17
自動抽出する前に〜どのRSSがいいか?
ところで、Fumy RSS&ATOM Makerは、いろいろなバージョンのRSSに対応しています。RSS1.0、RSS2.0、ATOM0.3、の3種類に対応しています。
どれがいいのか、というのは悩み所です。
私は最初は3種類全て作って配布していましたが、現在は一番ベーシックなRSS1.0だけしかやっていません。
なぜかというと、特別RSS2.0だから機能的に優れているとか、ATOM0.3にした方が効果が高いとか、そういう違いはまったくといいほど感じられなかったので。
そしてもう一つ大きな理由として、Pingサーバーの中には、RSSファイルを決め打ちで探しに行くものがあり、RSSファイル名が"index.*"でないとPingが失敗するサーバーが結構ありました(少なくとも数年前は)。
ですので、いろいろ試してみたところ、安心して配布できるRSSファイル名は"index.rdf"一種類のみでした。そうなると、配布するRSSも一種類にする必要があった、という事情があります。
ということで、とりあえず本記事ではRSS1.0の抽出方法にのみ解説します。(もちろん、他のRSSでもほとんど同じですが)
とりあえずRSS情報を抽出してみる
まずは、
を押します。
すると、以下のような画面が登場します。
赤枠内に注目です。ここに、(現在選択されているファイルの)抽出される予定の情報が表示されます。
実際のファイルの中身と比べてみます。
実際のファイル(この場合、index.html)の中身 |
抽出される情報 |
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<HTML lang="ja">
<HEAD>
<META http-equiv="Content-Type" content="text/html; charset=Shift_JIS">
<META http-equiv="Content-Style-Type" content="text/css">
<meta name="keywords" content="これはkeywordsの内容です。">
<meta name="description" content="これはdescriptionの内容です。">
<meta name="copyright" content="http://www.xxx.com/index.html">
<meta name="robots" content="index,follow">
<TITLE>RSSの作成サンプル トップページ</TITLE>
</HEAD>
<BODY>
<DIV align="center">RSS作成サンプルのページです。(BODY)</DIV>
</BODY>
</HTML> |
タイトル |
RSSの作成サンプル トップページ |
カテゴリ |
これはkeywordsの内容です。 |
概要 |
これはdescriptionの内容です。 |
内容 |
<DIV align="center">RSS作成サンプルのページです。(BODY)</DIV> |
|
このように、タイトルは<TITLE>タグ、カテゴリはメタタグのkeywords、概要はメタタグのdescription、内容は<BODY>タグ直後の情報を使っていることが分かると思います。
ここで問題は、「内容」。
<DIV>タグも一緒に抽出されてしまっています。ですが、これはあまり気にしないでいいです。現実、RSSリーダーで表示されたり、Pingサーバで提示されるのは「概要」のみで、「内容」までは表示しないですから。(^^;
それはそれとして、他にも気になるところはあります。
例えば、「カテゴリ」や「概要」をメタタグ情報から持ってきていますが、メタタグを指定していない方も多いでしょうし、メタタグではない他の情報を指定したいという方もいるでしょう。
ですので、個々の情報の抽出する方法を微調整し、より最適なRSSを作成できるようにしないといけませんね。
RSS抽出方法の変更
その方法は、以下の画面で設定します。
サイト設定-情報抽出方法
デフォルトで以上のような設定になっています。この法則に従って抽出されたのが先ほどの情報です。
で、実際にどうすればいいのかは、抽出するHTMLファイルがどうなっているのか次第ですので、いろいろ試して最適な設定を探してみてください。
ただし、この画面はHTMLのタグの知識を持っている方が前提です。タグについての説明は省かさせて頂きますのでご了承ください。
ここを設定すると、細かくRSSの情報を制御できます。
例えば、HTMLファイルに直接RSS抽出用のタグを埋め込んで明示するなんていうこともできます。実際に自分も使っているテクニックですが、ファイル中に不可視のタグ(例:<A
name="RSSStart"></A>)を埋め込んでおいて、抽出条件にそれを指定しておけば、確実に抽出したい情報を抽出させることができます。
こんな感じに設定