なんでもRSSのHack
今日、何気なくBlogWatcher(
東京工業大学
精密工学研究所
奥村研究室)を見に行ったら、BlogWatcherが3.0b公開に備えて、サービス中断がされていた。
しかたなく、BlogWatcherの一機能である「なんでもRSS!」は動いていたので、その機能をHackしてみた。
CGI-URL
http://blogwatcher.pi.titech.ac.jp/nandemorss/index.cgi
取得方法
getのみ?(postは試していない)
パラメータ
url=http://www.synapse.jp/(ターゲットURLをutf-8エンコーディングして渡す。)
mode=rss
このレスポンス結果は、こちら。
取得されるRSSフィードのURLを返してくれる。
よく見ると、CGIパラメータに'type='が追加されているので、構文パターンに応じたRSSフィードをtype指定で返すようである。
シナプストップページ(www.synapse.jp)の場合、3つのRSSフィードURL一覧が返されたので、type指定をつけて再度呼び出してみたときのレスポンス結果は、こちら。
やったー、ものの見事にRSSフィードが返される。
HTMLそのものを解析するMyRSS.jpと比較して、日付を含む表現とHTML構文パターンからRSSフィードに適するものを抽出するため、Hackする際に、抽出パターンの指定が必要らしい。ターゲットサイトごとに、mode=rssを指定して、RSSフィードURL一覧を入手し、再度RSSフィード単位に再呼び出しをかければ、すべてのRSSフィードを入手できる。
明日、東京出張なので、ビジネスショウと同時開催のIPAのブースに出展している奥村先生か南野さんに、商用利用していいか訊ねてみよう。
コメント