Sponsored Link

extbody -- Blog&News本文領域抽出ツール

初出: 2007/7/23
Status: alpha

Blogのページや、ニュース記事のページから、本文を含む領域のHTMLを抽出します。
いくつもの経験則を組み合わせた抽出方法によって、80%程度の正解率で抽出できます。
日本語/英語を自動判定し、それぞれに対応した抽出を行います。
→もう少しくだけた紹介はこちら。

更新情報

→最新情報はこちらでどうぞ

抽出結果

はてなbookmarkの人気記事50記事を対象に、抽出テストを行ったところ、以下の結果を得ました。
正解34記事
半正解4記事(コメント欄が余分に抽出されたものや冒頭一文が抽出されていないもの。)
不正解9記事
ログインできず1記事
本文なし2記事
不正解の内訳は、2ch抜粋系のblogが半数ほど、残りは通常のblogでした。

ダウンロード等

extbody-0.1.1.tar.gz(右クリックで保存)
ライセンスは、Apacheライセンスv2.0なので自己責任でご利用ください。
(上記ファイルはMercurialリポジトリのcloneにもなっています。)

動作に必要な環境

また、内部でppkfを使用しております。(extbodyに内蔵しております。)

インストール

feedparserと、chardetをインストールしておきます。
以上が準備できれば、extbodyも以下のコマンドでインストールできます。
% python setup.py install

使用法

ayu@~% python
Python 2.5.1 (r251:54863, Jun 17 2007, 08:50:55) 
[GCC 4.0.1 (Apple Computer, Inc. build 5367)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import extbody
>>> body, newsFlag = extbody.extractor.extbodyByUrl("http://hiroshiykw.blogspot.com/2007/07/pylons.html")
>>> print body.encode("euc_jp")

      <p>
<a href="http://labs.unoh.net/2007/07/railspylonswiki.html">「Pylonsで簡易Wikiを作ってみる」</a>と、公式の
<a href="http://wiki.pylonshq.com/display/pylonsdocs/QuickWiki+Tutorial">QuickWiki Tutorial</a>に従ってwikiを作ってみた。
<br /><a href="http://sluggo.scrapping.cc/python/sacontext/">SAContext</a>の実例を上の記事で見ることができたのがうれしい。
ウノウの方のPython記事##毎回ためになるなあ。<br />(しかし、SAContextの人は北斗の拳の敵(のちょい役)みたいだね。
)<br /><br />djangoやTGをまともに触っていないんだけど、Pylonsは一番しっくりきそうな気がした。<br /><br />
TODO:<br /> 認証について調べる。<br /> SAContextのよりまとまった記事を探す。<br /> Makoドキュメントを
斜め読み。<br /> </p>
          
extbody.extractor.extbodyByUrl(...)の返り値は[本文, ニュースか否かフラグ]というリストです。