形態素解析

積読の記事のサーベイ、その1。形態素解析とTF-IDFを用いるのはキーワード抽出の基本的や方法ですが、そこにYahoo! APIも組み合わせちゃおうというやり方。

手順は、次のとおり。

  1. TFの計算:形態素解析で名詞だけキーワードとして抽出(ここではChasen使用)
  2. 全ドキュメント数の確定:Yahoo!でインデックスされているページ数
  3. DFの計算:キーワードが含まれるドキュメント数をYahoo! APIでゲット
  4. TD-IDFの計算

関連情報はこちら。