Googleが日本語n-gramデータを公開

直接自分の研究分野には関係ないですが、興味深いネタとして。以前話題になった、今年の3月に龍谷大学@瀬田キャンパスで行われた、言語処理学会全国大会の特別セッションで紹介された、Googleの大規模日本語データの公開が現実のものとなりました。

このたび、Web から抽出した約200億文(約2550億単語)の日本語データから作成したn-gramデータ(1〜7 gram)を公開致しました。データの配布にあたっては特定非営利活動法人 言語資源協会(以下、GSK)の言語資源流通サービスを利用させて頂いており、団体・個人の区別なく御利用頂けます。詳しくはこちらのページを御覧下さい。(なおデータ配布についてのお問い合わせはGSKへお願い致します。)

Google Japan Blog: 大規模日本語 n-gram データの公開

Googleの「20%ルール」を使った成果ということですが、素晴らしい成果ですね。MeCabも活用されたよで、日本発のツールが活用された(というか開発者の方がGoogleにいるわけですが)という意味でも、大きな意義があると思います。