聞いてきました：Googleの大規模日本語データ公開に関する特別セッション

第四十七回

写真はGigazineのマネです(笑)

3月に滋賀で行われる言語処理学会全国大会で、グーグルが
特別セッションをやるそうです。大規模日本語データについて。

たつをさんのブログで知ったGoogleの特別セッション．

グーグル株式会社では、日本語の言語処理研究推進のため大規模日本語データの公開を検討しています。つきましては仕様を決定するにあたり、実際にデータを御利用頂く研究者 / 技術者の皆様の「生の声」を是非お伺いしたく存じます。今回、言語処理学会様の御好意により、下記のとおりデータ仕様に関する特別セッションを設けて頂ける事になりました。

はてなブックマークでも話題になっているGoogleの大規模日本語データ公開に関する特別セッション@NLP2007に，家が近いこともあり参加してきましたので，その詳細を書きます．

セッション概要と要旨

Googleは日本語の言語処理研究のためにWebインデックスから作成したコーパスデータの公開を予定しており，そのデータの形式や内容を含めた概要のたたき台を公開し，これらに対する研究者の意見を広く募りたい．

セッションスケジュール

日本語Webデータ公開に関するプレゼンテーション
質疑応答とディスカッション
アンケート

日本語Webデータ公開に関するプレゼンテーション

この特別セッションの目的

超大規模かつ基本的な言語処理済の日本語データ提供に対するデータ形式や内容のブラッシュアップ
超大規模規模データを前提とした学術研究は成り立つのかを探る

英語版Webコーパスデータの紹介

米Googleが公開している英語版のWebコーパスの紹介．（LDC経由で入手可能）→Web 1T 5-gram Version 1

日本語版Webコーパスデータにおける検討課題

どのような解析済みデータが良いのか
なにを使って事前処理を行うのか

日本語版Webコーパスデータにおける前提条件

オリジナルの文章を再現できないこと（「おはようございます」などの定型的な表現は除く）
- Webデータの著作権の問題から
Public Domain な手法，オープンソースツールを使った事前自動処理を施すこと

どのような解析済みデータが良いのかについて

Googleの考える現時点での提供データは，以下のデータを頻度およびデータサイズで足きりしたもの．

単語N-gram（文字のN-gramではない）
文節係り受けの部分木
- 係り元と係り先のペア
- 係り関係のチェイン
- 係り元の兄弟関係を付加したもの
- その他（ある程度の頻度がある部分木のパターンをとにかく全て出す etc.）

「他の形式で役に立つものある？」

なにを使って事前処理を行うのかについて

必要な事前自動処理としては以下のものが考えられる．

日本語文かどうかの判定
文分割（例えば，句読点や記号による区切り）
単語分割，形態素解析
係り受け解析

ここで，前提条件から原則として明確に定義され自由に使えるヒューリスティックな手法か，オープンソースのツールを利用することが条件になる．

公開サイズや時期などの予定

元となる日本語文は数十億文ほどを予定（スパース（疎）にならない程度で，できるだけ大きなデータを提供したい）
リリース目標は2007年夏末
事前自動処理の結果はエラー等も含めて全て公開する

質疑応答

会場や交通手段の時間の関係で全体での質疑応答は割愛されました．個別の質疑応答やメールでの質疑応答でお願いしますだそうです．

アンケート

提出はできませんが，アンケートの内容を~~後ほど~~全面公開します．ご自身のブログなどに書くと参考にしてもらえるかもしれません(笑)

追記：2007/03/22 00:00

募られたアンケートの内容についてエントリにしました．
のほほん徒然 - アンケート詳細：Googleの大規模日本語データ公開に関する特別セッション

これまでのブログ界隈の反応

もしかして Google の持っている大規模日本語データって、著作権者は Google じゃないんでは。いや、実際どういうデータを公開するのか知らないけど、その辺の権利関係も明確にしてから公開するんならすごいな。

文章は生に近い形で残しておいてもらった方がトピックモデルの研究には使いやすいと思う（というか、そうでないとたぶん無理。文書毎に統計取るとかしてないだろうし。）んだけど、それは著作権的に難しいだろうなぁ。

多くの方が危惧されているように，Webデータの著作権はGoogleにはないので，オリジナルの文章を再現できないことという前提条件の下，元の文章を機械的に処理した上で日本語コーパスデータとして公開するようです．
大規模Webデータといっても，かなり学術的なデータになるようで，言語処理やそこに関わる研究分野としては，今までになかった*1「書き言葉・話し言葉」での大規模なコーパスデータは歓迎できるものではないでしょうか．これによって，新しくおもしろい研究が生まれるといいですね．
なお，コーパスとか著作権，係り受け解析などの専門的な内容は誰かが解説してくれるのではないかと期待しつつ書いてみるメソッドを発動します．

*1:新聞からのコーパスとかはありましたが