アンケート詳細：Googleの大規模日本語データ公開に関する特別セッション

第四十八回

Googleは日本語の言語処理研究のためにWebインデックスから作成したコーパスデータの公開を予定しており，そのデータの形式や内容を含めた概要のたたき台を公開し，これらに対する研究者の意見を広く募りたい．

先日のエントリでお伝えしたように，Googleが日本語Webコーパスデータを学術用に公開するようです．そのときの公開データの形式や内容について，言語処理学会参加者からアンケートとして意見を募っていました．
このエントリでは，そのアンケートの内容を広く公開します．直接提出する先などはありませんが，Webのデータの話なので，Web上で広く議論してみるのも良いのではないでしょうか．

大規模日本語データ公開に関するアンケート

現在，提供データの候補として単語 n-gram および文節係り受けを考えています．ご自身の研究で利用してみたいデータは以下のいずれでしょうか？（ひとつ選択）

単語 n-gram
文節係り受け
単語 n-gram と文節係り受けの両方
どちらも利用したいと思わない

前問で3. とお答えになった方にお聞きします．データサイズに制限がある場合，以下のいずれの形態を希望されますか？（ひとつ選択）

n-gram のみ希望する
係り受けのみ希望する
データが少なくなってもいいので，n-gram と係り受けの両方を希望する
- 比率は，n-gram：係り受け = ___：___
その他（自由記入：

単語 n-gram および文節係り受け以外で望ましいデータがありましたら，ご記入ください．ただし，生文の公開は現状では困難です．（自由記入：

形態素の品詞情報は必要でしょうか？

n-gram/係り受けの数が少なくなっても良いので，必要
n-gram/係り受けの数が少なくなるなら，必要ない
その他（自由記入：

係り受けを用いる場合，文節単位の部分解析木を提供することを予定しています．どのような部分木が重要でしょうか？例文として「私は秋の京都が好きだ」を用います．（複数選択可）

係り元文節と係り先文節のペアのみ
- 例：私は-好きだ，秋の-京都が，京都が-好きだ
係り関係のチェイン
- 例：秋の-京都が-好きだ
兄弟関係にある文節および係り先文節
- 例：[私は，京都が，好きだ]
- この場合，元の語順により部分木を区別（すべき｜すげきではない）
その他（自由記入：

文節単位ではデータが非常にスパースになる可能性があるため，次のような処理をすることを検討しています．どのような処理が適切でしょうか？

文節を主辞と付属語（存在する場合）のペアでまとめる
1. に加え，たとえ長い文節でも高頻度であれば候補に含める
その他（自由記入：

形態素解析や係り受け解析を行う際，どのツールを使うべきでしょうか？（一つ選択

ChaSen(MeCab)，CaboCha
Juman，KNP
その他，オープンソースのツール等あればお知らせください（自由記入：

Webには，絵文字やアスキーアートといった非言語的な文字列も混在しています．それらの文字列はどのように扱うべきでしょうか？

区別無く全て含める
簡単なヒューリスティックス（文字列長，漢字/ひらがなの割合等）でスクリーニングする
その他，オープンソースのツール等あればお知らせください（自由記入：

n-gram/係り受けについては，データサイズ等の関係から低頻度のものはフィルタリングする予定でいます．それに加えて必要と思われるフィルタリングがありましたら，御記入下さい（自由記入：

配布データを使った研究を行いたいですか？

はい
いいえ
分からない

データを使ってどういった研究をしたいとお考えですか？またどんな応用が考えられますか？（自由記入：

その他ご意見があればお知らせください（自由記入：

アンケートについて

以上のような内容で，A4サイズの紙の両面を使ってアンケートが募られました．その場には，多くの専門家・研究者の方々がいらっしゃったので，多くの貴重な意見が寄せられたことと思います．しかし，まだまだ私たちの知らない意見や考え方が広く世の中には存在するのではないでしょうか．
皆さんもこのアンケートをご覧になって，全部は無理だけどこれだけは言いたいということなどあれば，トラックバックやコメントなどでお聞かせください．何度か出てきたオープンソース系のツールに関してなど，Web上に眠る多くの情報があることでしょう．

ご注意

このブログを書いている人は，Googleの関係者ではありません．好奇心の強いただの学生です．ブログへコメント・トラックバックをいただいてもそれがGoogleに必ず伝わるわけではありませんのでご了承ください．（見てもらえる可能性はありますが）
また，Publicな場での情報公開であったため，前回のエントリ内容も含めてブログへ書くことはかまわないのではないかと判断しました．

のほほん徒然