アンケート詳細:Googleの大規模日本語データ公開に関する特別セッション
第四十八回
Googleは日本語の言語処理研究のためにWebインデックスから作成したコーパスデータの公開を予定しており,そのデータの形式や内容を含めた概要のたたき台を公開し,これらに対する研究者の意見を広く募りたい.
先日のエントリでお伝えしたように,Googleが日本語Webコーパスデータを学術用に公開するようです.そのときの公開データの形式や内容について,言語処理学会参加者からアンケートとして意見を募っていました.
このエントリでは,そのアンケートの内容を広く公開します.直接提出する先などはありませんが,Webのデータの話なので,Web上で広く議論してみるのも良いのではないでしょうか.
大規模日本語データ公開に関するアンケート
前問で3. とお答えになった方にお聞きします.データサイズに制限がある場合,以下のいずれの形態を希望されますか?(ひとつ選択)
係り受けを用いる場合,文節単位の部分解析木を提供することを予定しています.どのような部分木が重要でしょうか?例文として「私は秋の京都が好きだ」を用います.(複数選択可)
- 係り元文節と係り先文節のペアのみ
- 例:私は-好きだ,秋の-京都が,京都が-好きだ
- 係り関係のチェイン
- 例:秋の-京都が-好きだ
- 兄弟関係にある文節および係り先文節
- 例:[私は,京都が,好きだ]
- この場合,元の語順により部分木を区別(すべき|すげきではない)
- その他(自由記入:
文節単位ではデータが非常にスパースになる可能性があるため,次のような処理をすることを検討しています.どのような処理が適切でしょうか?
- 文節を主辞と付属語(存在する場合)のペアでまとめる
- 1. に加え,たとえ長い文節でも高頻度であれば候補に含める
- その他(自由記入:
Webには,絵文字やアスキーアートといった非言語的な文字列も混在しています.それらの文字列はどのように扱うべきでしょうか?
配布データを使った研究を行いたいですか?
- はい
- いいえ
- 分からない
データを使ってどういった研究をしたいとお考えですか?またどんな応用が考えられますか?(自由記入:
その他ご意見があればお知らせください(自由記入:
アンケートについて
以上のような内容で,A4サイズの紙の両面を使ってアンケートが募られました.その場には,多くの専門家・研究者の方々がいらっしゃったので,多くの貴重な意見が寄せられたことと思います.しかし,まだまだ私たちの知らない意見や考え方が広く世の中には存在するのではないでしょうか.
皆さんもこのアンケートをご覧になって,全部は無理だけどこれだけは言いたいということなどあれば,トラックバックやコメントなどでお聞かせください.何度か出てきたオープンソース系のツールに関してなど,Web上に眠る多くの情報があることでしょう.