Memo

聞いてきました:Googleの大規模日本語データ公開に関する特別セッション

第四十七回 写真はGigazineのマネです(笑) 3月に滋賀で行われる言語処理学会全国大会で、グーグルが 特別セッションをやるそうです。大規模日本語データについて。 たつをさんのブログで知ったGoogleの特別セッション. グーグル株式会社では、日本語の言語…

アンケート詳細:Googleの大規模日本語データ公開に関する特別セッション

第四十八回 Googleは日本語の言語処理研究のためにWebインデックスから作成したコーパスデータの公開を予定しており,そのデータの形式や内容を含めた概要のたたき台を公開し,これらに対する研究者の意見を広く募りたい. 先日のエントリでお伝えしたように…

Meadow メモ

第四十一回 Windows XPで本格的に使えるEditorを探していましたが,MeadowがEmacsに似て使いやすそうなのでインストールして設定してみました.なので,色んなメモをここに残していきます. 環境 Windows XP インストールディレクトリ(兼ホームディレクトリ…

ブラウザの「お気に入り」はテレビのリモコンなんじゃないか

第三十三回 最近,普通の人はWebブラウジングのとき常に「お気に入り」をサイドバーに表示してるらしいという話題がある. ■一般的なネットユーザーは常にお気に入りを(ブラウザ左側に)表示しているこれ。これどうなの?みんなそういう風にしてネットを見て…

大学で卒業研究をしなくちゃいけない理由

第二十九回もちろん,卒業するため.以上. と言ってしまうとかなり乱暴なので,現実に今大学院生をやっている自分なりにその理由について考えてみる. 先に簡単にまとめておくと以下の2点のような気がする. 人に物事をわかりやすく伝える 目に見える成果を…

Rubyのソースコードに色を付ける

第二十八回はてなダイアリーのヘルプを見ていると発見した. スーパーpre記法の応用で可能になるようだ.とりあえずテストしてみる. class Foo def bar'baz' # return baz end end 今まではただのスーパーpreで表示させていたので,見やすくなったんじゃな…

Linuxのwgetのようなコマンドcurl

ファイルをダウンロードするにはcurlというコマンドを使う. 実はファイルダウンロードだけではなく,アップロードとかもできるらしい. 利用例(コマンドライン) curl -L -O http://rubyforge.org/frs/download.php/11289/rubygems-0.9.0.tgz % Total % Re…

Ruby on Rails Self-referential has_many :through associations

第二十六回 というわけで,Railsで自己参照多対多アソシエーションをhas_many :throughを利用して実装してみるメモ. 今回用意したサンプルはWebページがリンクで繋がってるイメージ.ERDは以下の画像みたいな感じ. それぞれのmodelはこんな感じ. class Pa…

ようやくLudiaのインストール

cd /usr/local/src wget http://keihanna.dl.sourceforge.jp/ludia/22126/ludia-0.8.0.tar.gz tar xvfz ludia-0.8.0.tar.gz cd ludia-0.8.0 chmod a+x install-sh ./configure make sudo make installこれでインストール完了.最後にRailsからPostgreSQLをさ…

オープンソースDBMS PostgreSQL8.1.4をインストール

自分はPostgreSQLを初めて使ってみる.最新版の8.1.4を利用するのでソースからインストール. cd /usr/loval/src wget ftp://ftp.jp.postgresql.org/source/v8.1.4/postgresql-8.1.4.tar.gz tar xvfz postgresql-8.1.4.tar.gz cd postgresql-8.1.4 ./configu…

全文検索エンジンSennaインストール

Sennaは「センナ」ではなく「セナ」と読むらしい.という訳で以下の手順でインストール. cd /usr/local/src wget http://keihanna.dl.sourceforge.jp/senna/21716/senna-0.8.1.tar.gz tar xvfz senna-0.8.1.tar.gz cd senna-0.8.1 export CFLAGS='-I/usr/lo…

形態素解析器MeCabのインストール

以下の手順でインストールした. 必須ではないが,自分でMeCabをRubyから使うので品詞IDを利用できるようにしておいた. MeCab-0.96からは品詞IDの利用がデフォルトで有効になっているため,以下のうちMakefileの修正は不要です. cd /usr/local/src wget ht…

MySQLでmigrate時に『BLOB/TEXT column 'url' used in key specification without a key length』と怒られた

第二十四回 日本語Wikipediaの全文書を母集合にして単語のIDFテーブルを作ってて(相変わらず一週間くらいかかるのだが),どうもUTF-8でエスケープしたURLがMySQLのvarchar(255)に入りきっていないようなので,migrationしてみると怒られたので,直接MySQL…

MeCabの品詞ID(pos-id)を使う

第二十三回 文書をMeCabを使って形態素解析していたが,名詞だけを抜き出したいとか,固有名詞だけが必要というときに,今までは品詞情報から正規表現でマッチさせて場合分けしていた.これがやっぱり処理としては遅いようだ. そこで,品詞情報から正規表現…