2006-05-01から1ヶ月間の記事一覧

PDF文書からテキストを抽出する

第二十一回 論文PDFをHyper Estraierで検索できるようにするため,PDF文書をインデックスに登録する必要がある.しかし,Hyper Estraier付属のPDF文書用スクリプトはHTML文書に変換した後,インデックスに追加するという動作をしていた.さらに,タイトルにP…

Hyper Estraier Rubyクラスライブラリ

第二十回 全文検索エンジンHyper Estraierをインストールしたわけだが,これをRubyから操作できるようにRubyクラスライブラリもインストールする.Rubyクラスライブラリには二つあり,「RubyNativeAPI」はRubyからHyper Estraierのデータベースを読んだり書…

全文検索エンジンHyper Estraier導入

第十九回 さて,先日の続きである.研究室に論文PDFを閲覧できるWebサーバを設置したわけだが,その論文PDFは色々な学会ごとに分けられている.さらに,それぞれの学会のIndexページが存在し,そこから論文PDFへのリンクが張られているといった感じだ.これ…