PDF文書からテキストを抽出する

HyperEstraier

第二十一回論文PDFをHyper Estraierで検索できるようにするため，PDF文書をインデックスに登録する必要がある．しかし，Hyper Estraier付属のPDF文書用スクリプトはHTML文書に変換した後，インデックスに追加するという動作をしていた．さらに，タイトルにP…

Hyper Estraier Rubyクラスライブラリ

HyperEstraier

第二十回全文検索エンジンHyper Estraierをインストールしたわけだが，これをRubyから操作できるようにRubyクラスライブラリもインストールする．Rubyクラスライブラリには二つあり，「RubyNativeAPI」はRubyからHyper Estraierのデータベースを読んだり書…

HyperEstraier

第十九回さて，先日の続きである．研究室に論文PDFを閲覧できるWebサーバを設置したわけだが，その論文PDFは色々な学会ごとに分けられている．さらに，それぞれの学会のIndexページが存在し，そこから論文PDFへのリンクが張られているといった感じだ．これ…

FedoraCore4 HyperEstraier

第十八回先日の日記で書いたように，大学の研究室で研究の助けとなるように，過去に発表された論文を保存していつでも閲覧・検索が出来るようにしようと試みた．とりあえず，先生からお借りしたLink-Stationを設置し，Apacheで運用するWebサーバにネットワ…