PDF文書からテキストを抽出する

HyperEstraier

第二十一回論文PDFをHyper Estraierで検索できるようにするため，PDF文書をインデックスに登録する必要がある．しかし，Hyper Estraier付属のPDF文書用スクリプトはHTML文書に変換した後，インデックスに追加するという動作をしていた．さらに，タイトルにP…

Hyper Estraier Rubyクラスライブラリ

HyperEstraier

第二十回全文検索エンジンHyper Estraierをインストールしたわけだが，これをRubyから操作できるようにRubyクラスライブラリもインストールする．Rubyクラスライブラリには二つあり，「RubyNativeAPI」はRubyからHyper Estraierのデータベースを読んだり書…

HyperEstraier

第十九回さて，先日の続きである．研究室に論文PDFを閲覧できるWebサーバを設置したわけだが，その論文PDFは色々な学会ごとに分けられている．さらに，それぞれの学会のIndexページが存在し，そこから論文PDFへのリンクが張られているといった感じだ．これ…