pdfの全文検索エンジン「Honyomi」

http://honyomi.nagoya/ja/


Rubyで書かれたpdfの内容を全文検索できるOSSです。

pdfをtext化してDBやPHPなど各プログラム言語から検索したいと悩んでいる方が

多いと思いますが、全文検索エンジンはこれで決まりです。


中身がGroongaという全文検索エンジンなので超高速で検索可能

各プログラム言語やMysqlなどのDBとも相性がいいです。


高速で検索でき、使い方も簡単でとても素晴らしいOSSです。


-----------------------------------------------------

 PDFからテキストを抽出したいだけなら

Popplerに同梱のpdftotextコマンドでPDFからテキストを抽出できます。


追記:

Apache TikaでPDFを読む


Ruby で PDF と戯れるの巻 - Qiita


PDF To Markdown - PDFファイルをMarkdownに変換

-----------------------------------------------------

PDFの生成は

サーバサイドでHTMLをPDFに変換する「wkhtmltopdf」