2013年2月21日木曜日

自炊PDFの全文検索の件

Acrobat(Reader含む)で複数ファイルを指定して全文検索できることをようやく知りました。

・Acrobat / Adobe Reader から複数の PDF ファイルを対象に文字を検索することはできますか (Acrobat X / Adobe Reader X)
http://helpx.adobe.com/jp/acrobat/kb/3320.html

試してみたのですが、量が膨大になると無茶苦茶おそいです。GoogleデスクトップやSpotlightみたいにインデックス化して検索する方法があると言及されているのですが、肝心のインデックス作成の方法がが上記のページには載っていないので、探しました。

・PDFのインデックス作成
http://www.adobe.com/jp/designcenter/acrobat/articles/acr7at_pdfindex.html

このAdobeのヘルプにある《1. アドバンストメニューの「カタログ」を選択します。 カタログダイアログボックスが表示されます。》で、まずひっかかります。Acrobat Xには「アドバンスト」メニューがないのですよ。けっこうなFAQらしく、Adobeのフォーラムでも質問があがっています(でも、ヘルプには記載しない Adobeのイヤらしさ)。

・Acrobat X Catalog: Where IS IT????
http://forums.adobe.com/message/4101980

Acrobat X以降では「表示」→ツール「文書処理」で「カタログ付きインデックス」を選びます。

これでインデックスを(拡張子PDXのファイルとして)作成します。1TBくらいだと半日かかりました。たしかに高速に全文検索できて便利です。 ただ、今後に自炊PDFが増えたときにマニュアルで「再構築」して、インデックスファイルを更新しないといけないのが面倒です。ただし、インデック化する ディレクトリを指定できるので、自炊PDFを分野ごとにフォルダ管理しておけば、効率的な管理と検索ができます。でも、面倒くせーw

ともあれ、自炊PDFの全文検索についてはEvernoteとAcrobat(Readerを含む)の2つの方法になりますね。

Evernoteでのメリット/デメリット
○:OCRソフトがなくても自動認識
○:インデックスの自動更新
△:自炊PDFの登録が面倒(とくにMacは絶望的に面倒)
×:すぐに転送容量が40MBを越えるので、事実上有料会員になる必要がある
×:Evernote本体のアップデートのときに、インデックス再構成で異常に時間を喰うことがある

Acrobat・Acrobat Readerでのメリット/デメリット
○:Acrobat Readerでもできるので、無料可能
△:Readerの場合は別途OCRソフトが必要※
×:インデックス作成と更新が面倒
×:PDFだけのインデックス検索なので、Webの記事をクリップしているものを含めての網羅的な検索ができない

※でも、ほとんどのドキュメントスキャナにはAcrobatか別のOCRソフト付属しているので無問題といえます

Acrobatのほうは、MacだとAutomatorを使って自動化とかできそうであれば簡単なんですがね(カレンダーにアプリを登録して定期的に自動実行できるので)。

0 件のコメント:

コメントを投稿