TET PDF IFilter による PDF ファイルの検索

ここでは、皆様の Windows PC (デスクトップ環境 (XP、Vista、7 等) ) 上で TET PDF IFilter を使用し、PDF ファイルの内容をエクスプローラーから検索するまでの手順をご説明しています。

TET PDF IFilter は、PDF 文書からテキストやメタデータを抽出して Windows 検索ソフトウェアで利用できるようにする製品です。これにより、デスクトップ上の PDF 文書や企業内のネットワーク上の PDF 文書を検索することができるようになります。

TET PDF IFilter は、デスクトップ環境かつ非商用目的で利用する場合、無償でご利用いただけます。

TET PDF IFilter のインストール

TET PDF IFilterは、当サイトのダウンロードページからダウンロードしていただけます。

Windows 32ビット／64ビットからお客様の環境にあったバージョンを選択してダウンロードし、インストールを行ってください。

TET PDF IFilter のインストールが完了すると、既に PDF 文書を検索できる状態になっています。さっそく検索してみましょう。

検索はエクスプローラーから行います。XP の場合には、「ファイルとフォルダ全て」を選択し、「ファイルに含まれる単語または句」に検索したい語句を入力して検索します。Vista の場合には、検索バーに語句を入力して検索します。

テキストファイルや Microsoft Word などの Offile ファイルだけでなく、PDF ファイルも検索結果に現れるようになります。

※インデックスの作成状況により、再起動が必要な場合があります。

図1 Windows XP で「インフォテック」を検索した検索結果画面

TET PDF IFilter は、PDF 文書内に含まれるテキストを抽出します。イメージになっているテキストを検索したい場合には、あらかじめ OCR でテキスト化しておく必要があります。
Vista や 7 では、該当フォルダがインデックスを生成しない設定になっている場合があります。この場合は、フォルダのプロパティから詳細設定を開いて「検索を早くするため、このフォルダにインデックスを付ける」をチェックするか、高度な検索を使用して「インデックスのないファイル、隠しファイルおよびシステムファイルを含める」をチェックして検索する必要があります。

これまで説明したとおり、TET PDF IFilter をインストールするだけで PDF 文書の検索が可能になります。

最近では、紙の両面を同時にスキャンし OCR 処理も施してくれるような、高機能なスキャナーを手頃な価格で購入することができます。こうしたスキャナで生成される PDF ファイルを特定のフォルダに格納するよう設定することで、ペーパーレスな文書管理ツールとしてお使いいただけます。

また、TET PDF IFilter のベース技術である TETを利用すれば、適当なエリアのテキストを抽出してデータベースに格納するといった、より高機能な文書管理システムを構築することもできます。