PDFlib PDF 文書処理ライブラリー   PDFlib PDF 文書処理ライブラリー
インフォテックトップページ
検索 
PDFlib TET 4.1 リリース
 メンテナンスバージョン PDFlib TET 4.1 がリリースされました。(2/27)
 iPhone / iPad / Android 版 PDFlib TET がリリースされました。(2/27)
 メンテナンスバージョン PDFlib TET PDF IFilter 4.4 がリリースされました。(2/27)
 PDFlib TET Plugin 4.3 がリリースされました。(2/27)
PDFlib TET 4.0 日本語マニュアルリリース
 PDFlib TET 4.0 リファレンスマニュアルの日本語版がリリースされました(11/24)。

PDFlib TET PDF IFilter    (検索テキスト抽出ツール)

PDFlib TET PDF IFilter は PDF 文書からテキストとメタデータを抽出し、Windows 検索ソフトウェアで利用可能にする製品です。これにより、PDF 文書の内容をローカルのデスクトップ上や企業のサーバー上から検索できるようになります。PDFlib TET PDF IFilter は、PDFlib Text Extraction Toolkit(TET) をベースにしています。

PDFlib TET PDF IFilter はマイクロソフト社の IFilter インデックスインタフェース(注)を堅牢に実装しており、SharePoint、SQL Server などの IFilter インターフェースをサポートする全ての検索ソフトウェアと連携します。PDFlib TET PDF IFilter は PDF 文書を対象とした PDF フォーマット専用のフィルタプログラムです。文書を検索するユーザインタフェースは、Windows Explorer、ウェブやデータベースフロントエンド、クエリスクリプト、カスタムアプリケーションなどが考えられます。対話的な検索だけでなく、ユーザーインターフェースのないプログラムからでも利用できます。

(注) 検索テキストを検索またはインデックス化する際に、各文書から検索テキストを抽出する処理を分離するためのインターフェースです。検索対象とする文書フォーマット毎にこのインターフェースを用意します。

TET テクノロジーの利用

PDFlib TET PDF IFilter のベースとなる PDFlib TET は、2002年に初めてリリースされて以来、サーバー環境とデスクトップ環境で世界中のお客様に利用されています。PDFlib TET は PDF のページ内容やメタデータをテキストとして抽出するだけでなく、XML としても提供することができます。PDFlib TET は、Adobe Acrobat のための無償プラグインとしても利用できます。このプラグインを使えば、PDFlib TET の優れたテキスト抽出を対話的にテスト、評価することができます。

TET PDF IFilter の特長

PDFlib TET PDF IFilter の特長は以下の通りです。
  • 欧米テキストや、中国語、日本語、韓国語(CJK)テキスト、右から左に記述するアラビア語、ヘブライ語など のテキストをサポート
  • 保護されたドキュメントのインデックス化や Acrobat では開けない PDF からの抽出
  • Unicode のフォルディング、デコンポジッション、ノーマライゼーションをサポート
  • スレッドセーフ、高速、堅牢で、32ビット版・64ビット版をご用意
  • 検索精度向上のために言語や文字体系を自動検出

企業向けPDF検索

TET PDF IFilter はスレッドセーフで 32ビット版と64ビット版が利用できます。TET PDF IFilter と以下と組み合わせて利用することで、企業向け PDF 検索ソリューションを実現することができます。
  • Microsoft SharePoint Server
  • Microsoft Search Server
  • Microsoft SQL Server
  • Microsoft Exchange Server
  • Microsoft Site Server
その他、IFilter インターフェースをサポートするすべての Microsoft 社製品やサードパーティ製品でご利用いただくことができます。

デスクトップ PDF 検索

TET PDF IFilter は以下の製品と組み合わせることで、デスクトップ向け PDF 検索を実現することができます。
  • Windows Search (Windows Vista/7 に内蔵。Windows XP 用の無償アドオンでも利用可能)
  • Windows Indexing Service
PDFlib TET PDF IFilter は、デスクトップ OS での非商用利用であれば無償でご利用いただけます。 また、サーバー環境においても、すべての機能を試用、評価することができます。

対応するPDF

TET PDF IFilter は、あらゆる種類の PDF の入力に対応しています。
  • ISO 32000-1 を含む 、Acrobat 9 までの全ての PDF のバージョン
  • 表示用のパスワードを必要としない暗号化された PDF
  • 破損した PDF 文書も修復

Unicode への後処理

より良い検索結果が得られるように、TET PDF IFilter は Unicode への様々な後処理をサポートしています。
  • フォルディングは、文字の保持や削除、置換を行います。例えば、検索と無関係な句読点や不要な文字を削除します。
  • デコンポジッションは、文字を一字ないし複数の等価な文字列に置き換えます。例えば、半角カタカナや「`」等の Shift-JIS 特有の文字を標準的で等価な Unicode 文字に置き換えます。
  • ノーマライゼーションは、テキストをすべて4バイトの Unicode に変換します。例えば、データベースの要件に合うように NFC 形式で出力します。

国際化

TET PDF IFilterは、西洋テキストに加え、CJK (中国語、日本語、韓国語)テキストに完全対応しています。すべての CJK のエンコーディングを認識でき、縦書き、横書きの出力モードにも対応しています。アラビア語ヘブライ語などの右から左に記述する言語もサポートしています。

PDF が持つコンテンツ以外の有用な情報

TET PDF IFilter は、PDF文書をページ内容以上の情報を持つものとして扱います。TET PDF IFilter は、PDF 文書内の以下の項目にインデックスを付けます。
  • ページ内容
  • テキストしおり
  • メタデータ(後述)
  • 添付されている PDF 文書内のテキストも検索できるように、添付された PDF 文書や PDF パッケージ/ポートフォリオを再帰的に処理

XMP文書メタデータと文書情報

TET PDF IFilter の高度なメタデータ実装はメタデータ向けの Windows プロパティシステムをサポートしており、 標準の、またはカスタムの文書情報項目だけでなく、XMPメタデータにもインデックスを付けます。メタデータのインデックシングは、以下のレベルに設定することができます。
  • タイトル、サブジェクト、作者などを表す文書情報項目やダブリンコアフィールド、その他の共通の XMP プロパティを、等価な Windows プロパティに割り当てる
  • ページサイズ・PDF/A 準拠レベル・フォント名などの有用な情報を、 PDF 固有の仮想プロパティとして追加
  • すべての定義済み XMP プロパティを検索可能
  • 企業固有プロパティ、PDF/A 拡張スキーマなどの、ユーザー定義の XMP プロパティを検索可能

TET PDF IFilter はオプションとして、メタデータをフルテキストインデックスに統合します。 それにより、SQL Server のようなメタデータをサポートしていないフルテキスト検索エンジンでも、メタデータを検索することができます。

TET PDF IFilter の入手方法

TET PDF IFilter は、当サイトのダウンロードページからダウンロードして試用することができます。

ダウンロードされた評価版ソフトウェアはご購入後送付するライセンスキーを適用することにより、フルバージョンの製品としてご利用いただけます。 また、TET PDF IFilter はデスクトップ OS 上での非商用な用途につきましては、無償でご利用いただけます。

本製品のご注文方法については、PDFlib 製品の価格と購入方法をご覧ください。また機能の詳細についてはダウンロードしたパッケージに含まれているマニュアルを参照ください。

(注)本記事は PDFlib 社の PDFlib TET PDF IFilter データシートを参考にして作成しています。
(Nov 17, 2005 - Aug 2, 2010)