パーソナルビジネスソフトとお役立ち情報のサイト
PDFlib TET PDF IFilterの概要

TET PDF IFilterとは

TET PDF IFilterはPDF文書テキスト、メタデータを抽出してWindows検索ソフトウェアで利用可能にする製品です。これにより、PDF文書をローカルデスクトップ、または企業のサーバーやウェブ上で捜すことが可能になります。 TET PDF IFilterは、PDFlib Text Extraction Toolkit(TET)を基盤としています。

TET PDF IFilterはマイクロソフトのIFilterインデックスインタフェースを堅牢に実装しています。 SharePoint、SQL ServerなどのIFilterインターフェースをサポートする全ての検索と検索製品で動作します。 例えばHTMLなどのようにIFilterはフォーマットごとに特有のフィルタ・プログラムを使用します。 TET PDF IFilterはPDF文書を対象としたフィルタ・プログラムです。 文書を捜すユーザインタフェースは、Windows Explorer、ウェブやデータベースフロントエンド、クエリスクリプトまたはカスタムアプリケーションが考えられます。 対話的な検索だけでなく、ユーザーインターフェースのないプログラムからでも利用できます。

TETテクノロジーの利用

TET PDF IFilterのベースとなるPDFlib TETは、2002年に最初にリリースされて以来、サーバーとデスクトップ環境で世界中のユーザーによって利用されています。 TET は PDF のページの内容やメタデータをテキストとして抽出する だけでなく、XML としても提供することが可能です。 TETは、Adobe Acrobatのための無償のプラグインとしても使われています。このプラグインは、TETの優れたテキスト抽出のテストと評価を可能にします。

TET PDF IFilter の特徴

TET PDF IFilterの特徴は以下の通りです。
  • Acrobatでは失敗してしまう破損したPDFからのテキストの抽出
  • ページ内容だけでなく、文書とイメージ関連のメタデータ、ブックマーク、PDF添付ファイルとPDFパッケージ/ポートフォリオもインデックスの対象となります
  • パフォーマンス:スレッドセーフで32、64ビット共に高速かつ堅牢
  • 他に影響を与えることなくスタンドアロンで動作
  • 言語、スクリプトの自動検出
  • 専門チームによる活発なサポート

エンタープライズPDF検索

TET PDF IFilterはスレッドセーフで32、64ビットのバージョンで利用可能です。TET PDF IFilterと以下の製品によりPDFファイルを企業で必要な検索対象とすることができます。
  • Microsoft Office SharePoint Server (MOSS)
  • Microsoft Search Server 2008, Search Server 2008 Express
  • Microsoft SQL Server
  • Microsoft Exchange Server
その他、IFilterインターフェースをサポートするマイクロソフト、 その他全ての製品でTET PDF IFilterをご利用いただくことができます。

デスクトップPDFサーチ

TET PDF IFilterを使用すると、以下の製品でデスクトップPDFサーチを実現することができます。
  • Windows Desktop Search:Windows Vistaでの融合; またWindows XPでも自由に利用することができます
  • Windows Indexing Service
TET PDF IFilterは非商業的な使用目的のためであれば無償でご利用いただけます。

対応するPDF

TET PDF IFilterは、次のようなすべてのPDFファイルをサポートします。
  • PDF1.8(Acrobat9)までのすべてのPDFのバージョン
  • 表示用のパスワードを必要としない暗号化されたPDF
  • 破損したPDF文書は可能な限り修復可能

XMP文書メタデータと文書情報

TET PDF IFilterの高度なメタデータの拡張された実装はWindowsプロパティシステムをサポートし、 標準のまたはカスタムの文書情報だけでなく、XMPメタデータにもインデックスを付けます。メタデータへのインデックスにはいくつかのレベルにおいて設定可能です。
  • 例えばタイトル、サブジェクト、作者などの文書情報入力、ダブリンコアフィールド、および他の共通のXMPプロパティは同等のWindowsプロパティにマッピングします
  • ページサイズ、PDF/A対応レベル、フォント名など、TET PDF IFilterがPDF固有の仮想プロパティを追加します
  • すべての定義されたXMPプロパティは検索可能、dc:rights、xmpRights:UsageTerms、xmp:CreatorTool
  • 企業固有のプロパティ、PDF/A拡張スキームなど、ユーザー定義のXMPプロパティが検索可能


TET PDF IFilterはフルテキストインデックスのメタデータをオプションで統合します。 それにより、SQL Serverのようなメタデータサポートのないフルテキストサーチ・エンジンでもメタデータを検索できるようになります。

XMPイメージメタデータ

文書メタデータに加えて、TET PDF IFilterは個々のイメージに添付されてたXMPメタデータもサポートします。 デジタルカメラから Photoshop による編集、ページレイアウトの作成、および PDF の作成など、最近では、メタデータはイメージと共に移動します。 TET PDF IFilterはXMPイメージメタデータ検索を可能にします。 例えば、写真家などにより作成されたイメージを含んでいる文書を検索できます。

国際化

TET PDF IFilterは、CJK(中国、日本、韓国語)テキストにも対応しています。 すべてのCJKのエンコーディングが可能であり、縦書き、横書きの出力モードにも対応しています。

PDFが持つコンテンツ以外の有用な情報

TET PDF IFilterは、PDF文書を、単純なテキストではなくさまざまなデータがあることを想定しています。TET PDF IFilterは、PDF文書の以下の項目にインデックスを付けます。
  • ページ内容
  • テキストブックマーク
  • 埋め込まれたPDFは以後テキストが検索できるよう再帰的に処理
  • PDFパッケージの中のすべての文書にインデックスを付けることが可能、 PDFパッケージは、1つのPDFファイルを複数のドキュメントに分類するためのAcrobat8(Acrobat9ではポートフォリオと呼ばれる)の特徴です

TET PDF IFilterの入手方法

TET PDF IFilterは、当サイトのダウンロードページからダウンロードして試用することができます。

ダウンロードされた評価版ソフトウェアはご購入後送付するライセンスキーを適用することにより、フルバージョンの製品としてご利用いただけます。

本製品のご注文方法については、PDFlib製品の価格と購入方法をご覧ください。また機能の詳細についてはダウンロードしたパッケージに含まれているマニュアルを参照ください。


(注)本記事はPDFlib社のPDFlib TET PDF IFilterデータシートを参考にして作成しています。
(Nov 17, 2005 - Aug 18, 2008)