TET PDF IFilterとは
TET PDF IFilterはPDF文書テキスト、メタデータを抽出してWindows検索ソフトウェアで利用可能にする製品です。これにより、PDF文書をローカルデスクトップ、または企業のサーバーやウェブ上で捜すことが可能になります。
TET PDF IFilterは、PDFlib Text Extraction Toolkit(TET)を基盤としています。
TET PDF IFilterはマイクロソフトのIFilterインデックスインタフェースを堅牢に実装しています。 SharePoint、SQL ServerなどのIFilterインターフェースをサポートする全ての検索と検索製品で動作します。 例えばHTMLなどのようにIFilterはフォーマットごとに特有のフィルタ・プログラムを使用します。 TET PDF IFilterはPDF文書を対象としたフィルタ・プログラムです。 文書を捜すユーザインタフェースは、Windows Explorer、ウェブやデータベースフロントエンド、クエリスクリプトまたはカスタムアプリケーションが考えられます。 対話的な検索だけでなく、ユーザーインターフェースのないプログラムからでも利用できます。
TET PDF IFilterはマイクロソフトのIFilterインデックスインタフェースを堅牢に実装しています。 SharePoint、SQL ServerなどのIFilterインターフェースをサポートする全ての検索と検索製品で動作します。 例えばHTMLなどのようにIFilterはフォーマットごとに特有のフィルタ・プログラムを使用します。 TET PDF IFilterはPDF文書を対象としたフィルタ・プログラムです。 文書を捜すユーザインタフェースは、Windows Explorer、ウェブやデータベースフロントエンド、クエリスクリプトまたはカスタムアプリケーションが考えられます。 対話的な検索だけでなく、ユーザーインターフェースのないプログラムからでも利用できます。
TETテクノロジーの利用
TET PDF IFilterのベースとなるPDFlib TETは、2002年に最初にリリースされて以来、サーバーとデスクトップ環境で世界中のユーザーによって利用されています。
TET は PDF のページの内容やメタデータをテキストとして抽出する
だけでなく、XML としても提供することが可能です。
TETは、Adobe Acrobatのための無償のプラグインとしても使われています。このプラグインは、TETの優れたテキスト抽出のテストと評価を可能にします。
TET PDF IFilter の特徴
TET PDF IFilterの特徴は以下の通りです。
- Acrobatでは失敗してしまう破損したPDFからのテキストの抽出
- ページ内容だけでなく、文書とイメージ関連のメタデータ、ブックマーク、PDF添付ファイルとPDFパッケージ/ポートフォリオもインデックスの対象となります
- パフォーマンス:スレッドセーフで32、64ビット共に高速かつ堅牢
- 他に影響を与えることなくスタンドアロンで動作
- 言語、スクリプトの自動検出
- 専門チームによる活発なサポート
エンタープライズPDF検索
TET PDF IFilterはスレッドセーフで32、64ビットのバージョンで利用可能です。TET PDF IFilterと以下の製品によりPDFファイルを企業で必要な検索対象とすることができます。
- Microsoft Office SharePoint Server (MOSS)
- Microsoft Search Server 2008, Search Server 2008 Express
- Microsoft SQL Server
- Microsoft Exchange Server
デスクトップPDFサーチ
TET PDF IFilterを使用すると、以下の製品でデスクトップPDFサーチを実現することができます。
- Windows Desktop Search:Windows Vistaでの融合; またWindows XPでも自由に利用することができます
- Windows Indexing Service
対応するPDF
TET PDF IFilterは、次のようなすべてのPDFファイルをサポートします。
- PDF1.8(Acrobat9)までのすべてのPDFのバージョン
- 表示用のパスワードを必要としない暗号化されたPDF
- 破損したPDF文書は可能な限り修復可能
XMP文書メタデータと文書情報
TET PDF IFilterの高度なメタデータの拡張された実装はWindowsプロパティシステムをサポートし、
標準のまたはカスタムの文書情報だけでなく、XMPメタデータにもインデックスを付けます。メタデータへのインデックスにはいくつかのレベルにおいて設定可能です。
TET PDF IFilterはフルテキストインデックスのメタデータをオプションで統合します。 それにより、SQL Serverのようなメタデータサポートのないフルテキストサーチ・エンジンでもメタデータを検索できるようになります。
- 例えばタイトル、サブジェクト、作者などの文書情報入力、ダブリンコアフィールド、および他の共通のXMPプロパティは同等のWindowsプロパティにマッピングします
- ページサイズ、PDF/A対応レベル、フォント名など、TET PDF IFilterがPDF固有の仮想プロパティを追加します
- すべての定義されたXMPプロパティは検索可能、dc:rights、xmpRights:UsageTerms、xmp:CreatorTool
- 企業固有のプロパティ、PDF/A拡張スキームなど、ユーザー定義のXMPプロパティが検索可能
TET PDF IFilterはフルテキストインデックスのメタデータをオプションで統合します。 それにより、SQL Serverのようなメタデータサポートのないフルテキストサーチ・エンジンでもメタデータを検索できるようになります。
XMPイメージメタデータ
文書メタデータに加えて、TET PDF IFilterは個々のイメージに添付されてたXMPメタデータもサポートします。
デジタルカメラから Photoshop による編集、ページレイアウトの作成、および PDF の作成など、最近では、メタデータはイメージと共に移動します。
TET PDF IFilterはXMPイメージメタデータ検索を可能にします。
例えば、写真家などにより作成されたイメージを含んでいる文書を検索できます。
国際化
TET PDF IFilterは、CJK(中国、日本、韓国語)テキストにも対応しています。
すべてのCJKのエンコーディングが可能であり、縦書き、横書きの出力モードにも対応しています。
PDFが持つコンテンツ以外の有用な情報
TET PDF IFilterは、PDF文書を、単純なテキストではなくさまざまなデータがあることを想定しています。TET PDF IFilterは、PDF文書の以下の項目にインデックスを付けます。
- ページ内容
- テキストブックマーク
- 埋め込まれたPDFは以後テキストが検索できるよう再帰的に処理
- PDFパッケージの中のすべての文書にインデックスを付けることが可能、 PDFパッケージは、1つのPDFファイルを複数のドキュメントに分類するためのAcrobat8(Acrobat9ではポートフォリオと呼ばれる)の特徴です
TET PDF IFilterの入手方法
TET PDF IFilterは、当サイトのダウンロードページからダウンロードして試用することができます。
ダウンロードされた評価版ソフトウェアはご購入後送付するライセンスキーを適用することにより、フルバージョンの製品としてご利用いただけます。
本製品のご注文方法については、PDFlib製品の価格と購入方法をご覧ください。また機能の詳細についてはダウンロードしたパッケージに含まれているマニュアルを参照ください。
ダウンロードされた評価版ソフトウェアはご購入後送付するライセンスキーを適用することにより、フルバージョンの製品としてご利用いただけます。
本製品のご注文方法については、PDFlib製品の価格と購入方法をご覧ください。また機能の詳細についてはダウンロードしたパッケージに含まれているマニュアルを参照ください。
(注)本記事はPDFlib社のPDFlib TET PDF IFilterデータシートを参考にして作成しています。
|
|
|



