PDFlib TET 4.1 リリース
メンテナンスバージョン PDFlib TET 4.1 がリリースされました。(2/27)
iPhone / iPad / Android 版 PDFlib TET がリリースされました。(2/27)
メンテナンスバージョン PDFlib TET PDF IFilter 4.4 がリリースされました。(2/27)
PDFlib TET Plugin 4.3 がリリースされました。(2/27)
PDFlib TET 4.0 日本語マニュアルリリース
PDFlib TET 4.0 リファレンスマニュアルの日本語版がリリースされました(11/24)。
メンテナンスバージョン PDFlib TET 4.1 がリリースされました。(2/27)
iPhone / iPad / Android 版 PDFlib TET がリリースされました。(2/27)
メンテナンスバージョン PDFlib TET PDF IFilter 4.4 がリリースされました。(2/27)
PDFlib TET Plugin 4.3 がリリースされました。(2/27)
PDFlib TET 4.0 日本語マニュアルリリース
PDFlib TET 4.0 リファレンスマニュアルの日本語版がリリースされました(11/24)。
PDFlib TET PDF IFilter (検索テキスト抽出ツール)
PDFlib TET PDF IFilter は PDF 文書からテキストとメタデータを抽出し、Windows 検索ソフトウェアで利用可能にする製品です。これにより、PDF 文書の内容をローカルのデスクトップ上や企業のサーバー上から検索できるようになります。PDFlib TET PDF IFilter は、PDFlib Text Extraction Toolkit(TET) をベースにしています。
PDFlib TET PDF IFilter はマイクロソフト社の IFilter インデックスインタフェース(注)を堅牢に実装しており、SharePoint、SQL Server などの IFilter インターフェースをサポートする全ての検索ソフトウェアと連携します。PDFlib TET PDF IFilter は PDF 文書を対象とした PDF フォーマット専用のフィルタプログラムです。文書を検索するユーザインタフェースは、Windows Explorer、ウェブやデータベースフロントエンド、クエリスクリプト、カスタムアプリケーションなどが考えられます。対話的な検索だけでなく、ユーザーインターフェースのないプログラムからでも利用できます。
(注) 検索テキストを検索またはインデックス化する際に、各文書から検索テキストを抽出する処理を分離するためのインターフェースです。検索対象とする文書フォーマット毎にこのインターフェースを用意します。
TET テクノロジーの利用
PDFlib TET PDF IFilter のベースとなる PDFlib TET は、2002年に初めてリリースされて以来、サーバー環境とデスクトップ環境で世界中のお客様に利用されています。PDFlib TET は PDF のページ内容やメタデータをテキストとして抽出するだけでなく、XML としても提供することができます。PDFlib TET は、Adobe Acrobat のための無償プラグインとしても利用できます。このプラグインを使えば、PDFlib TET の優れたテキスト抽出を対話的にテスト、評価することができます。TET PDF IFilter の特長
PDFlib TET PDF IFilter の特長は以下の通りです。- 欧米テキストや、中国語、日本語、韓国語(CJK)テキスト、右から左に記述するアラビア語、ヘブライ語など
のテキストをサポート - 保護されたドキュメントのインデックス化や Acrobat では開けない PDF からの抽出
- Unicode のフォルディング、デコンポジッション、ノーマライゼーションをサポート

- スレッドセーフ、高速、堅牢で、32ビット版・64ビット版をご用意
- 検索精度向上のために言語や文字体系を自動検出
企業向けPDF検索
TET PDF IFilter はスレッドセーフで 32ビット版と64ビット版が利用できます。TET PDF IFilter と以下と組み合わせて利用することで、企業向け PDF 検索ソリューションを実現することができます。- Microsoft SharePoint Server
- Microsoft Search Server
- Microsoft SQL Server
- Microsoft Exchange Server
- Microsoft Site Server

デスクトップ PDF 検索
TET PDF IFilter は以下の製品と組み合わせることで、デスクトップ向け PDF 検索を実現することができます。- Windows Search (Windows Vista/7 に内蔵。Windows XP 用の無償アドオンでも利用可能)
- Windows Indexing Service
対応するPDF
TET PDF IFilter は、あらゆる種類の PDF の入力に対応しています。- ISO 32000-1 を含む
、Acrobat 9 までの全ての PDF のバージョン - 表示用のパスワードを必要としない暗号化された PDF
- 破損した PDF 文書も修復
Unicode への後処理
より良い検索結果が得られるように、TET PDF IFilter は Unicode への様々な後処理をサポートしています。- フォルディングは、文字の保持や削除、置換を行います。例えば、検索と無関係な句読点や不要な文字を削除します。
- デコンポジッションは、文字を一字ないし複数の等価な文字列に置き換えます。例えば、半角カタカナや「`」等の Shift-JIS 特有の文字を標準的で等価な Unicode 文字に置き換えます。
- ノーマライゼーションは、テキストをすべて4バイトの Unicode に変換します。例えば、データベースの要件に合うように NFC 形式で出力します。
国際化
TET PDF IFilterは、西洋テキストに加え、CJK (中国語、日本語、韓国語)テキストに完全対応しています。すべての CJK のエンコーディングを認識でき、縦書き、横書きの出力モードにも対応しています。アラビア語ヘブライ語などの右から左に記述する言語もサポートしています。
PDF が持つコンテンツ以外の有用な情報
TET PDF IFilter は、PDF文書をページ内容以上の情報を持つものとして扱います。TET PDF IFilter は、PDF 文書内の以下の項目にインデックスを付けます。- ページ内容
- テキストしおり
- メタデータ(後述)
- 添付されている PDF 文書内のテキストも検索できるように、添付された PDF 文書や PDF パッケージ/ポートフォリオを再帰的に処理
XMP文書メタデータと文書情報
TET PDF IFilter の高度なメタデータ実装はメタデータ向けの Windows プロパティシステムをサポートしており、 標準の、またはカスタムの文書情報項目だけでなく、XMPメタデータにもインデックスを付けます。メタデータのインデックシングは、以下のレベルに設定することができます。- タイトル、サブジェクト、作者などを表す文書情報項目やダブリンコアフィールド、その他の共通の XMP プロパティを、等価な Windows プロパティに割り当てる
- ページサイズ・PDF/A 準拠レベル・フォント名などの有用な情報を、 PDF 固有の仮想プロパティとして追加
- すべての定義済み XMP プロパティを検索可能
- 企業固有プロパティ、PDF/A 拡張スキーマなどの、ユーザー定義の XMP プロパティを検索可能
TET PDF IFilter はオプションとして、メタデータをフルテキストインデックスに統合します。 それにより、SQL Server のようなメタデータをサポートしていないフルテキスト検索エンジンでも、メタデータを検索することができます。
TET PDF IFilter の入手方法
TET PDF IFilter は、当サイトのダウンロードページからダウンロードして試用することができます。ダウンロードされた評価版ソフトウェアはご購入後送付するライセンスキーを適用することにより、フルバージョンの製品としてご利用いただけます。 また、TET PDF IFilter はデスクトップ OS 上での非商用な用途につきましては、無償でご利用いただけます。
本製品のご注文方法については、PDFlib 製品の価格と購入方法をご覧ください。また機能の詳細についてはダウンロードしたパッケージに含まれているマニュアルを参照ください。
(注)本記事は PDFlib 社の PDFlib TET PDF IFilter データシートを参考にして作成しています。
(Nov 17, 2005 - Aug 2, 2010)
![]() |
![]() |
![]() |
【新着情報】
- pCOS パスリファレンス 8 リリース(5/8/2012)
- TET 4.1 リリース (2/27/2012)
- TET PDF IFilter 4.1 リリース (2/27/2012)
- iPhone / iPad / Android 向け TET リリース (2/27/2012)
- TET プラグイン 4.3 リリース (2/27/2012)
- TET 4.0 日本語リファレンスリリース (11/24/2010)
- pCOS パスリファレンス 7 リリース(12/22/2010)
- TET プラグイン 4.2 リリース (8/17/2011)
- TET プラグイン 4.1 リリース (12/24/2010)
- TET プラグイン 4.0 リリース (8/4/2010)
- TET 4.0 リリース (8/2/2010)
- TET PDF IFilter 4.0 リリース (8/2/2010)
- TET プラグイン 3.0 リリース (3/13/2009)
- TET 3.0 リリース (2/6/2009)
- TET PDF IFilter 3.0 リリース (8/18/2008)
- TET 2.3 リリース (3/12/2008)
- TET 2.2 リリース (2/1/2007)
- TET Plugin リリース (2/1/2007)
- TET 2.0 リリース (6/28/2005)
【資料/データシート】(PDF形式)




