パーソナルビジネスソフトとお役立ち情報のサイト
PDFlib TET Pluginの概要

PDFlib TET Plugin

PDFlib TET Plugin(TETプラグイン)は、PDF文書からテキストを抽出する無償のAcrobat用プラグインソフトウェアです。TETプラグインは、テキスト抽出ライブラリーであるTET(PDFlib Text Extraction Toolkit)の機能を簡便に使う手段を提供します。TETプラグインは、Acroabtのプラグインとして動作しますが、そのテキスト抽出機能は全てTETに基づいており、Acrobatの関数は使用していません。TETプラグインはPDFlib TETのパワーを実際に体験していただくための技術的な試みとして無償でご利用いただくことができます。

TETは、Acrobat搭載のテキスト抽出より強力な機能と便利なユーザインターフェイスを持っているのでAcrobat標準のコピーや検索機能の代わりとしてご利用いただけます。Acrobatで読み取りがうまくいかないケースでもTETが成功する可能性があります。

TETプラグインには以下の機能があります。
  • PDF文書のテキストをプレーンテキスト、RTFまたはXML形式でコピー
  • PDF文書のしおりをコピー
  • XMPデータをコピー
  • 文書内の検索
  • テキスト抽出方法の詳細を設定可能。また設定を保存して再利用可能。

TETプラグインの特長

TETプラグインは、以下の点でAcrobatの標準コピー機能より優れています。
  • 他のアプリケーションの要求に応じて出力をカスタマイズ可能
  • Acrobatの標準コピーがうまく処理できない文書でも多くの場合対応可能
  • 対応するUnicodeが未知のグリフを指定した文字に置換
  • 処理速度が速い

PDFlib TETとは

PDFlib Text Extraction Toolkit (以下TETと呼ぶ)は、PDFファイルに含まれるテキスト情報を正確に抽出できる開発者向け製品です。TETはライブラリおよびコマンドラインツールとして提供されます。TETはPDF文書に含まれるテキストをUnicode文字列、詳細なグリフ、フォント情報として生成することが可能です。

TETを利用することでPDF文書のテキストをUnicode文字列としてページ上の位置情報と共に取得することが可能になります。TETは基本的なテキスト検索に加え、影や強調表現など不要なテキストを取り去る高度なコンテンツ処理アルゴリズムを提供します。また、pCOSインターフェースを使用してメタデータ、ハイパーテキストなどの任意のオブジェクトをPDF文書から取得することができます。

TETにより以下のような処理が実現できます。
  • PDF文書処理のための検索エンジンの実装
  • PDF文書からのテキスト抽出(データベースへの格納に利用等)
  • PDFテキストコンテンツの他フォーマットへの変換
  • 複数のPDF文書に対し、その内容に応じて異なる処理を行う
  • PDFページテキストコンテンツのXMLへの変換(他ツールでの再処理に利用するなど)
TETは、さまざまな開発環境で使用できるプログラムライブラリー(コンポーネント)およびバッチ処理に適したコマンドラインツールとして利用できます。TETの詳細は、こちらで、また評価版のダウンロードはこちらをご参照ください。


(注)現バージョンのTETプラグインは、PDF文書のファイル・パス名に日本語を含むとエラーになる、Find機能で漢字1文字しか指定できないなど日本語処理機能について一部制限があります。

TETプラグインダウンロード

   (Acrobat 7/8/9 用)
   ■PDFlib TET プラグイン 1.1 Windows版 約1.6MB

   (Acrobat 6 用)
   ■PDFlib TET プラグイン 1.1 Windows版 約1.6MB


(Mar 10, 2008)