PDFlib TET Plugin
PDFlib TET Plugin(TETプラグイン)は、PDF文書からテキストを抽出する無償のAcrobat用プラグインソフトウェアです。TETプラグインは、テキスト抽出ライブラリーであるTET(PDFlib Text Extraction Toolkit)の機能を簡便に使う手段を提供します。TETプラグインは、Acroabtのプラグインとして動作しますが、そのテキスト抽出機能は全てTETに基づいており、Acrobatの関数は使用していません。TETプラグインはPDFlib TETのパワーを実際に体験していただくための技術的な試みとして無償でご利用いただくことができます。
TETは、Acrobat搭載のテキスト抽出より強力な機能と便利なユーザインターフェイスを持っているのでAcrobat標準のコピーや検索機能の代わりとしてご利用いただけます。Acrobatで読み取りがうまくいかないケースでもTETが成功する可能性があります。
TETプラグインには以下の機能があります。
TETは、Acrobat搭載のテキスト抽出より強力な機能と便利なユーザインターフェイスを持っているのでAcrobat標準のコピーや検索機能の代わりとしてご利用いただけます。Acrobatで読み取りがうまくいかないケースでもTETが成功する可能性があります。
TETプラグインには以下の機能があります。
- PDF文書のテキストをプレーンテキスト、RTFまたはXML形式でコピー
- PDF文書のしおりをコピー
- XMPデータをコピー
- 文書内の検索
- テキスト抽出方法の詳細を設定可能。また設定を保存して再利用可能。
TETプラグインの特長
TETプラグインは、以下の点でAcrobatの標準コピー機能より優れています。
- 他のアプリケーションの要求に応じて出力をカスタマイズ可能
- Acrobatの標準コピーがうまく処理できない文書でも多くの場合対応可能
- 対応するUnicodeが未知のグリフを指定した文字に置換
- 処理速度が速い
PDFlib TETとは
PDFlib Text Extraction Toolkit (以下TETと呼ぶ)は、PDFファイルに含まれるテキスト情報を正確に抽出できる開発者向け製品です。TETはライブラリおよびコマンドラインツールとして提供されます。TETはPDF文書に含まれるテキストをUnicode文字列、詳細なグリフ、フォント情報として生成することが可能です。
TETを利用することでPDF文書のテキストをUnicode文字列としてページ上の位置情報と共に取得することが可能になります。TETは基本的なテキスト検索に加え、影や強調表現など不要なテキストを取り去る高度なコンテンツ処理アルゴリズムを提供します。また、pCOSインターフェースを使用してメタデータ、ハイパーテキストなどの任意のオブジェクトをPDF文書から取得することができます。
TETにより以下のような処理が実現できます。
TETを利用することでPDF文書のテキストをUnicode文字列としてページ上の位置情報と共に取得することが可能になります。TETは基本的なテキスト検索に加え、影や強調表現など不要なテキストを取り去る高度なコンテンツ処理アルゴリズムを提供します。また、pCOSインターフェースを使用してメタデータ、ハイパーテキストなどの任意のオブジェクトをPDF文書から取得することができます。
TETにより以下のような処理が実現できます。
- PDF文書処理のための検索エンジンの実装
- PDF文書からのテキスト抽出(データベースへの格納に利用等)
- PDFテキストコンテンツの他フォーマットへの変換
- 複数のPDF文書に対し、その内容に応じて異なる処理を行う
- PDFページテキストコンテンツのXMLへの変換(他ツールでの再処理に利用するなど)
(注)現バージョンのTETプラグインは、英語・ドイツ語対応版です。PDF文書のファイル・パス名に日本語を含むとエラーになる、Find機能で漢字1文字しか指定できないなど日本語処理機能について一部制限があります。
TETプラグインダウンロード
|
|
|



