PDFlib PDF文書処理ライブラリー
インフォテックバナー
  • PDFlib とは
  • 製品情報
  • サポート
  • 開発サービス
  • ダウンロード
  • 技術情報
  • 価格・購入法
  • よくある質問
  • 会員ページ

PDFlib TET Plugin (PDF を読む Adobe Acrobat プラグイン)

TET Plugin イメージ

TET Plugin(以下 TET プラグイン)は PDF 文書からテキストを抽出する無償の Acrobat 用プラグインソフトウェアです。TET プラグインを使って、テキスト抽出ライブラリーである TET(Text Extraction Toolkit) の機能を手軽に体験することができます。TET プラグインは、Acroabt のプラグインとして動作しますが、そのテキスト抽出機能はすべて TET に基づいており、Acrobat の関数は使用していません。TET プラグインは TET のパワーを実際に体験していただくための技術的な試みとして無償でご利用いただくことができます。

TET は、Acrobat 搭載のテキスト抽出より強力な機能と便利なユーザインターフェイスを持っているので Acrobat 標準のコピーや検索機能の代わりとしてご利用いただけます。Acrobat で読み取りがうまくいかないケースでも TET プラグインなら成功する場合があります。

TET プラグインには以下の機能があります。

  • PDF 文書のテキストをプレーンテキストとしてクリップボードにコピーしたり、ファイルとして出力したりできます。またクリップボードコントロールが強化され、コピー&ペーストがより便利になりました。
  • PDF文書をTETMLというXMLの一種に変換し、クリップボードにコピーしたり、ファイルとして出力したりできます。
  • XMP メタデータをクリップボードにコピーしたり、ファイルとして出力したりできます。
  • 文書内を検索することができます。検索する文字列には文字の他に16進の文字コードが使えるため、異常な文字であっても簡単に検索することもできます。
  • ページ内の検索単語をすべてハイライトすることができます。
  • PDF文書内から画像を TIFF、JPEG,JPEG 2000 形式で出力することができます。
  • 画像の色空間と座標の情報を表示することができます。
  • テキストや画像の抽出方法を詳細に設定することができます。また設定を保存して再利用することもできます。

TET プラグインの特長

TET プラグインは、以下の点で Acrobat の標準コピー機能より優れています。

  • アプリケーション毎の要求に応じて、出力をカスタマイズすることができます。
  • Acrobat の標準コピーがうまく処理できない文書でも、多くの場合対応することができます。
  • 適切な Unicode 文字のマッピングができない未知のグリフを赤色で強調表示することができます。さらに、ユーザーが指定した文字(?等)に置き換えることもできます。
  • 対話的に画像を選択し、出力することができます。また、ページ内や文書内のすべての画像を抽出することもできます。
  • 細切れに分割されている画像をマージし、ひとつの画像として出力することができます。

TETとは

Text Extraction Toolkit(以下 TET)は TET プラグインの基盤エンジンであり、PDF ファイルに含まれるテキスト情報を正確に抽出できる開発者向け製品です。TET は PDF 文書に含まれるテキストから Unicode 文字列や、グリフの詳細な情報、フォントの情報、ページ内での位置などの情報を取得できます。また TET には基本的なテキスト検索に加え、影や強調表現など不要なテキストを取り去る高度なコンテンツ処理アルゴリズムを提供します。pCOSインターフェースを使用してメタデータ、ハイパーテキストなどの任意のオブジェクトをPDF文書から取得することもできます。

TET により以下のような処理が実現できます。

  • PDF 文書処理のための検索エンジンの実装
  • PDF 文書からのテキスト抽出(データベースへの格納に利用等)
  • PDF テキストコンテンツを XML 等の他のフォーマットへ変換
  • 複数の PDF 文書に対し、その内容に応じて異なる処理を行う

TET は、さまざまな開発環境で使用できるプログラムライブラリー(コンポーネント)およびバッチ処理に適したコマンドラインツールとして利用できます。どちらも使用できる機能は同じですので、用途によって使い分けることができます。TET の詳細は TET とは を、また評価版のダウンロードは ダウンロードページ#TET をご覧ください。

(注) TET プラグインは、英語・ドイツ語対応版です。日本語処理機能について一部制限があります。

TET プラグインダウンロード

TET プラグインは Adobe Acrobat X, XI, DC でお使いいただけます。

(Jun 25, 2008 - May 31, 2017)
  • 製品情報
  • お問合せ
  • TET サンプル集