PDFlib PDF 文書処理ライブラリー   PDFlib PDF 文書処理ライブラリー
インフォテックトップページ
検索 
PDFlib TET 4.1 リリース
 メンテナンスバージョン PDFlib TET 4.1 がリリースされました。(2/27)
 iPhone / iPad / Android 版 PDFlib TET がリリースされました。(2/27)
 メンテナンスバージョン PDFlib TET PDF IFilter 4.4 がリリースされました。(2/27)
 PDFlib TET Plugin 4.3 がリリースされました。(2/27)
PDFlib TET 4.0 日本語マニュアルリリース
 PDFlib TET 4.0 リファレンスマニュアルの日本語版がリリースされました(11/24)。

PDFlib TET    (テキスト、イメージ、メタデータ抽出ツール)

PDFlib Text Extrtaction Tool Kit(TET)は、PDF 文書からテキスト、画像、メタデータを確実に抽出します。TET を利用すると、PDF のテキスト内容をUnicode 文字列として取得することができるほか、グリフやフォントに関する詳しい情報や、ページ上の位置を知ることができます。ラスタ画像は、広く用いられている画像形式で抽出されます。TET は、TETML というXML ベースの書式を実装しており、必要に応じPDF 文書をTETML 形式に変換することができます。TETML はテキストやメタデータに加えリソース情報を保持することができます。

TET は、高度な内容分析アルゴリズムを実装し、単語境界の検出、テキストの段組認識、冗長テキストの除去などの処理を効率的に実現します。またpCOS インタフェースにより、PDF からメタデータやインタラクティブ要素等任意のオブジェクトを抽出することができます。

PDFlib TET の利用例:
  • 検索エンジン用にPDF 文書をインデックス化
  • 既存PDF 文書内のテキストや画像の再利用
  • PDF テキストコンテンツを他フォーマットへ変換
  • 複数の PDF 文書を解析し、その内容に応じて異なる処理を実施
    (例えば、見出しによる文書の分割(TET の他、PDFlib+PDI が必要になります))

PDFlib TET の機能

対応する PDF

TET は様々な PDF の入力に対応しています。
  • ISO 32000-1 を含む 、Acrobat 9 までのすべての PDF バージョン
  • 表示用パスワードを必要としない暗号化された PDF
  • 破損した PDF 文書も修復

Unicode

通常、PDF文書内のテキストは Unicode にエンコードされていませんが、TETは PDF 文書のテキストを Unicode に正規化して取り扱います。
  • TET は全てのテキストを Unicodeに変換します。テキストは、C言語などの Unicode 非対応言語では UTF-8 または UTF-16 形式として、Unicode 対応言語ではネイティブ Unicode として返されます。
  • 合字などの複数文字グリフは、対応する Unicode 文字列に分割します。
  • 適切な Unicode マッピングのないグリフを認識した場合、誤解釈防止のため設定可能な置き換えキャラクタへマップします。
  • TET は、ドキュメントあるいはPDFがメインフレーム・システムで生みだしたInDesignとTeXといった、特定のドキュメント作成パッケージの問題のために様々な回避策を実装します。

内容分析と単語の検出 *

TET は、高度な分析アルゴリズムを提供します。
  • 適切な単語抽出に必須の単語境界決定アルゴリズム(特許技術)
  • ハイフネーションされた単語の各部分の再結合(デハイフネーション)
  • 影付き文字化などのテキストの重複インスタンスの除去
  • 読み順に従った段落の再結合
  • ページ上に分散したテキストを正しい順番に再配置
* 本機能は、主に欧文処理を対象としており、日本語処理については制限があります。

ページレイアウトと表認識 *

ページ内容を分析し、段組を割り出します。複数列をまたぐセルも含め表組みを検出します。本処理により抽出テキストの順序の決定が容易になり、表の行や各表のセルの内容を特定することができます。

* 本機能は、主に欧文処理を対象としており、日本語処理については制限があります。

幾何情報

TETは、ページ上の位置、グリフの幅、テキスト向きなど、テキストの正確な幾何情報を提供します。ページ上の特定の領域を指定してテキストを抽出したり、あるいは逆に抽出から除外することができます。この機能によってヘッダーやフッター、余白などを除外することができます。

画像抽出

PDF ページ上の画像を、TIFF、JPEG、JPEG 2000 のファイルとして抽出したり、位置、寸法、角度といった正確な幾何情報を取得したりすることができます。分割されている画像を大きな画像に結合して再利用することもできます。ダウンサンプリングや色空間の変換は行わないので、画像の忠実度が保証され、最高の画像品質が保証されます。

PDF 分析

TET には pCOS インタフェースが含まれ、PDF 文書の文書情報、XMP メタデータ、フォントリスト、ページサイズなど様々な詳細情報を取得できます。
pCOS につきましてはこちらをご覧ください。

問題を含む PDF に対するオプション設定

TETは、他の製品では正しくテキストを抽出できないような様々な種類の PDF に対して、特殊な処理や回避策を実現します。さらに、問題文書の処理を改善するために様々な設定機能を備えています。
  • 文字コードまたはグリフ名を Unicode にマッピングするためのマッピングテーブルを設定することで、Unicode マッピングをカスタマイズすることができます。
  • PDFlib FontReporterは、PDF 内のフォント、エンコーディングおよびグリフを分析するための補助のツールです。PDFlib FontReporter は Adobe Acrobat 用のプラグインとして提供され、無償で使用することができます。
  • Unicode マッピングに有効な情報を得るために、埋め込みフォントを解析します。フォントが埋め込まれていないときは、外部フォントファイルまたはシステムフォントを用い、テキスト抽出結果を改善します。

Unicode への後処理

TET は Unicode への様々な後処理をサポートし、より良い検索結果が得られるようにします。
  • フォルディングは文字の保持や削除、置換を行います。例えば、検索と無関係な句読点や不要な文字を削除します。
  • コンポジッションは文字を一字ないし複数の等価な文字に置き換えます。
    例えば、半角カタカナや「`」などの機種依存文字を、標準的で等価な Unicode 文字に置き換えます。
  • ノーマライゼーションはテキストをすべて4 バイトの Unicode に変換します。例えば、データベースの要件に合うように NFC 形式で出力します。

文書領域

PDF 文書では、ページコンテンツ以外の場所にもテキストがあります。多くのアプリケーションはページコンテンツしか扱いませんが、その他の文書領域が必要な場面も多くあります。TET は、以下のすべての文書領域からテキストを抽出することができます。
  • ページコンテンツ
  • 定義済みの、およびカスタムの文書情報項目
  • 文書や画像レベルのXMPメタデータ
  • しおり
  • 添付ファイルとPDF ポートフォリオの再帰的処理
  • フォームフィールド
  • コメント(注釈)
  • ページ数や、PDF/A、PDF/X など標準への準拠状態などの一般的 PDF プロパティ

XMP メタデータ

TET は以下の形式で XMP メタデータをサポートしています。
  • 内蔵されている pCOS インターフェースを用い、文書、各ページ、画像、その他の部分の XMP メタデータを抽出
  • PDF 文書内に XMP 文章や画像メタデータが存在する場合、これらを TETML 出力に含める
  • PDF 文書内に画像メタデータが存在する場合には、これを TIFF または JPEG 形式で出力する画像に含める

TETML : PDF 内容を XML で表現

TET では、PDF コンテンツを TETML という一種の XML で表現することができます。TETML で表現された様々な PDF 情報は、広く用いられている XML ツールで容易に処理することができます。TETML にはテキスト本体に加え、フォント、位置情報、フォント・画像・色空間などのリソースの詳細、およびメタデータを含めることができます。
TETML は、対応する XML スキーマに規定されており、TET は常に一貫性を信頼性を備えた XML 出力を生成します。TETML は、XSLTスタイルシートにより処理できます。TET には、TETML を処理するサンプルスタイルシートが同梱されています。
以下はグリフの詳細を TETML で表したものの一部です。
<Word>
 <Text>PDFlib</Text>
 <Box llx="111.48" lly="636.33" urx="161.14" ury="654.33">
  <Glyph font="F1" size="18" x="111.48" y="636.33" width="9.65">P</Glyph>
  <Glyph font="F1" size="18" x="121.12" y="636.33" width="11.88">D</Glyph>
  <Glyph font="F1" size="18" x="133.00" y="636.33" width="8.33">F</Glyph>
  <Glyph font="F1" size="18" x="141.33" y="636.33" width="4.88">l</Glyph>
  <Glyph font="F1" size="18" x="146.21" y="636.33" width="4.88">i</Glyph>
  <Glyph font="F1" size="18" x="151.08" y="636.33" width="10.06">b</Glyph>
 </Box>
</Word>

TET コネクタ

TET コネクターは、TET を他のソフトウェアと連携するのに必要な接続用プログラムです。以下の TET コネクタにより、PDF テキスト抽出機能が各種ソフトウェア環境で利用可能になります。
  • Lucene 検索エンジン用 TET コネクタ
  • Solr 検索エンジン用 TET コネクタ
  • Oracle Text 用 TET コネクター
  • MediaWiki用 TETコネクター
  • Microsoft 製品用 TET PDF IFilter
    PDF 文書からテキストとメタデータを抽出し、Windows 上の検索・抽出ソフトウェアで利用できるようにします。
    TET PDF IFilter の詳細につきましてはこちらをご覧ください。

TET クックブック

TET クックブックは、さまざまなテキスト・画像抽出タスクにおけるTET の使用法を示したプログラミング作成例集です。ページ上のテキストに応じてしおりやリンクを追加するなど、TET と PDFlib+PDI を組み合わせて PDF 文書を改良する方法を示したサンプルもあります。
クックブックにつきましてはこちらをご覧ください。

TETの入手方法

TET は、主要なプラットフォームについては、当サイトのダウンロードページからダウンロードして試用することができます。

ダウンロードされた評価版ソフトウェアはご購入後送付するライセンスキーを適用することにより、フルバージョンの製品としてご利用いただけます。

本製品のご注文方法については、PDFlib 製品の価格と購入方法をご覧ください。また機能の詳細についてはTET のマニュアルを参照ください。

(注)本記事は PDFlib 社の TET データシートを参考にして作成しています。
(Nov 17, 2005 - Aug 6, 2010)