PDFlib TET 機能詳細 (PDF を読む)

TET は PDF 文書内から、テキストやイメージを読む製品です。

TET の概要についてはこちらをご覧ください。このページでは、TET の機能をより詳しく説明します。

テキストの抽出

TET は PDF からテキストを Unicode で抽出します。抽出の対象はページ上のテキストの他、しおりや注釈等のインタラクティブ要素が持つテキスト、タイトルや作成者等の文書情報のテキスト、PDF 文書や PDF 中のイメージに含まれる XMP メタデータのテキスト等、PDF 中のあらゆるテキストが対象です。

TET サンプル集 (TET クックブック) でテキストの抽出に関するサンプルを紹介しています。

Unicode で抽出

TET は抽出したテキストを Unicode (C 言語では UTF-8 または UTF-16) に変換します。PDF 内のテキストは Unicode で符号化されてない場合もありますが、TET は PDF 内のマッピングに従い Unicode に変換します。PDF 内のマッピングが不十分で Unicode に変換できない場合、TET は変換できなかったことを示すとともに置換キャラクタ (ユーザー指定可能) に変換します。また、マッピングのために不足している情報を補うために、オプションで TET に追加の情報を与えることもできます。

TET は日本語、中国語、韓国語のテキストに対応しています。TET には日中韓テキスト Unicode に変換するための CMap ファイルが同梱されています。その他、日本語特有の文字 (全角・半角・縦中横文字等) や縦書き等に対応します。

TET はヘブライ文字やアラビア文字のような双方向テキストも扱うことができます。これらのテキストを抽出する際、TET はページの主要なテキスト方向を判別し、正しい順番に並び替えます。

TET はテキストを Unicode に変換した後、様々な処理を施します。TET では特定の文字に対して温存・置換・除去を設定できます。これにより、半角カタカナから全角カタカナへの統合や、句読点の除去等を行うことができます。合字等の複数文字グリフ (「㌔」等) は、Unicode 規格の正準分解または互換分解に従って、構成文字要素の Unicode に分解されます。テキストは Unicode 規格で定義されている Unicode 正規形の NFC・NFD・NFKC・NFKD のいずれかで変換する (または変換しない) ことができます。

ページ上のテキストを抽出

TET はページ上の一部またはすべての領域からテキストを抽出します。TET は不可視になっているテキストも抽出しますが、オプションで無視することもできます。また、TET はページのレイヤーからもテキストを抽出します。

TET はページ上のテキストを抽出する他、テキストのグリフ、フォント、フォントサイズ、フォント幅、座標、傾き等の詳細な情報を取得することができます。

単語検出と内容分析 (※欧文向け機能)

TET は単語検出に関する高度なアルゴリズムを内蔵しており、欧文を単語単位で抽出したり、行末でハイフネーションされたテキストからハイフンを取り除いて単語として抽出したりすることができます。

また TET は内容分析に関する高度なアルゴリズムを内蔵しており、影付きテキストや擬似太字テキストの重複を除いて見た目通りに抽出、文章のレイアウトを判別 (または指定) して読み順に再連結、テキストの行を再構成、ページ上の表構造の認識、上付き・下付き・ドロップキャップ (段落頭の大きな先頭キャラクタ) の認識等を行います。

インタラクティブ要素のテキストを抽出

TET に搭載されている pCOS インターフェースを使い、フォームフィールドや注釈等のインタラクティブ要素のテキストを抽出します。

TET でテキストを抽出できるインタラクティブ要素は以下の通りです。

フォームフィールド内のテキスト
注釈内のテキスト
しおり内のテキスト
PDF ポートフォリオを含む添付ファイル

また、添付ファイルとして PDF が添付されている場合、その PDF のテキストを取得することもできます。

文書情報のテキストを抽出

TET に搭載されている pCOS インターフェースを使い、下記の定義済み文書情報を取得します。

タイトル
作成者
サブタイトル
キーワード
作成
PDF 変換
作成日時
修正日時
トラッピング

また、上記以外のカスタム文書情報のテキストについても取得します。

XMP メタデータのテキストを抽出

TET に搭載されている pCOS インターフェースを使い、PDF 文書または文書内のページやフォント、ICC プロファイル、イメージ等に含まれる XMP メタデータのテキストを抽出します。

イメージの抽出

TET は PDF からラスターイメージを抽出します。表示の最適化のために PDF のイメージは小さく断片化されたイメージの集合として扱う場合がありますが、TET ではこのようなイメージを連結し、見た目通りの１つのイメージとして抽出します。また、抽出するイメージの上限サイズや下限サイズを設定することで、抽出するイメージをフィルタリングすることができます。

TET サンプル集 (TET クックブック) でイメージの抽出に関するサンプルを紹介しています。

対応する画像形式

TET は PDF 内のイメージを画像形式として広く用いられている TIFF, JPEG, JPEG 2000 で出力します。

TETML 形式で出力

TET は PDF 上のテキストやイメージの情報を XML ベースの TETML 形式で出力することができます。TETML にはテキストの内容や座標等の様々なデータが含まれています。また、TETML は XML をベースとしているため、一般的な XML ツールで編集することができます。

TET サンプル集 (TET クックブック) でイメージの抽出に関するサンプルを紹介しています。

TETML に含まれる情報

TETML に含まれる情報は以下の通りです。

一般文書情報・メタデータ
各ページのテキスト内容 (単語、行、段落ごと)
グリフのフォントと位置情報 (フォント名、サイズ、座標)
グリフのレイアウト属性 (上 / 下付き、ドロップキャップ、影付き)
ハイフネーション属性
表組等の構成情報
ページ上のイメージに関する情報
フォント、カラースペース、イメージ等のリソース情報
処理中に例外が発生した場合はそのエラーメッセージ

XSLT による他文書形式への変換

TETML は XML をベースとしているため、XML を他の文書形式に変換するための変換用言語である XSLT で利用することができます。

TET には、TETML を XSLT で扱うためのサンプルを同梱しています。同梱されているサンプルは以下の通りです。

PDF 内の頻出単語の一覧を作成
特定のフォントと特定のサイズ以上のフォントサイズを持つ単語の一覧を作成
ページ上で特定のフォントが使用されているページと位置の一覧を作成
フォントとグリフの統計を作成
PDF 内の単語のインデックスを作成
PDF 内の XMP メタデータを抽出
表組内容の CSV を作成
TETML から HTML を作成
TETML からプレーンテキストを作成

TET の技術情報・サンプル

機能の詳細についてはTET のマニュアルを参照ください。その他、機能毎のサンプルとして TET サンプル集 (TET クックブック) や、技術的なトピックとして PDFlib テクニカルトピックを公開しています。

TET の入手方法

TET は、当サイトのダウンロードページからダウンロードして試用することができます。

ダウンロードした TET は評価版パッケージとして製品の全ての機能を使用することができます。ただし、有効なライセンスキーを適用するまでは、10ページ以上または 1MB 以上の PDF ファイルを読むことができません。ご注文後、送付されるライセンスキーをパッケージに適用するとこの制限はなくなります。

TET の購入方法

TET の価格と購入方法については PDFlib 製品の価格・購入方法をご覧ください。