PDFlib TET 5

PDFlib TET とは？

PDFlib TET (Text and Image Extraction Toolkit) は PDF 文書内から、的確にテキストやイメージを読む製品です。

TET は PDF のテキストコンテンツをユニコード (Unicode) 文字列として抽出する事を可能にします。また、グリフ(フォントの形状)やフォント情報の詳細もページ上の位置と同様、抽出情報に付加されます。イメージは一般的なイメージフォーマットで抽出されます。TET は PDF 文書を TETML と呼ばれる XML ベースの形式に変換する事もできます。これには、テキストコンテンツやメタデータ及びリソース情報が含まれます。

TET は単語境界、カラム中のグループ化されたテキスト、削除された冗長テキストを特定するための拡張されたコンテンツ分析アルゴリズムを含んでいます。組み込まれた pCOS インターフェースを使用して、PDF 文書からメタデータやインタラクティブ要素など様々なオブジェクトを抽出できます。

TET の最初のバージョンは、2002年にリリースされました。以来、PDF 文書からテキストを抽出する、世界中の顧客から寄せられる非常に多くの要望に応えてきました。最新バージョンの TET 5 により、テキスト抽出ツールとしてより洗練されました。直接目に触れない数多くの PDF 処理に関する改善がありますが、主にイメージの抽出、色の抽出と TETML 出力で、多くの重要な機能強化が図られています。

TET 5 の新機能

TET 5 の新機能及び改善点は次の通りです。

テキスト抽出

塗りつぶし、及び描画カラーの抽出
レイアウト取得に関する改善
主要ベクターグラフィックスでページ及びテーブルレイアウト認識の改善
日本、中国、韓国語に関する縦書きフォントのサポート

イメージ抽出

非常に強化された断片化されたイメージのマージン処理(回転されたイメージなど)
特殊ケースや稀なイメージ装飾に対するイメージハンドリングの改善
イメージマスクとソフトマスクのサポート
JPEG 2000 圧縮イメージのマージと変換
TIFF イメージから抽出されたスポットカラーの保存
ユーザーが指定したエリアに限定したイメージ抽出
InDesign により標準でないロケーションで格納された XMP メタデータの収集

ページ処理

タグ付き PDF での無関係なコンテンツの無効化オプション
主要レイヤーでの不可視コンテンツの抽出を無効化
主要クリッピングパスでの不可視コンテンツの抽出を無効化

TETML

塗りつぶし、及び描画カラーの TETML への出力
アノテーション、フォームフィールド、しおり、アクション、JavaScript、署名などを含む、インタラクティブ要素情報の TETML への出力
カラースペース、ICC プロファイルの詳細の TETML への出力
レイヤー、ページラベルに関する情報の TETML への出力

pCOS PDF 情報の抽出

ICC プロファイルの詳細とイメージマスクプロパティのための pCOS 疑似オブジェクト
フォームフィールドのための pCOS 疑似オブジェクト

その他

損傷した又は非準拠の PDF 入力のための追加検査と問題解決
言語バインディング、プログラムサンプル、TET コネクターの更新
PDF 処理制御改善のための新オプション
その他の多くの TET 機能の改善

PDFlib TET 5 のダウンロード

PDFlib TET 5 はダウンロードページからダウンロードして試用することができます。