PDFlib TET (PDF を読む)
TET は PDF 文書内から、テキストやイメージを読む製品です。
TET は PDF からテキスト、イメージ、抽出し、プログラムから扱えるようにします。また、PDF を TETML と呼ばれる XML ベースの独自形式で出力することができます。
テキストの抽出
TET は PDF のページ上に存在するテキストを Unicode で抽出します。また、そのテキストの詳細な情報 (文字の位置、幅、傾き、表示フォント、フォントサイズ等) を取得することができます。
ページ上のテキスト以外にも、PDF には多くのテキストが含まれています。例えばしおり、注釈、フォームフィールド、文書プロパティ (タイトル、作者名、カスタムプロパティ等) などが当てはまります。TET では、これらのデータについても取得することができます。
テキストの抽出に関する機能の詳細はこちら
イメージの抽出
TET は PDF のページ上に存在するイメージを抽出します。イメージはダウンサンプリング等により劣化することなく、データそのものを取得することができます。また、画像の位置、傾き、色空間等の情報を取得することができます。
PDF の画像は人間の目にはひとつの画像に見えても実際には細かい画像の集まりである場合がありますが、TET ではこれらを結合してひとつの画像として抽出します。
イメージの抽出に関する機能の詳細はこちら
TETML 形式の出力
テキストやイメージを抽出する他に、TET は抽出したテキストを TETML と呼ばれる XML ベースの形式で出力することもできます。
TETML は XML をベースとしており、PDF に含まれる情報をテキストファイルとして表現します。 XML をベースとしているため、一般的な XML ツールで TETML を扱うことができます。例えば XML を別のフォーマットに変換するための標準企画である XSL Transformations (XSLT) を使い、PDF を HTML に変換することができます。XSLT スタイルシートのサンプルは TET に同梱されています。
TETML 形式の出力に関する機能の詳細はこちら
TET の注意点
TET は PDF 内の画像からテキストを読み取る、いわゆる OCR 機能はありません。画像内のテキストを読み取る場合はあらかじめ OCR ソフトウェアを使ってテキストデータを埋め込んでおく必要があります。
対応する PDF バージョン
TET では、下記の PDF バージョンに対応しています。
- PDF 1.4 (Acrobat 5) およびそれより古いすべてのバージョン
- PDF 1.5 (Acrobat 6)
- PDF 1.6 (Acrobat 7)
- PDF 1.7 (Acrobat 8, ISO3200-1)
- PDF 1.7 Extension Level 3 (Acrobat 9)
- PDF 1.7 Extension Level 8 (Acrobat X/XI/DC)
また、独自の修復機能により、破損した PDF についても可能な限り対応します。
TET の利用用途
TET の主なねらいは、PDF に含まれるテキストやイメージを他のプログラムで加工して利用する場合や、そのままディスクに保存することです。
- 抽出したテキストをテキストファイルに保存してテキストエディタで閲覧する
- 抽出したテキストをインデックス化して、PDF を検索できるようにする
- TETML 形式の出力と抽出した画像を使って他のファイル形式に変換する
TET 5 の新機能
最新版 TET 5 では、さまざまな新機能を搭載しています。
詳しくはTET 5 の新機能をご覧ください。
PDF 文書解析のための pCOS インターフェース
TET には、PDF 文書中のメタデータやページ内のリンクといった属性情報を取得するための pCOS インターフェースも内蔵されています。
詳細は pCOS インターフェースをご覧ください。
TET の入手方法
TET は、当サイトの
ダウンロードページからダウンロードして試用することができます。
ダウンロードした TET は評価版パッケージとして製品の全ての機能を使用することができます。ただし、有効なライセンスキーを適用するまでは、10ページ以上または 1MB 以上の PDF ファイルを読むことができません。ご注文後、送付されるライセンスキーをパッケージに適用するとこの制限はなくなります。
(Nov 17, 2005 - May 31, 2017)