高度なPDFアプリケーションの開発を支援する定番プログラムライブラリー Supported by インフォテック株式会社

PDFlib TOP
技術情報
TET サンプル集

PDFlib TET サンプル集（クックブック)

本サンプルプログラムは、PDF テキスト抽出ライブラリーの実装である TET の基本的な機能を実際のプログラムで紹介したものです。

本サイトでダウンロードした TET は、一部機能の制限を除き、評価版として無償でお使いいただけます。

関連リンク

PDFlib とは / PDFlib 製品情報 / 技術情報 / ダウンロード / 見積申込み / 購入申込み

インデックス

TET サンプル集 (クックブック) ダウンロード/ テキストの抽出/ フォントの処理/ イメージ抽出/ TET と PDFlib/ TETML と XSLT

テキストの抽出

　　　　　　　　　　　　　　　　

テキスト抽出	シンプルなテキスト抽出
単語リスト	文書から全てのユニークな単語を抽出してソートされたリストを作成します
索引	TET で、文書から全ての単語を抽出して索引を作成します。索引はアルファベット順でソートされ、単語が出現するページ番号を一覧表示します。
グリフ情報の抽出	TET で、文書からグリフ情報を抽出します。
注釈からテキストを抽出	TET と pCOS インターフェースで文書にある注釈からテキストを抽出します。

フォントの処理

フォントの検索	特定のフォントが PDF 文書の何処に使われているかを明示します。ページ番号、位置、最初に見つかったテキストの最初の部分を表示します。
フォントの分析	TET で、文書に含まれるフォント毎の情報を表示するサンプルプログラムです。

イメージの抽出

イメージ抽出	シンプルなイメージを抽出します
イメージ解像度を決定する	イメージの解像度（レゾリューション）を取得します
イメージの読み取り	シンプルなイメージの読み取り方法です

TET と PDFlib

Web リンクの作成	TET と PDI により PDF を拡張します
ブックマークの作成	指定されたページのコンテンツを元にブックマークを生成します
分割	複数のページのコンテンツを小さな文書に分割します
検索テキストのハイライト	幾つかの基準に基づいて読み込んだページのテキストをハイライトします
テキストの検索と置換	TET によりテキストを検索し、白の矩形で塗りつぶし、その上に置換するテキストを追加します
目次の作成	タイポグラフィルールにしたがって、目次を自動的に作成します
マッピングされないグリフのハイライト	マッピングされないグリフをハイライトします。（TET が Unicode のマッピングを解決できないグリフなど）
フォントのハイライト	該当フォントのテキストをハイライトします

TETML と XSLT

TETML	シンプルな TETML 変換
TETML の HTML 変換	TETML を HTML に変換します
Solr	Solr Enterprise Search Server 用の出力を行います
テキストのみ	TETML からテキストのみを抽出します
メタデータ	入力 TETML から XMP メタデータを抽出します
テーブル	テーブルを抽出して CSV にします
単語リスト	単語リストを生成します
フォントフィルタ	指定された値より大きなサイズの特殊フォントを使用した単語を抽出します
フォント検索	フォントが使用されるページと位置を出力します
フォント統計	フォントとグリフの統計を出力します
目次	目次を生成します

(May 6, 2010 - Oct 16, 2019)