PDFlib

高度なPDFアプリケーションの開発を支援する定番プログラムライブラリー Supported by インフォテック株式会社

PDFlib TET サンプル集(クックブック)

本サンプルプログラムは、PDF テキスト抽出ライブラリーの実装である TET の基本的な機能を実際のプログラムで紹介したものです。

本サイトでダウンロードした TET は、一部機能の制限を除き、評価版として無償でお使いいただけます。

テキストの抽出

                
テキスト抽出 シンプルなテキスト抽出
単語リスト 文書から全てのユニークな単語を抽出してソートされたリストを作成します
索引 TET で、文書から全ての単語を抽出して索引を作成します。索引はアルファベット順でソートされ、単語が出現するページ番号を一覧表示します。
グリフ情報の抽出 TET で、文書からグリフ情報を抽出します。
注釈からテキストを抽出 TET と pCOS インターフェースで文書にある注釈からテキストを抽出します。

フォントの処理

フォントの検索 特定のフォントが PDF 文書の何処に使われているかを明示します。ページ番号、位置、最初に見つかったテキストの最初の部分を表示します。
フォントの分析 TET で、文書に含まれるフォント毎の情報を表示するサンプルプログラムです。

イメージの抽出

イメージ抽出 シンプルなイメージを抽出します
イメージ解像度を決定する イメージの解像度(レゾリューション)を取得します
イメージの読み取り シンプルなイメージの読み取り方法です

TET と PDFlib

Web リンクの作成 TET と PDI により PDF を拡張します
ブックマークの作成 指定されたページのコンテンツを元にブックマークを生成します
分割 複数のページのコンテンツを小さな文書に分割します
検索テキストのハイライト 幾つかの基準に基づいて読み込んだページのテキストをハイライトします
テキストの検索と置換 TET によりテキストを検索し、白の矩形で塗りつぶし、その上に置換するテキストを追加します
目次の作成 タイポグラフィルールにしたがって、目次を自動的に作成します
マッピングされないグリフのハイライト マッピングされないグリフをハイライトします。(TET が Unicode のマッピングを解決できないグリフなど)
フォントのハイライト 該当フォントのテキストをハイライトします

TETML と XSLT

TETML シンプルな TETML 変換
TETML の HTML 変換 TETML を HTML に変換します
Solr Solr Enterprise Search Server 用の出力を行います
テキストのみ TETML からテキストのみを抽出します
メタデータ 入力 TETML から XMP メタデータを抽出します
テーブル テーブルを抽出して CSV にします
単語リスト 単語リストを生成します
フォントフィルタ 指定された値より大きなサイズの特殊フォントを使用した単語を抽出します
フォント検索 フォントが使用されるページと位置を出力します
フォント統計 フォントとグリフの統計を出力します
目次 目次を生成します
(May 6, 2010 - Oct 16, 2019)