PDFlib PDF 文書処理ライブラリー   PDFlib PDF 文書処理ライブラリー
インフォテックトップページ
検索 

PDFlib TET サンプル集(PDFlib TET クックブック)

テキストの抽出

PDF 文書のテキストコンテンツ処理
テキスト抽出 シンプルなテキスト抽出
単語リスト 文書から全てのユニークな単語を抽出してソートされたリストを作成します
目次 PDFlib TET で、文書から全ての単語を抽出して目次を作成します。目次はアルファベット順でソートされ、単語が出現するページ番号を一覧表示します。

フォントの処理

PDF 文書のフォント情報の分析
フォントの検索 特定のフォントが PDF 文書の何処に使われているかを明示します。ページ番号、位置、最初に見つかったテキストの最初の部分を表示します。
フォントの分析 PDFlib TET で、文書に含まれるフォント毎の情報を表示するサンプルプログラムです。

イメージの抽出

PDF 文書からラスタイメージを抽出します
イメージ抽出 シンプルなイメージを抽出します
イメージ解像度を決定する イメージの解像度(レゾリューション)を取得します
イメージの読み取り シンプルなイメージの読み取り方法です

TET と PDFlib

抽出したテキストコンテンツを元に PDFlib+PDI を使用して PDF 文書を変更または拡張追加します。
Web リンクの作成 PDFlib TET と PDFlib+PDI により PDF を拡張します
ブックマークの作成 指定されたページのコンテンツを元にブックマークを生成します
分割 複数のページのコンテンツを小さな文書に分割します
検索テキストのハイライト 幾つかの基準に基づいて読み込んだページのテキストをハイライトします
テキストの検索と置換 TET によりテキストを検索し、白の矩形で塗りつぶし、その上に置換するテキストを追加します
目次の作成 タイポグラフィルールにしたがって、目次を自動的に作成します
マッピングされないグリフのハイライト マッピングされないグリフをハイライトします。(TET が Unicode のマッピングを解決できないグリフなど)
フォントのハイライト 該当フォントのテキストをハイライトします

TETML と XSLT

PDF 文書を TETML および XSLT 付の TETML に変換します。
TETML シンプルな TETML 変換
TETML の HTML 変換 TETML を HTML に変換します
Solr Solr Enterprise Search Server 用の出力を行います
テキストのみ TETML からテキストのみを抽出します
メタデータ 入力 TETML から XMP メタデータを抽出します
テーブル テーブルを抽出して CSV にします
単語リスト 単語リストを生成します
フォントフィルタ 指定された値より大きなサイズの特殊フォントを使用した単語を抽出します
フォント検索 フォントが使用されるページと位置を出力します
フォント統計 フォントとグリフの統計を出力します
目次 目次を生成します
(May 6, 2010 - Feb 10, 2011)