PDFlib TET サンプル集(PDFlib TET クックブック)
■ テキストの抽出
PDF 文書のテキストコンテンツ処理| テキスト抽出 | シンプルなテキスト抽出 |
| 単語リスト | 文書から全てのユニークな単語を抽出してソートされたリストを作成します |
| 目次 | PDFlib TET で、文書から全ての単語を抽出して目次を作成します。目次はアルファベット順でソートされ、単語が出現するページ番号を一覧表示します。 |
■ フォントの処理
PDF 文書のフォント情報の分析
| フォントの検索 | 特定のフォントが PDF 文書の何処に使われているかを明示します。ページ番号、位置、最初に見つかったテキストの最初の部分を表示します。 |
| フォントの分析 | PDFlib TET で、文書に含まれるフォント毎の情報を表示するサンプルプログラムです。 |
■ イメージの抽出
PDF 文書からラスタイメージを抽出します
| イメージ抽出 | シンプルなイメージを抽出します |
| イメージ解像度を決定する | イメージの解像度(レゾリューション)を取得します |
| イメージの読み取り | シンプルなイメージの読み取り方法です |
■ TET と PDFlib
抽出したテキストコンテンツを元に PDFlib+PDI を使用して PDF 文書を変更または拡張追加します。
| Web リンクの作成 | PDFlib TET と PDFlib+PDI により PDF を拡張します |
| ブックマークの作成 | 指定されたページのコンテンツを元にブックマークを生成します |
| 分割 | 複数のページのコンテンツを小さな文書に分割します |
| 検索テキストのハイライト | 幾つかの基準に基づいて読み込んだページのテキストをハイライトします |
| テキストの検索と置換 | TET によりテキストを検索し、白の矩形で塗りつぶし、その上に置換するテキストを追加します |
| 目次の作成 | タイポグラフィルールにしたがって、目次を自動的に作成します |
| マッピングされないグリフのハイライト | マッピングされないグリフをハイライトします。(TET が Unicode のマッピングを解決できないグリフなど) |
| フォントのハイライト | 該当フォントのテキストをハイライトします |
■ TETML と XSLT
PDF 文書を TETML および XSLT 付の TETML に変換します。
| TETML | シンプルな TETML 変換 |
| TETML の HTML 変換 | TETML を HTML に変換します |
| Solr | Solr Enterprise Search Server 用の出力を行います |
| テキストのみ | TETML からテキストのみを抽出します |
| メタデータ | 入力 TETML から XMP メタデータを抽出します |
| テーブル | テーブルを抽出して CSV にします |
| 単語リスト | 単語リストを生成します |
| フォントフィルタ | 指定された値より大きなサイズの特殊フォントを使用した単語を抽出します |
| フォント検索 | フォントが使用されるページと位置を出力します |
| フォント統計 | フォントとグリフの統計を出力します |
| 目次 | 目次を生成します |
(May 6, 2010 - Feb 10, 2011)
![]() |
![]() |
![]() |




