Companyインフォテック、日本語縦書きフォントに対応した PDF 文書テキスト・イメージ抽出ライブラリーを販売開始
インフォテック株式会社 (東京都府中市) は、11月11日より、PDF 文書からテキストやイメージを抽出するプログラムライブラリーの最新版 PDFlib TET 5 の販売を開始しました。
PDFlib TET は、ドイツの PDFlib 社が開発したソフトウェアで、日本を含め世界 100 カ国以上で 20,000 ライセンスを超える導入実績がある PDF 生成の定番ライブラリー PDFlib の姉妹品です。PDFlib TET により、開発者はアプリケーションから PDF 文書のテキストやイメージを抽出して利用できます。
PDFlib TET 5 では、縦書き文書のサポートを強化するため、日本語を含む縦書きフォントに対応した他、テキスト色の抽出やイメージのマスク(イメージマスク、ソフトマスク)などへの対応を行うなど、さまざまな機能の強化が図られています。
TET 5 の新機能
- テキスト抽出の機能強化
日本、中国、韓国語に関する縦書きフォントをサポートした他、塗りつぶし及び描画カラーの抽出に対応しました。
- イメージ抽出の機能強化
イメージマスクとソフトマスク、JPEG 2000 圧縮イメージのマージ及び変換、TIFF イメージから抽出されたスポットカラーの保存をサポートした他、イメージ抽出処理に関するさまざまな強化が図られています。
- ページ処理の機能強化
タグ付き PDFにおける無関係なコンテンツの無効化、主要レイヤーや主要クリッピングパスでの不可視コンテンツの無効化に対応しました。また、ページ領域にテキスト、イメージ、ベクターグラフィックスがあるかどうかの判定をサポートしました。
- TETML 出力の機能強化
PDF 文書のテキスト、イメージやメタデータを XML 形式で出力する TETML 出力機能を強化しました。
- pCOS 機能の強化
PDF 文書の情報を抽出する pCOS 機能に pCOS 擬似オブジェクトが追加されました。
詳細は TET の新機能 をご参照ください。
対応プラットフォーム、対応言語
プラットフォーム: | Windows, OS X, Linux, Solaris, HP-UX, AIX, iOS, Android, i5/iSeries, zSeries |
---|---|
言語: | C, C++, Java, Perl, PHP, Python, Ruby, COM, .NET |
本リリースに関するお問い合わせ
会社名: | インフォテック株式会社 (infoTek K.K.) |
---|---|
電話: | 042-358-5777 |
FAX: | 042-358-5801 |
メール: | pdflib_sales@infotek.co.jp |