テキストのエクスポートと文書の再構築
文書の分析が完了してテキスト範囲が認識されると、あらかじめ定義したオプションに従って結果がエクスポートされます。
ABBYY FineReader EngineのOCR APIでは、認識結果のエクスポートに幅広いオプションを設け、プレーンテキスト、XML、様々なタイプのPDFとPDF/A、画像だけを含む各種形式、編集可能なMicrosoft® Officeのファイル形式などに対応しています。 必要に応じて、書式や文書構造を含めた元文書の完全な再現も可能です。
エクスポートの工程では以下の機能が利用可能です
- レイアウト再構築でのレベルの選択とテキスト書式の保持。書式を含まないテキストだけの出力から、段組み、表、枠線、フォントの種類とサイズ、段落スタイル、境界線などを含むページレイアウトの完全な再現まで。
- 認識された各文字に関する詳細情報へのアクセス
- 実際にエクスポートする前に、認識されたテキストの編集・書式設定を行う機能
- 認識されたテキストを様々な種類の保存形式でエクスポート
- 論理構造や書式エレメント(目次、ヘッダー、フッター、脚注など)を含む文書レイアウトを完全に保持
- はっきり認識できなかった文字を、対応する文字画像で置き換えてからPDFに保存
- 画像やテキストの色を完全に保持