自動文書分析
自動文書分析は、文書認識の全プロセスの中でも重要な工程です。 高い精度の文書分析を実現するため、ABBYY FineReader Engineでは人工知能をベースにした数多くの高度なアルゴリズムと、ABBYYが誇る適応型文書認識技術(ADRT)を活用しています。
この工程で実行される論理構造の分析では、文書の開始ページと終了ページを識別し、脚注、ヘッダー、フッター、目次などの書式エレメントを検出します。
同時に各ページのレイアウトを検出し、テキストブロック、画像、表とセル、バーコード、セパレータなど各オブジェクトに分割する作業をページごとに実行します。 また、文書分析アルゴリズムがページの向き、見開きページ、縦書きテキストを検出し、認識工程に関係のない部分を定義します。 上記のような作業により、テキスト部分やフィールドなどの認識が必要な範囲と、画像や図表など元の形を維持すべき範囲の特定が可能となります。 同時に、ここで得られた文書の論理構造や書式に関する情報が、OCRプロセスの最終工程で文書を正確に再構築する際に使用されます。
認識後の文書を再利用する場合や、文書の正確な再構築が必要な場合には、ここで得られた分析結果を利用して文書構造やレイアウトを再現します。 画像や図表はすべて元の形のままで維持され、画像やロゴの中に含まれるテキストは認識されません