全てのブログ

帳票処理ソリューション – 複数ページにわたる複雑な表やレイアウトを持つ帳票でもOCRし、データ抽出して自由に出力できる

8月5日, 2020

今回から始まる「帳票処理ソリューション」シリーズでは、ABBYY FlexiCaptureの強みを書いていく予定です。第一回の今回は、よくソリューションが無いと勘違いされそうな、複雑な帳票、書類におけるソリューションの話となります。「複雑な帳票、書類」とは具体的には以下のようなものです。

  • 複雑な行で構成される表・明細行を持つ表、一定のパターン・法則が繰り返される帳票
  • 複雑な帳票・表、レイアウトで、例えば、表が複数ページに渡っているもの
  • ページ間で表の1行・1レコード・1パターンのデータがまたがってしまっている帳票
  • 罫線が無い、行や列が分かりにくい帳票
  • 左から右、または、右から左などの横方向の読み取りが必要な帳票
  • 上記の組み合わせのような複雑な帳票

このように複雑なものであっても、各読み取り箇所を適格に認識し、OCRを行えます。読み取った文字の出力形式、出力のレイアウトも扱いやすいように出力できます。

複雑な行で構成される表・明細行を持つ表、一定のパターン・法則が繰り返される帳票

表の行が単純な格子状になっていない2、3...複数段の複雑な形式の行でも、簡単に読み取ります。

帳票処理ソリューション

上図の典型的なCSV出力イメージのひとつ:

ProductCode,Maker,Remarks,ProductName,UnitPrice,Qty,Unit,Amount
SHOHIN-001,ダミー株式会社,架空の商品001,Kaku-Special001,100,1,個,100
SHOHIN-002,ダミー株式会社,架空の商品002,Kaku-Special002,200,2,個,400

SHOHIN-003,ダミー株式会社,架空の商品003,Kaku-Special003,300,3,個,900

ProductCode,Maker,Remarks,ProductName,UnitPrice,Qty,Unit,Amount
SHOHIN-001,ダミー株式会社,架空の商品001,Kaku-Special001,100,1,個,100
SHOHIN-002,ダミー株式会社,架空の商品002,Kaku-Special002,200,2,個,400
SHOHIN-003,ダミー株式会社,架空の商品003,Kaku-Special003,300,3,個,900

複雑な帳票・表、レイアウトで、例えば、表が複数ページに渡っているもの

上図のような複雑な行の帳票が複数ページで構成されていて、フォーマットも最初と最後のページで異なっていたとしても、各行・レコードの適格な認識はもちろん、OCRした文字を上図のCSVのように、連続行として1つの出力先に出力することができます(分けることもできます)。

帳票処理ソリューション

ページ間で表の1行・1レコード・1パターンのデータがまたがってしまっている帳票

以下のような、ページまたぎの行、レコードでも問題なく認識して、OCRできます。

帳票処理ソリューション

罫線が無い、行や列が分かりにくい帳票

明細部に罫線が無くても、行や繰り返しの法則性・パターンが分かる帳票ならば…

帳票処理ソリューション

下図の線で区切ったように読み取ることも、このような帳票がたとえ複数ページ続いたとしても、行を帳票の印刷された意図通りに認識し、OCRする事が出来ます。

帳票処理ソリューション

下記の例のように、罫線が全くなくても、表の部分を下図の線で区切ったように認識し、OCRする事が可能です。もちろん複数ページの読み取りでも、途中に異なるフォーマットの帳票があっても大丈夫です。

帳票処理ソリューション

左から右、または、右から左などの横方向の読み取りが必要な帳票

表を 左から右へ、列を行のように扱って、読み取るOCRも、

帳票処理ソリューション

右から左へ 列を行のようなパターンとみなして読むOCRも可能です。

また、このような横方向でも、複雑な列(行) やパターンの繰り返しも読み取ることができます。

あらゆる種類、どんなレイアウト、どんな複雑な帳票が複数ページで構成されていても大丈夫

どんな複雑な帳票でも、人間が読めるのなら、繰り返されるパターンや法則性があります。

罫線が一切無くても、特定のパターンや法則が繰り返されるのであれば、下図のような複雑で、複数ページに渡る帳票でも、各ブロックの表の明細行のみを認識してOCRして、まとめて出力することも、それぞれの表のブロックを別々に認識して、OCRを行い、出力することも可能です。

帳票処理ソリューション

帳票処理ソリューション

帳票に同じ管理番号: 請求書番号、注文番号、お客様番号…などがある場合、そのOCR結果を元に文書をまとめ、他のOCR結果の内容と出力もまとめることができます。

各帳票のフォーマットが異なっていても、問題ありません。

帳票処理ソリューション

その他にも FlexiCapture だけで、全ての電子自動処理が完結できる程の多くの機能を備えています。それは次回以降ご紹介いたします。

あらゆる種類、どんなレイアウト、複数ページで成る帳票を扱うことができます。

帳票処理ソリューション

今回ご紹介しました、帳票処理ソリューションABBYY FlexiCaptureについての概要、デモの依頼、お問い合わせはこちらから承ります。

OCR(文字認識) コンテンツの理解 AI(人工知能)

ブログのアップデートを購読

読み込み中...

Connect with us