AIを活用した文書仕分けソリューション
7月7日, 2021
コンテンツ分類では、構造化されていないコンテンツを整理するための文脈(コンテキスト)の分析と自動化を提供します。 このタイプのインテリジェントな文書処理(IDP)を使用すると、文書の並べ替え、すべての入力変数と画像の中から特定のタイプの文書を検出すること、各ページをドキュメントに構成しなおすことなどが可能となります。
「目まぐるしく変化する今日の世界では、適切な情報を適切な人に適切なタイミングで提供することが重要です。しかし、企業がビジネスで使用しているコンテンツの大部分は構造化されていないため、企業はビジネスにおいて、機械ベースの処理と自動化を活用できていません。」
Sven Diedrich, ABBYYテクノロジーライセンス担当ディレクター
コンテンツ分類はどのように動作するのでしょうか?
ABBYYのインテリジェント文書処理を使うことにより、半構造化された純粋なテキスト情報を整理し、自動でのコンテンツ分類が可能となります。すべてのユーザーが仕分け(分類)を容易におこなえるよう、ABBYYは、使いやすいインターフェイスを介して、データキャプチャテクノロジーと高度な自然言語処理(NLP)をユーザーに提供しています。
ABBYYインテリジェント文書処理での仕分け手法は、次の3つのステップで構成されます:
仕分け(分類)学習(トレーニング)用のデータセットの準備
このステップで、要求されたドキュメント(文書)クラスを定義します。 ドキュメントクラスごとに、外観やコンテンツが類似している文書のサンプルを6-7個選択します。機械学習とNLPアルゴリズムを活用して、ABBYYテクノロジーは、各ドキュメントクラス内の仕分け学習用ドキュメントを分析し、それぞれのドキュメントクラスを識別するために使われるパラメータを定義します。
仕分け用モデル(分類モデル)のトレーニング
ドキュメントクラスとそれぞれのパラメータに関する情報を仕分け用の分類モデルにインポートします。分類モデルはこのステップでトレーニングされます。モデルでは、画像分類子(Image Classifier)、テキスト分類子(Text Classifier)、または両方の組み合わせを使用が可能です。 できるだけ分類するか(High Recall)と精度を高く保つか(High Precision)のバランスを定義することで、パフォーマンスを最適化することができます。 分類モデルの品質をテストするために、データの相互検証も利用できます。
仕分けの展開
仕分けの処理中に、分類モデルは1つ1つ入力されたドキュメントを分析します。 ドキュメントタイプ(文書の種類)を正しく決定するために、分類モデルでは各文書に要求されたパラメータを計算し、トレーニングステップ中に受け取った情報とそれらを比較します。 開発者はルーチンを作成して、ユーザーが仕分け学習用データセットを柔軟に更新し、分類モデルを再トレーニングできるようにすることが可能です。
検出された文書カテゴリーに関する情報に加えて、文書がそれらに属する確信度に関する情報が提供されます。 この確信度情報を用いて、関連する会社の部門への文書の転送や再分類など、次の処理ステップを決定できます。
どんな場面で使われ、何ができるのでしょうか?
- 多くのコンテンツの整理
自動テキスト仕分けは、情報を整理して、優先順位付けするための確実な方法であり、これによりナレッジワーカーは必要とする情報にアクセスできるようになります。
- 文書内のポリシー違反とカバーされていない潜在的なリスクの洗い出し
さまざまなデータ資産のポリシー違反を特定します。 その結果、組織内に浮かんでいたり、データサイロ(書庫)に存在したりする、リスクをもたらす可能性のある文書を見つけることができます。
- 検索の強化
アーカイブされたコンテンツから追加のメタデータを生成し、ナレッジワーカーが新しいインターフェイスを介して重要なコンテンツを簡単かつ迅速に検索および取得できるようになります。
- 多くのコンテンツを管理下に
自動文書仕分け(分類)を使用すると、対象を絞った詳細なレベルでアーカイブし保存する必要のあるデータか、破棄すべきデータかを特定することが可能です。
ヘルスケア分野における文書の仕分けと整理
昨今の状況では、医療従事者が収益をスマートに管理し、使用率を最適化し、一連のケア全体でコストを削減することがこれまで以上に必要になっています。 ABBYYのデジタルインテリジェンスソリューションを活用することで、組織が最初にプロセスを完全に理解して改善すべき領域を特定し、次にインテリジェント文書処理を使用してコンテンツのフローを戦略的に自動化できます。
「ABBYYソリューションを使うことで、医療機関は情報データをキャプチャし、自動的に仕分けしてルーティングし、患者データを医療情報管理システム用に抽出できるようになります。そして、文書主導のプロセスを最適化することが可能になります。このようにプロセスを自動化することで、医療従事者は、情報をより良い患者ケアなどに利用できるようになります。 また、最小限の人件費で効率的な管理を行うことができるようになります。」
Sven Diedrich, ABBYYテクノロジーライセンス担当ディレクター
電子健康・医療記録(EHR/EMR)の仕分け
ABBYY分類技術は、電子医療記録(EMR)システムにも及び、医療従事者が患者記録関連文書を手作業で分類・整理していた作業を自動化し、時間の短縮に貢献しています。
グローバルサイエンス企業の3Mは、ABBYYのDigital Intelligence技術を自社の健康情報システム(Health Information Systems:HIS)に取り入れています。 3M 360 Encompassソフトウェアスイートが擁するデータに基づくコーディングのモジュールは、既存のサービスに加えて、スキャンされた文書のテキスト認識機能も搭載しています。
3M 360 Encompassソフトウェアのコーディング機能は、電子患者ファイルのデジタルデータを使用して、診断レポートや手順のコーディング・分類を行います。そうすることで、手術レポートや医師の文書(紹介状等)、退院書類といった電子形式の構造化テキストファイルを3MのHISで分析可能になります。
ABBYYのテキスト認識技術を統合したことで、3MのHISは医師の文書や臨床所見、治療内容などの印刷文書にみられる書き言葉を請求支払いと突き合わせする適切なコードに変換し、プロセスを合理化することができるようになりました。
文書処理におけるコンテンツ分類のその他のユースケース
アーカイブと記録管理を目的としたコンテンツ分類
巨大な文書レポジトリを即座に整理できるので、ナレッジワーカーは意思決定や分析といった様々な業務に対して重要な情報を効率的に検索して情報を捉えられます。
対象: 法務分野のポータル、省庁関係の記録、製造企業の記録、特許事務所、HR、大企業のセキュリティ部門など。
メールルーム—受け取る文書の仕分け
受け取る文書に記載されている細かいテキストベース/語義ベースの分類を行うことにより、OCRやデータ抽出/直接的な記録保管といった最適な処理ワークフローを加速し、自動的に選択することが可能です。
対象: 多種多様な文書を大量に受け取り、文書の配信を自動化する必要があるすべての企業。
データ・コンテンツの移行
多岐にわたるコンテンツの保管場所を一か所の整理整頓が行き届いたアーカイブ先に統合するなど、データ移行プロジェクトの効率を高めつつ、リスクを低減します。
対象: 新しいECMシステムへの移行や複数ある文書保管場所の統合を行うすべての大手企業(具体的なケース:会社の買収・合併など)。
eディスカバリー
eディスカバリーと監査向けに、文書を迅速に集めて準備できます。自然言語処理アルゴリズムを利用して、関連するコンテンツを検出し、文書を統一形式にまとめましょう。
対象: eディスカバリー向け文書の迅速な準備が求められる企業。
一連の文書の確認
一連の文書の処理と確認を加速化させます。ドキュメントの種類を自動的に検出し、重要なデータをキャプチャし、予め定義された条件に基づき検証し、さらに振り分けが可能です。
対象: 銀行、金融機関(信用照会を処理する必要がある企業など)。
ABBYYの技術を統合することにより、情報資産を分類、整理する方法が簡略化でき、効率を高められます。その結果、さらにAIを活用して合理化された情報環境が整い、コンテンツを分類し、ほかの関連データやコンテンツと関連付ける方法の一貫性を実現し、多岐にわたるビジネスシステムの中で構造化データと非構造化コンテンツをあらゆる方向から見た洞察が提供されます。
機械学習を使ったABBYY文書仕分けの仕組みや、ビジネス文書を価値あるものに変化させるFlexiCapture プラットフォームの機能については、以下をご覧ください。