機械学習とによる文書の仕分け
ABBYY FineReader Engineは文書分類のためのAPIを備えています。文書を自動的に分類し、定義された文書クラスに振り分けるアプリケーションの実現が可能です。 高度な文書分類機能を実現するのは、機械学習や自然言語処理などの最新技術です。 一つひとつの文書カテゴリーに存在するわずかな違いも検出するので、柔軟でスケーラブルな分類処理を構築できます。数多くの文書カテゴリーを細かく見分けることが可能です。
インテリジェントな新技術、画像クラシファイアは文書画像に関するビジュアル情報を処理し、分類結果を迅速に届けます。 高度なテキストクラシファイアは文書の内容に関する情報を抽出・処理することにより、分類精度を高めます。 画像クラシファイアとテキストクラシファイアは個別に使用することも、組み合わせて使用することも可能です。
分類処理の各工程
原則として分類処理は3つの工程から成ります。
分類学習用のデータセットを準備
この工程では必要な文書クラスを定義します。 各文書クラスに対し、見た目やコンテンツが類似するいくつかの文書例を選択します。 機械学習と自然言語処理を活用したアルゴリズムを使って各クラス内の学習用文書を分析し、対応する文書クラスを識別するのに使用すべきパラメータを定義します。
分類モデルの学習
この工程では、文書クラスと対応するパラメータに関する情報を分類モデルにインポートし、分類モデルに学習させます。 分類モデルでは、画像クラシファイア、テキストクラシファイア、または両クラシファイアを組み合わせて使用できます。 再現率と精度のバランスを定義することにより、性能の最適化が可能です。 データの相互検証を実行すれば、分類モデルの品質を確認できます。
分類のデプロイメント
分類プロセスでは、分類モデルが入力される文書を一つひとつ分析します。 文書の種類を正確に特定するため、各文書で必要なパラメータを計算し、学習工程で得られた情報と照らし合わせます。 ユーザーが学習データセットを柔軟に更新して分類モデルに再学習をさせるルーチンを、開発時に作成しておくことも可能です。
仕分けモード
使用シナリオに応じ、精度または再現率を優先するか、あるいは両者のバランスを取るかで分類処理を最適化できます。
High precisionモード
文書を正しいカテゴリーに正確に仕分けすることが重要なシナリオで推奨されるモードです。間違ったクラス指定を最低限に抑えます。
クラスAに属すると識別された文書が実際にはクラスAではなく、クラスB の文書であったといった事態を防ぎます。一方、クラスAに属するかどうかがはっきりと分からない場合には、文書を分類しないことが容認されます。
最重要点: 文書を正確に分類し、文書が間違ったクラスに分類されるリスクを最小限に抑えます。
High recall mode
多少の間違いは容認して、特定のカテゴリーに仕分けをすることを優先するモードです。分類漏れが発生するリスクを最小限に抑えます。
文書バッチの中でクラスAに属する文書の検出漏れを防ぎます。一方、クラスAと判定された文書の中に実際にはクラスBの文書が混じっているという事態は容認されます。
最重要点: 文書バッチの中から、特定クラスに属する文書をすべて検出し、検出漏れのリスクを最小限に抑えます。