Was eine maßgeschneiderte KI für eine effiziente Datenerfassung bedeutet
Christian Marquardt
18 July 2024
Unglaublich, aber wahr: die auf Algorithmen und Heuristiken basierende Artificial Intelligence (AI) bzw. künstliche Intelligenz (KI) ist bereits seit Jahrzehnten die Grundlage für Innovationen in vielen Unternehmen. Es ist also kein temporärer Hype einer bisher nicht gekannten Technologie.
Technologien wie maschinelles Lernen, Computer Vision und Natural Language Processing (NLP) haben eine menschenähnliche Erkennung, Extraktion und Klassifizierung von Daten aus Dokumenten ermöglicht, um Unternehmenssysteme automatisch zu unterstützen und intelligentere Entscheidungen schneller treffen zu können. Jedoch mit dem Aufkommen der transformatorbasierten generativen KI -oder einfach einmal gesagt: Sie kennen es bereits, wenn Sie ChatGPT bereits genutzt haben- wurde eine neue Generation der künstlichen Intelligenz eingeleitet und in kürzester Zeit von Millionen Nutzern weltweit genutzt. Die Verheißungen und Möglichkeiten sind noch unerforscht, und die Auswirkungen auf die Wirtschaft sind optimistisch, aber auch umstritten.
Eines ist für mich jedoch klar, dass sich die digitale Transformation mit fortschrittlicheren, umfassenderen und personalisierten Funktionen für Geschäftsanwender und Endbenutzer weiterentwickeln wird – wenn auch mit weiteren Regularien. Bei der Betrachtung von KI, stellte ich mir sehr früh die Frage nach dem Nutzen – dem Purpose. Es ist somit wichtig zu verstehen, wie wir heutzutage Purpose-Built-AI nutzen können, um einen klar definierbaren Mehrwert zu schaffen, der in der breiten Masse ggf. weniger kritisch gesehen wird. Aber welche Bereiche könnten wir denn jetzt schon weniger kritisch ansehen?
Nehmen wir einmal die Verpflichtung zur elektronischen Rechnungstellung der EU: Ab 2025 wird die E-Rechnung für steuerpflichtige Umsätze zwischen Unternehmen verpflichtend. Die Herausforderung wird schon hier sein, aus den weiterhin zulässigen Rechnungsformaten, die relevanten Informationen vollständig und korrekt zu extrahieren. Wer sich mit diesem Thema beschäftigt, stößt automatisch auf das Thema intelligente Dokumenten-Verarbeitung – und befindet sich unausweichlich bereits im Gebiet der Künstlichen Intelligenz, wie im Falle von ABBYY, bei der diese seit mehr als 30 Jahren im Kern des sog. Intelligent Document Processing (IDP) ist.
Im Folgenden werde ich daher anhand des Beispiels ABBYY versuchen, etwas Transparenz in die Welt der Abkürzungen (LLM, CNN, ML, NLP, IDP) zu bringen.
KI-Innovation als Grundlage für ABBYY Intelligent Document Processing (IDP)
Grundsätzlich kann man sagen, dass Intelligente Dokumentenverarbeitung (IDP) eine hochentwickelte Automatisierungstechnologie zur Erfassung, Auswertung, Extraktion, Kategorisierung und Verarbeitung aussagekräftiger Daten aus großen Dokumenten-Strömen in leicht zugänglichen Formaten ist. Diese Technologie kann verschiedene Arten von Dokumenten verarbeiten, darunter Papier, PDFs, Word-Dokumente, Tabellenkalkulationen und viele andere Formate. IDP zielt vor allem darauf ab, nützliche Informationen aus großen Dokumenten zu extrahieren, ohne dass menschliche Eingaben erforderlich sind.
Die IDP-Plattform von ABBYY ist in allen Schritten der intelligenten Dokumentenprozesskette mit modernster KI ausgestattet, von der Bildverarbeitung bis zur Objekterkennung, OCR/ICR, Klassifizierung und Extraktion aus halbstrukturierten und unstrukturierten Dokumenten.
- Bildauswertung: Bildquelle; Erkennung des Dokumententyps; geometrische Verzerrungen; Zuschneiden
- Objekterkennung: Gedruckter und handschriftlicher Text; Strichcodes; Prüfzeichen; Stempel; Unterschriften; Tabellen
- OCR/ICR: OCR für über 200 Sprachen; ICR; Erhaltung der Dokumentenstruktur
- Klassifizierung: Multimodale Klassifizierung von Dokumenttypen; unüberwachtes Clustering von Dokumenten nach ähnlichen Facetten
- Extraktion aus semistrukturierten Daten: DeepML, FastML; Extraktionsregeln; feste Formen
- NLP für Unstrukturiertes: Segmentierung; NER; DeepML; Abfragen; Zusammenfassungen
Mit der richtigen Kombination von Technologien und Techniken können die IDP-Lösungen von ABBYY jede Art von Dokument verarbeiten - jedes Format, jede Sprache, jede Struktur. Alle spezialisierten Techniken wurden für die bestmöglichen Schlussfolgerungen und den geringstmöglichen Ressourcenbedarf optimiert, so dass die Kosten und der ROI für die Kunden optimiert werden können.
Large Language Models (LLMs) und Kontext bezogene Antworten.
Kaum überraschend, aber die Geschäftsprozesse laufen weiterhin auf Basis zahlreichen Dokumenten ab. Der Bedarf an intelligenter Dokumentenverarbeitung (IDP) reißt auch nicht ab, denn die IDP ist ein wesentliches Instrument in einem RAG-Projekt. RAG? Wieder eine Abkürzung, die nach Erklärung ruft. RAG bedeutet wörtlich „Retrieval Augmented Generation“. RAG verwendet vorhandene Unternehmensdokumente zur Anreicherung von Datenbanken und zur Feinabstimmung von KI-Modellen, um genauere und kontextspezifische Antworten zu ermöglichen. Durch den Einsatz unternehmensspezifischer Informationen gehen die RAG-Modelle über generische Antworten hinaus, die auf zuvor trainierten Daten basieren, und liefern stattdessen maßgeschneiderte Antworten, die den einzigartigen Kontext und die Bedürfnisse des Unternehmens widerspiegeln und zusätzlich die Zuverlässigkeit erhöhen, indem u.a. auch sog. Hallucination – eine in der KI auftretende Halluzination (auch Konfabulation genannt) verhindert werden.
Dies ist somit eine kostengünstige Methode, die die Fähigkeiten großer Sprachmodelle (LLMs) ergänzt, indem mit gezielten Informationen -in Echtzeit- das Ergebnis optimiert – ohne hierbei das zugrundeliegende Modell selbst zu verändern. Dadurch sind gezielte Informationen aktueller als das LLM selbst und können kostengünstig sehr spezifisch z.B. für eine bestimmte Branche dienen.
So unterstützt ABBYY die Unternehmen, mit generativer KI erfolgreich zu sein: Daten liegen oft in Silos innerhalb des Unternehmens vor, sind aber größtenteils in Geschäftsdokumenten eingeschlossen. Eine intelligente Dokumentenverarbeitung extrahiert Dokumentendaten und stellt sie in einen Kontext. Diese Daten und der Kontext werden dann mit der Benutzer-Prompot an das LLM kombiniert, um sie inhaltsbezogen zu machen. Das bedeutet, Genauigkeit, Qualität und Zuverlässigkeit.
Convolutional Neural Networks (CNN) und Transformatoren
ABBYYs End-to-End-Ansatz für OCR (Optical Character Recognition) – optische Zeichenerkennung und ICR (was für Intelligent Character Recognition – also die handgeschriebenen Zeichen steht) wurde vor vielen Jahren bereits auf den Markt gebracht und seitdem kontinuierlich weiterentwickelt. ABBYY verwendet die gleichen Technologien wie ChatGPT und andere LLMs - neuronale Faltungsnetzwerke, Transformatoren und große Sprachmodelle.
Das LLM, das ABBYY einsetzt, ist sehr spezifisch auf die Bedürfnisse der Kunden zugeschnitten, um einen Mehrwert aus ihren prozessgesteuerten Geschäftsdokumenten zu ziehen. Es ist somit eine sog. Purpose-Built-AI. Das Convolutional Neural Network (CNN) zerlegt ein Bild von handgeschriebenem oder gedrucktem Text auf einem Dokument in seine Bits und Bytes und versucht zu verstehen, worum es sich eigentlich handelt. Der gesamte Input des CNN wird dann in einen Transformator geleitet, um ein mögliches Ergebnis eines Wortes zu erhalten. Dann setzt ABBYY sein eigenes LLM ein, das auf der Grundlage von Milliarden von Parametern trainiert wurde und die spezielle Aufgabe hat, den Kontext aller verschiedenen Wörter einer Gruppe zu berücksichtigen und diese Informationen bestmöglich zu nutzen, um zu einer Schlussfolgerung zu gelangen.
Diese Technik verbessert die Leistung und Genauigkeit unserer OCR-Funktionen insgesamt drastisch und wird in Kombination mit unserem statistischen Ansatz eingesetzt. Die KI entscheidet automatisch, welcher Ansatz für Ihre Dokumente am besten geeignet ist, um sie im Hinblick auf Konsistenz, Genauigkeit und Geschwindigkeit zu optimieren, was zu besseren Durchsatzraten führt.
Deep Learning und schnelles maschinelles Lernen (ML)
Deep Learning ermöglicht es ABBYY, KI-Modelle in seiner Plattform für einen ganz bestimmten Zweck vorzutrainieren. Das ist etwas anderes als bei Open-Source-LLMs oder Anbietern generativer KI, die diese als API anbieten. Während generative KI erstaunliche neue Möglichkeiten schafft, wie man mit Technologien interagiert, wird sie nicht bei allem gut funktionieren. Durch Deep Learning werden Modelle für einen ganz bestimmten Zweck trainiert, und darin ist es hervorragend, denn es ist zweckgebunden. Wie oben erwähnt, setzt ABBYY eine Kombination aus vielen verschiedenen Technologien ein, um eine intelligente Dokumentenverarbeitung der Spitzenklasse zu bieten.
Im ABBYY Produkt „Vantage“ vereint ABBYY eine Kombination aus Deep Learning und schnellem maschinellem Lernen auf einer Low-Code-IDP-Plattform, um die Durchsatzrate zu maximieren. Mit Deep Learning allein können die Kunden mit den von ABBYY trainierten Modellen sofort eine Genauigkeit von oftmals bis zu 90 Prozent erreichen. Durch die Einbeziehung des schnellen maschinellen Lernens kann die Genauigkeit sogar auf über 95 Prozent steigen. Schnelles maschinelles Lernen merkt sich die Ausreißer, die tiefes maschinelles Lernen (Deep Learning) nicht erreichen konnte, und arbeitet schnell, mit nur wenigen Variationen der fraglichen Dokumente. Das Modell verbessert sich kontinuierlich anhand der verarbeiteten Dokumente -und deren Variationen-, sowie basierend auf manuellem Input während des sogenannten HITL (Human in the Loop). Was so viel bedeutet wie manuelle Verifikation. Somit erzielen die Modelle mit der Zeit eine immer höhere Genauigkeit.
Natural Language Processing (NLP)
Natural Language Processing (NLP), im deutschen Sprachraum auch Computerlinguistik bzw. linguistische Datenverarbeitung genannt, ist ein Bereich der KI als auch des maschinellen Lernens. Diese beschäftigt sich mit der Analyse und Generierung von natürlicher Sprache. Einerseits können wir durch Natural Language Processing mit Computern mittels Sprache kommunizieren, wie „Hey Alex, dimme das Licht im Pool“, andererseits erlaubt es hoch entwickelten Intelligent Document Processing (IDP), dieses Sprach-„Verständnis“ zu nutzen, um Dokumente jeglicher Art und Komplexität zu „verstehen“- unabhängig davon, ob diese textlastig, unstrukturierte hochkomplexe Dokumente sind.
Durch die Verarbeitung natürlicher Sprache kann beispielsweise ABBYY Vantage strukturierte Daten aus fließendem Text extrahieren, zum Beispiel aus einem komplexen Fusions-Vertrag zweier Unternehmen, die einer komplexen Branche angehören und somit eine Vielzahl von Fachbegriffen verwenden. Zu den zu erkennenden „Bereiche“ innerhalb dieser Verträge beispielsweise, gehören so genannte Named Entities. D. h. Namen von Personen, Organisationen, Geldbeträgen, Daten, Laufzeiten, Orte oder Adressen. Die Fähigkeit, solche Daten aus langen Verträgen oder anderen unstrukturierten Dokumenten zu „verstehen“ und zu extrahieren, kann verschiedene Geschäftsprozesse beschleunigen und vereinfachen, Fachkräfte dabei unterstützen, eine höhere Effizienz zu erreichen, und einen besseren und schnelleren Kundenservice bieten.
Einige Beispiele dafür, wo NLP den größten Nutzen bietet, sind eine schnellere Kreditbearbeitung und -genehmigung durch schnelles Extrahieren und Validieren von Kreditnehmerdaten in verschiedenen Dokumenten zur Kreditvergabe. Darüber hinaus kann NLP das Datenschutzmanagement und die Einhaltung von Vorschriften durch Extrahieren aller personenbezogenen Daten aus komplexen, unstrukturierten Dokumenten mit minimalem Aufwand vereinfachen und das Vertragsmanagement, die Analyse und die Risikobewertung durch effizientes Extrahieren relevanter Namen, Daten, Beträge usw. im gesamten Vertrag erleichtern.
Mit seinen Deep-Learning-Fähigkeiten für NLP ermöglicht es Vantage den Entwicklern und Geschäftsanwendern gleichermaßen, das System so zu trainieren, dass es ihre eigenen benannten Entities erkennt, während es gleichzeitig volle Kontrolle und Transparenz über den Trainingsprozess bietet.
Um ein Update zu erhalten, wenn neue Artikel veröffentlicht sind, melden Sie sich bitte hier an: https://www.abbyy.com/de/subscribe/