Herausforderungen der traditionellen optischen Zeichenerkennung

Explore in:

Unternehmen arbeiten mehr und mehr standortunabhängig, weshalb die Dokumentenverarbeitung zu einer Schlüsselfunktion für die Fortführung von Geschäftsfunktionen geworden ist. Ohne physischen Hauptsitz, von dem aus gearbeitet werden kann, sind greifbare gedruckte Dokumente weniger ein Segen, sondern eher eine Belastung. Gleiches gilt für die Digitalisierung dieser Informationen. Mit dem Übergang in ein zunehmend digitales Zeitalter – in das wir durch die COVID-19-Pandemie mit voller Wucht hineingeraten sind – ist die Umwandlung dieser Papierberge in Codes unverzichtbar geworden, und zwar unabhängig davon, ob diese Umwandlung manuell oder mithilfe moderner Mittel wie der Optical Character Recognition durchgeführt wird.

Es ist eine mühsame Aufgabe, aber sie muss erledigt werden. Man merkt überhaupt nicht, wie sehr selbst die grundlegendsten Geschäftsfunktionen auf physische Dokumente angewiesen sind, bis man ohne sie in einem digitalen Arbeitsumfeld zurechtkommen muss. Memos für die Bürokommunikation, Kundendokumentation, Anschaffungen und Buchhaltung: Alles ist vom Papier abhängig (oder jetzt von digitalem Text).

Und hier kommt die Optical Character Recognition ins Spiel. Optical Character Recognition ist auch als optische Zeichenerkennung oder kurz OCR bekannt und ein maschinelles Verfahren zur Umwandlung von Dokumentenbildern in digitale Daten. Statt das Dokument manuell digital neu zu erstellen, scannen OCR-Scanner das Dokument und übersetzen es automatisch in sein neues Medium. Das spart Zeit und erleichtert den Alltag.

Auch wenn die Vorteile der Digitalisierung, d. h. bessere Zusammenarbeit, Automatisierung, Platz- und Zeitersparnis, auf der Hand liegen, gibt es natürlich auch Schwierigkeiten und Probleme. Schließlich sind es Menschen, die über die besten Lese-, Schreib- und Denkfähigkeiten verfügen. Computer eignen sich hervorragend für einfache Analysen, bei denen nicht kritisch darüber nachgedacht werden muss, was berücksichtigt und was ausgelassen werden sollte, was wichtig ist und was vielleicht ein Fehler ist. Sie sehen, weshalb Datenanalysten auch in unserem aufkeimenden digitalen Zeitalter Computern im übertragenen Sinne die Hand halten und mit genauen, spezifischen Befehlen anleiten müssen.

Die Verarbeitung von Dokumenten ist zwar Routinearbeit, aber sie beruht auf menschlichen Analysen, um sicherzustellen, dass die Endprodukte auch tatsächlich korrekt sind. Traditionelle OCR-Scanner sind für ihre Langsamkeit berüchtigt und kommen mit komplexen Daten nicht gut zurecht. Viele machen sich nicht die Mühe, Dokumente mit ihrer neuen Schnittstelle in etwas Interaktives umzuwandeln. Und selbst wenn dies der Fall ist, wird die gewonnene Zeit durch den Arbeitsaufwand, der für die Lösung von Problemen eingesetzt werden muss, wieder aufgebraucht. Glücklicherweise gibt es inzwischen neuere Lösungen, die eigens für die Probleme mit traditionellen OCR-Lösungen entwickelt wurden.

Probleme mit Tools der traditionellen optischen Zeichenerkennung

Die Einführung des ersten OCR-Scanners, dem Optophone von Edmund Fournier d’Albe im Jahr 1917, und die anschließenden Innovationen waren ein wichtiger Meilenstein in der frühen Entwicklung hin zu technologiebasierten Lösungen für die Dokumentation. Natürlich waren und sind diese Lösungen im Vergleich zu den erforderlichen Standards an die optische Zeichenerkennung für das 21. Jahrhundert ziemlich einfach.

Die ersten Lesegeräte wurden entwickelt, um Blinden zu helfen und einfache Dokumente zu sortieren, und wurden beispielsweise von der US-amerikanischen Post für die Briefsortierung eingesetzt. Ihre optischen Sensoren konnten die Buchstaben des lateinischen Alphabets und einfache römische Ziffern verarbeiten.

Trotz dieser frühen Fortschritte haben Tools für die Optical Character Recognition derzeit den Ruf, unerträglich langsam zu sein und zu stagnieren. Die OCR-Technologie hat sich in den letzten zehn Jahren kaum weiterentwickelt und deshalb laufen Geräte mit dieser Funktion extrem langsam. Denken Sie beispielsweise einmal an die einfachen Flachbettscanner in Büros, die nicht wirklich aktualisiert wurden.

Grund für diese Stagnation ist eine fehlende treibende Kraft für die Einführung einer Technologie zur Dokumentenverarbeitung. Unternehmen, die mit OCR-Lösungen arbeiten, haben noch keinen triftigen Grund, ihre Legacy-Systeme zu ändern und nehmen die zahlreichen Mängel in Kauf, weil sie die Lösungen für „gut genug“ halten.

Legacy-Tools für die optische Zeichenerkennung sind ziemlich ressourcenintensiv. Unternehmen müssen kontinuierlich übermäßig viele personelle und technische Ressourcen investieren, nur um die Dokumentenverarbeitung praktikabel zu machen. Allerdings machen sie das schon so lange, dass sie sich an diesen Arbeitsaufwand und die Ineffizienz gewöhnt haben.

OCR-Geräte brauchen eine hohe Verarbeitungsgeschwindigkeit und viel virtuellen Speicherplatz. Dies führt in der Regel zu langsamen, schwerfälligen Systemen, die große Mengen an Dokumenten nicht effizient scannen können. Wenn eine Abteilung mehrere Schränke mit Dokumenten verarbeiten muss, werden in vielen Fällen alle OCR-Scanner für diese Aufgabe eingesetzt und andere Abteilungen können während dieser Zeit nicht auf die Geräte zugreifen.

Legacy-Tools für die optische Zeichenerkennung sind auch notorisch ungenau, wenn die Dokumentenbilder nicht absolut eindeutig sind. Wir alle haben schon diese frustrierende Erfahrung gemacht: Das Scannen von Dokumenten mit minderer Qualität führt in der Regel zu schlechten Ergebnissen. Allerdings ist es unrealistisch zu erwarten, dass ein Unternehmen nur qualitativ hochwertige dauerhafte Datenträger verarbeiten muss.

Unternehmen, die OCR einsetzen, müssen in Fachkräfte investieren, deren einzige Aufgabe darin besteht, die verarbeiteten Dokumente auf Fehler zu prüfen und diese zu korrigieren. Das heißt, die Dokumente werden zweimal verarbeitet: einmal von der Maschine und dann noch einmal, um sicherzustellen, dass die Maschine keinen Fehler gemacht hat.

Man sollte meinen, dass die Lösung dieser Probleme einfach ist. Allerdings ist eine Aktualisierung von Legacy-Tools für die optische Zeichenerkennung mühsam, weil sie oft mit zusätzlicher eDiscovery kombiniert ist. Somit müssen alle Verbesserungen an einem dieser Dienste auf alle Lösungen innerhalb dieses Pakets ausgeweitet werden. In der Praxis bedeutet ein fehlendes OCR-Tool aber, dass man mit dem unnötigen Ballast zurechtkommen muss und bei Bedarf keine Updates durchführen kann.

Ausfall der Engine bei der Auswertung komplexer Daten

Die Engines sind der Grund dafür, dass traditionelle Technologien der Optical Character Recognition bei komplexen Daten oft versagen.

Eine erste Fehlerstelle beim Einsatz von OCR-Engines bildet die Analyse komplexer Eingabeformen. Jede Abweichung von den vorab genehmigten Eingaben, wie z. B. über eine Zeile geschriebener Text, führt zu einem Fehler oder einer falschen Auswertung. Es braucht noch nicht mal eine Abweichung: Das passiert auch, wenn ein Textblock einfach zu lang ist. OCR-Tools übergehen einen Abschnitt oft fälschlicherweise, wenn sie das Muster nicht sofort erkennen.

Hinzu kommt der fehlende Engine-Support für unterschiedliche Dokumentenformate. Zur Veranschaulichung: Die meisten OCR-Scanner können gedruckten Text erkennen und ihn in entsprechende Binärdaten umwandeln. Mit handschriftlichen Dokumenten haben sie allerdings Probleme. Das ist sehr problematisch, weil die meisten offiziellen Geschäftsberichte die Unterschrift von Personen vorschreiben.

Ein weiteres Beispiel: Die moderne Finanzanalyse hängt stark von Diagrammen und Tabellen zur Datenorganisation ab. Leider können die meisten OCR-Lösungen diese Informationen nicht verarbeiten, denn eine typische Tabelle besteht aus vielen Linien für Spalten, Zellen und Zeilen. Verarbeitete Diagramme haben Fehler, die manuell korrigiert werden müssen.

OCR-Tools haben kein semantisches Bewusstsein und können fehlerhafte Werte wie Leerzeichen nicht verarbeiten. Sie sind nicht in der Lage, zwischen normalem Text und fehlerhaften Eingaben zu unterscheiden, sondern stellen alle Informationen mit derselben Genauigkeit dar. Druckfehler auf einem Dokument werden von der Engine gescannt und als echte Daten erfasst. Das bedeutet, dass ein Business Analyst sich nicht auf Lösungen für die optische Zeichenerkennung verlassen kann, um dokumentierte Informationen zu korrigieren.

Die traditionelle Art und Weise, verwirrende Daten mit OCR-Lösungen zu verarbeiten, produziert immer mehrfache Ausgaben. Auf diese Weise sollten Analysten in der Lage sein, unterschiedliche Versionen, die von einem Computer nach jedem Scan erstellt wurden, miteinander zu vergleichen. Doch das ist verschwendete Zeit, weil eine Analystin oder ein Analyst anschließend Stunden oder Tage damit verbringt, die Ergebnisse eines einzelnen Scans zu prüfen, nur um die ursprüngliche Aussage zu ermitteln.

Trotz all dieser bekannten Probleme halten die meisten Branchen und Unternehmen an OCR-Engines als Allheilmittel für die Datenerfassung fest. Das liegt nicht daran, dass es in den letzten Jahren einfacher geworden ist, Dokumente mit traditionellen OCR-Tools zu scannen. Man könnte sogar sagen, dass traditionelle OCR-Tools aufgrund der Komplexität und der Masse an Dokumenten, die moderne Unternehmen verarbeiten, heute sogar schlechter funktionieren. OCR erzeugt oft qualitativ minderwertige Ausgaben, wenn sie für die moderne Datenerfassung eingesetzt wird. Es liegt vielmehr am mangelnden Wissen. Die meisten Unternehmen sind sich einfach nicht bewusst, dass es inzwischen schnellere hybride Alternativen gibt.

Dokumentenverarbeitungssysteme sollten in der Lage sein, Daten mit unterschiedlicher Komplexität zu erfassen. Sie sollten auch Fehler erkennen können, um Zeit und Ressourcen in einem Unternehmen zu sparen. Die Stunden oder Tage, die mit der Korrektur von primären und sekundären Fehlern verschwendet werden, können besser für andere wichtige Aufgaben genutzt werden, die nicht automatisiert oder mit dem Computer verarbeitet werden können. Hierzu gehört beispielsweise die eigentliche Entscheidungsfindung.

Fehlende plattformübergreifende Kompatibilität

Auch wenn eine Engine, Material ohne größere Schwierigkeiten umwandeln kann, sind die verarbeiteten Daten nur so gut wie die Daten selbst. Die Unfähigkeit, den von Drittanbietersoftware erfassten Output zu verarbeiten oder Fristen einzuhalten, machen dem Prozess einen Strich durch die Rechnung. So wird die Datenextraktion zu einem ziemlich schwierigen und teuren Prozess.

Jetzt könnte man meinen, angesichts der doppelten Arbeit, die durch fehlerhafte traditionelle OCR-Tools verursacht wird, einfach bei einem vollständig manuellen Verfahren zu bleiben. Doch auch das ist nicht realistisch. Moderne Unternehmen haben jeden Tag mit Unmengen von Kundendaten zu tun. Der Großteil dieser Informationen muss manuell verarbeitet werden. Es werden nützliche Werte extrahiert, die anschließend in eine maschinenfreundliche Sprache für die weitere Analyse umgewandelt werden. Allein diese Vorgänge können Tage oder Wochen an manueller Arbeit in Anspruch nehmen.

Unternehmen würden unrealistisch viel Zeit aufwenden, um Dokumente vollständig manuell zu erfassen und zu verarbeiten. Hinzu kommen unvermeidliche menschliche Fehler und Ermüdung und beides macht diese Vorgehensweise riskant. Die manuelle Datenerfassung ist fehleranfällig. Schlechtes Qualitätsmanagement und Inkonsistenzen im Output sind die Folge. Investoren geben erhebliche Summen an Kapital aus, wenn kostspielige Fehler wie der Verlust von Kundendaten vorkommen. Die manuelle Verarbeitung zwingt Unternehmen zu hohen Investitionen in physische Datenspeicherlösungen, die anfällig für Beschädigungen sind. Die Geräte beanspruchen wertvollen Büroraum, der in Großstädten ein teures Gut ist.

Wenn das Team für die Datenanalyse mit dem Extrahieren und Bereinigen der Werte fertig ist, können die Informationen bereits veraltet sein: Der ganze Aufwand war umsonst. Denken Sie einmal an die verschiedenen Möglichkeiten, wie der Zeitaufwand für die manuelle Dateneingabe und Datenverarbeitung grundlegende Dienste unbrauchbar machen könnte. Ein Beispiel: Die Überprüfung der Identität für den Zugang zu einer privaten Einrichtung kann realistischerweise nicht manuell durchgeführt werden. Oder denken Sie an das Screening zur Bekämpfung von Geldwäsche, das schnell, effizient und genau sein muss, damit Investoren in Betracht ziehen, Ressourcen in Institutionen und Organisationen zu investieren. Moderne Finanzinstitute führen jede Minute unzählige Überprüfungen von Endnutzern durch. Es ist einfach nicht möglich, Daten aus all diesen Dokumenten manuell zu erfassen und zu verarbeiten.

Einige Unternehmen versuchen, diese Probleme zu umgehen, und entwickeln komplexe individuelle Lösungen für die Datenerfassung und Datenverarbeitung. Leider blähen solche Systeme in der Regel den Umfang eines Projekts auf und verursachen überhöhte Kosten. Die Lösung für die Verarbeitung, Analyse und Automatisierung von Dokumenten liegt woanders. Wir brauchen Lösungen, die eine manuelle Verarbeitung und Schwierigkeiten mit OCR-Tools.

DocDigitizer – die Hybridlösung

Glücklicherweise gibt es mittlerweile modernere Lösungen für die optische Zeichenerkennung, die genau diese Ineffizienzen bekämpfen. DocDigitizer ist ein hybrides Tool für die Dokumentenverarbeitung, das maschinelles Lernen und menschliche Nachkontrolle für No-Code-/RPA-Lösungen kombiniert. Die Frameworks von DocDigitizer kombinieren bewusst die Vorteile bisheriger Ansätze: Interoperabilität einer No-Code-Lösung, Skalierbarkeit von RPA, Geschwindigkeit von maschinellem Lernen und Genauigkeit der menschlichen Nachkontrolle.

Intelligente Datenerfassung bedeutet, dass Sie sich keine Gedanken mehr über die Umwandlung von Dokumenten geringer Qualität in digitale Seiten machen müssen. DocDigitizer setzt auf maschinelles „Deep Learning“, um beim Scannen von dauerhaften Datenträgern Informationskonzepte zu erstellen. Ähnlich wie ein Mensch Informationen verarbeitet und für die spätere Verwendung abspeichert, kann die Maschine mit „Deep Learning“ die Dokumente nicht nur verarbeiten, sondern auch Informationen speichern und aus neuen Mustern lernen. Mit der intelligenten Dokumentenverarbeitung kann Ihr Unternehmen mit strukturierten und unstrukturierten Daten effizient arbeiten und sich so einen Vorteil gegenüber Ihrer Konkurrenz verschaffen.

DocDigitizer erkennt auch unterschiedliche Dokumentenformate. Die Frage, ob Sie Dateien, die mit externen Diensten erstellt wurden, annehmen oder nicht, gehört somit der Vergangenheit an. Die KI-Module garantieren, dass der Dienst auch Formate verarbeiten kann, die ursprünglich nicht fest in der Plattform codiert waren.

Dieser strategische Ansatz kombiniert das Beste aus manuellen und technologischen Verfahren und reduziert gleichzeitig die Fallstricke aus beiden Welten. Mit schnellen Hybridlösungen wie DocDigitizer ist Ihr Unternehmen bei der Dokumentenverarbeitung branchenführend.

Get Started

Book a Demo

Watch a Demo

Name	Provider	Finality	Validity	Type
wordpress_{hash}	Wordpress	WordPress uses the login wordpress_{hash} cookie to store authentication details. Its use is limited to the Administration Screen area, /wp-admin/	session	Core
wordpress_logged_in_{hash}	Wordpress	Remember User session. WordPress sets the after login wordpress_logged_in_{hash} cookie, which indicates when you’re logged in, and who you are, for most interface use.	session	Core
wp-settings-{user_id}	Wordpress	Customization cookie. Used to persist a user’s wp-admin configuration. The ID is the user’s ID. This is used to customize the view of admin interface, and possibly also the main site interface.	1 year	Core
cookielawinfo-checkbox-functional	Cookie/GDPR	This cookie stores if a visitor has accepted "functional" cookies.	choose	Legal
cookielawinfo-checkbox-performance	Cookie/GDPR	This cookie stores if a visitor has accepted "performance" cookies.	choose	Legal
viewed_cookie_policy	Cookie/GDPR	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not the user has consented to the use of cookies. It does not store any personal data.	choose	Legal

Name	Provider	Finality	Validity	Type
wp-wpml_current_language	WPML	Stores the current language. This cookie is enabled by default on sites that use the Language filtering for AJAX operations feature.	session	Multilanguage
wp-wpml_current_admin_language_{hash}	WPML	Stores the current WordPress administration area language.	session	Multilanguage
icl_visitor_lang_js	WPML	Stores the redirected language. This cookie is enabled for all site visitors if you use the Browser language redirect feature.	session	Multilanguage

Name	Provider	Finality	Validity	Type
_gcl_au	Google	Provided by Google Tag Manager to experiment advertisement efficiency of websites using their services.	3 months	Analytics
_ga	Google	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomlygenerated number to recognize unique visitors.	2 years	Analytics
_gid	Google	installedby Google Analytics, _gid cookie stores information on how visitors usea website, while also creating an analytics report of the website'sperformance. Some of the data that are collected include the number ofvisitors, their source, and the pages they visit anonymously.	1 day	Analytics
_gat_UA-108095224-1	Google	A variation of the _gat cookie set by Google Analytics and Google Tag Manager to allow website owners to track visitor behaviour and measure site performance. The pattern element in the name contains the unique identity number of the account or website it relates to.	1 minute	Analytics
_hjTLDTest	Hotjar	To determine the most generic cookie path that has to be used instead of the page hostname, Hotjar sets the _hjTLDTest cookie to store different URL substring alternatives until it fails.	session	Analytics
_hjFirstSeen	Hotjar	Hotjar sets this cookie to identify a new user’s first session. It stores a true/false value, indicating whether it was the first time Hotjar saw this user.	30 minutes	Analytics
_hjAbsoluteSessionInProgress	Hotjar	Hotjar sets this cookie to detect the first pageview session of a user. This is a True/False flag set by the cookie.	30 minutes	Analytics

Name	Provider	Finality	Validity	Type
_fbp	Facebook	This cookie is set by Facebook to display advertisements when either on Facebook or on a digital platform powered by Facebook advertising, after visiting the website.	3 months	Advertisement
test_cookie	.doubleclick.net	The test_cookie is set by doubleclick.net and is used to determine if the user's browser supports cookies.	15 minutes	Advertisement
m	m.stripe.com	Accept payments and move money globally with Stripe’s powerful APIs and software solutions designed to help you capture more revenue.	2 years	Payment

PowerCapture

Document classifier

WorldObjects

By Industry

By Use Case

Services

Success Stories

Partner Program

Find a Partner

On-Demand Content

Events

Report

Videos

Documentation