Los retos que plantea el reconocimiento óptico de caracteres tradicional
A medida que las organizaciones adoptan cada vez más el trabajo remoto, el procesamiento de documentos se ha convertido en una de las funciones clave de las operaciones empresariales regulares. Está claro que, sin una oficina central física en la que trabajar, los documentos impresos tangibles suponen más bien un inconveniente que una ventaja, al igual que el proceso de digitalización de toda esa información. A medida que avanzamos hacia una era digital más permanente, con el empujón poco sutil que le ha dado la pandemia de COVID-19, convertir todos esos montones de papel a código se ha convertido en algo esencial, tanto si se hace a mano como por medios más avanzados, como, por ejemplo, mediante la tecnología de reconocimiento óptico de caracteres.
Es una tarea ardua, pero hay que hacerla. Uno no se da cuenta de cuánto dependen de los documentos físicos todas las funciones de la empresa, incluso las más básicas, hasta que todo se atasca cuando no se pueden usar en un entorno de trabajo digital. Notas de comunicación de la oficina, documentación del cliente, adquisiciones o la contabilidad: todas estas funciones dependen de papel, papel y más papel (o, en la actualidad, texto digital, texto digital y más texto digital).
Para solucionarlo, llega la tecnología de reconocimiento óptico de caracteres. A veces se la conoce también como lectores ópticos de caracteres o, en ambos casos, se abrevia como OCR: consiste en utilizar máquinas para convertir imágenes de documentos en datos digitales. En lugar de tener que volver a crear a mano el documento en formato digital, los lectores de caracteres ópticos escanean un documento y lo traducen automáticamente al nuevo soporte. No solo ahorra tiempo: puede salvarle la vida.
Si bien las razones a favor de la digitalización resultan obvias (mejor colaboración, automatización integrada, ahorro de espacio y tiempo), no cabe duda de que también abundan las dificultades e inconvenientes. Después de todo, son los seres humanos los que poseen una excelente capacidad de lectura, escritura y pensamiento. Los ordenadores son fantásticas herramientas a la hora de realizar análisis simples que no requieren reflexionar sobre qué partes incluir o excluir, qué es esencial y qué podría ser un error. Averigüe por qué, incluso en la floreciente era digital que estamos viviendo, los analistas de datos siguen teniendo que llevar de la manita, en sentido figurado, a los ordenadores, guiándolos mediante comandos exactos y específicos.
El procesamiento de documentos, aunque es una tarea rutinaria, depende de la interacción con el análisis humano para garantizar que los productos finales son correctos. Los lectores tradicionales de caracteres ópticos se conocen por su lentitud y no suelen ofrecer grandes resultados con datos complejos. Hay mucha gente que no se molesta en convertir documentos a una versión interactiva con la nueva interfaz. E, incluso cuando lo hacen, la cantidad de mano de obra humana necesaria para resolver estos problemas consume todo el tiempo que se pretendía ahorrar. Afortunadamente, en la actualidad se han diseñado soluciones más recientes que se ocupan específicamente de resolver estos problemas que presenta el OCR tradicional.
Problemas con las herramientas tradicionales de reconocimiento óptico de caracteres
La introducción del primer lector óptico de caracteres (el optófono de Edmund Fournier d’Albe, en 1917) y las innovaciones posteriores supusieron un antes y un después en las primeras transiciones hacia soluciones tecnológicas aplicadas a la documentación. Por supuesto, estas soluciones eran y siguen siendo bastante básicas en comparación con los estándares de reconocimiento óptico de caracteres que se exigen en el siglo XXI.
Los innovadores idearon los primeros sistemas OCR para ayudar a los invidentes y ordenar documentos simples, como, por ejemplo, en el proceso de clasificación de correo del servicio postal de los Estados Unidos. Los sensores ópticos de reconocimiento que usaban podían procesar las letras del alfabeto latino, así como los números romanos más elementales.
Por desgracia, a pesar de estos primeros avances, las herramientas de reconocimiento óptico de caracteres han adquirido recientemente la reputación de ser terriblemente lentas y capaces de ralentizar todo. La tecnología OCR apenas ha evolucionado en la última década, lo que hace que los dispositivos que la utilizan como base funcionen muy lentamente. Piense, por ejemplo, en los escáneres planos corrientes que sigue habiendo por todas partes en las oficinas: estas herramientas no han evolucionado de verdad nunca.
La razón de este estancamiento es la falta de un catalizador que anime a adoptar esta tecnología para el procesamiento de documentos. Las organizaciones que dependen del OCR no han encontrado ninguna razón válida para cambiar los sistemas antiguos, y soportan todas las carencias que plantean aduciendo que funcionan «suficientemente bien».
Las herramientas antiguas de reconocimiento óptico de caracteres hacen un uso intensivo de los recursos. Las organizaciones deben emplear una enorme cantidad de recursos humanos y técnicos solo para poder empezar a usar de forma viable el procesamiento de documentos, pero llevan tanto tiempo haciéndolo que se han acostumbrado a la ineficiencia y a los procesos inacabables.
Los dispositivos OCR exigen una gran velocidad de procesamiento y almacenamiento virtual a diario, lo que suele traducirse en sistemas lentos y pesados, incapaces de escanear grandes volúmenes de documentos de forma eficiente. En muchas situaciones, cuando un departamento necesita procesar varios archivadores de documentos, todos los lectores de caracteres ópticos están dedicados a esta tarea, con lo que ningún otro departamento puede acceder a ellos durante este período.
Las herramientas antiguas de reconocimiento óptico de caracteres también tienen fama de ser inexactas cuando las imágenes de los documentos no tienen una calidad impecable. El escaneo de documentos de baja calidad suele producir resultados mediocres, y todos hemos experimentado esta frustración. Sin embargo, no se puede esperar de forma realista que una organización tenga que procesar únicamente medios físicos de alta calidad.
Las organizaciones que utilizan OCR acaban invirtiendo en equipos de expertos cuya única tarea consiste en comprobar si los documentos procesados presentan imprecisiones y corregirlas. Llegados a este punto, los documentos se están procesando dos veces: la primera lo hace la máquina, mientras que la segunda sirve para asegurarse de que la máquina no se haya equivocado.
Uno podría pensar que adaptarse para resolver estos problemas debería ser una tarea fácil. Sin embargo, actualizar las antiguas herramientas de reconocimiento óptico de caracteres también supone un problema, ya que a menudo funcionan con paquetes adicionales de programas de descubrimiento electrónico o e-discovery. De este modo, cualquier mejora que se aplique a uno de los servicios debe llevarse también a todas las soluciones incluidas en ese paquete. Aun así, en la práctica, la falta de una herramienta OCR exclusiva implica que uno debe lidiar con todo el software adicional innecesario, mientras que no puede actualizar el sistema cuando hace falta.
Fallos del motor al interpretar datos complejos
La razón por la que las tecnologías tradicionales de reconocimiento óptico de caracteres suelen fallar cuando tienen que trabajar con datos complejos está relacionada con los motores que usan.
El primer aspecto en donde se producen errores al utilizar motores de OCR es cuando las herramientas deben analizar formas complejas de datos entrantes. Cualquier cosa que se salga de los formatos predefinidos (por ejemplo, un texto que se sale de la línea) dará como resultado el rechazo de esos datos o una mala traducción. Y, más allá incluso de estas desviaciones, esto también ocurre cuando un bloque de texto es demasiado largo. Las herramientas de reconocimiento óptico de caracteres suelen omitir erróneamente una sección si no reconocen el patrón de inmediato.
Luego está la falta de compatibilidad del motor con diferentes formatos de documento. Para explicarlo mejor, la mayoría de los lectores de caracteres ópticos son capaces de reconocer el texto impreso y convertirlo en los datos binarios adecuados. Sin embargo, pasan apuros con los documentos escritos a mano, lo que presenta un gran problema cuando la mayoría de los informes comerciales oficiales requieren firmas humanas para su aprobación.
Otro ejemplo es el análisis financiero moderno, que depende en gran medida de gráficos y tablas para organizar los datos. Desafortunadamente, la mayoría de las soluciones OCR no son capaces de procesar dicha información, ya que la típica tabla está llena de líneas que marcan columnas, celdas y filas. Los gráficos procesados terminan plagados de errores que se deben corregir a mano.
Los OCR no poseen nociones de semántica y no pueden procesar valores basura, como los espacios en blanco. No pueden diferenciar entre un texto normal y entradas erróneas, sino que presentan toda la información con la misma precisión. Una errata en un documento termina siendo escaneada y capturada por el motor como si fuesen datos válidos y, de este modo, un analista empresarial no puede confiar en soluciones de reconocimiento óptico de caracteres para corregir la información documentada.
La forma convencional de gestionar datos confusos a través de soluciones OCR siempre ha consistido en generar varios archivos por cada documento. El objetivo era permitir a los analistas comparar las diferentes versiones que generaba el ordenador después de completar cada escaneo. Sin embargo, con este sistema se desperdician recursos, ya que un analista humano pasa horas o días revisando los resultados de un único escaneo para definir cuál era la intención original.
Y, sin embargo, a pesar de todos los problemas conocidos, la mayoría de los sectores y organizaciones siguen considerando el motor de OCR como la solución definitiva para la captura de datos, y no es porque en los últimos años la tarea de escanear documentos con las herramientas antiguas de reconocimiento óptico de caracteres se haya vuelto más fácil. Se podría incluso argumentar que el OCR tradicional funciona peor en la actualidad, debido a la complejidad y a la enorme cantidad de documentos que procesan las empresas modernas. El OCR suele producir resultados de baja calidad cuando se utiliza para atender las necesidades modernas de captura de datos. En realidad, es más probable que el problema sea un desconocimiento de estas soluciones. La mayoría de las empresas no son conscientes de que, hoy en día, existen alternativas híbridas más eficientes.
Los procesadores de documentos deben ser capaces de capturar datos que presentan distintos tipos de complicaciones. Asimismo, deben ser capaces de detectar errores para ahorrar tiempo y recursos a las organizaciones. Esas horas o días que se desperdician corrigiendo errores primarios y secundarios se pueden emplear mejor en ocuparse de otras tareas esenciales que no se pueden automatizar o informatizar, como la propia toma de decisiones.
Falta de compatibilidad entre plataformas
Incluso si un procesador logra traducir material sin grandes problemas, la calidad de los datos procesados depende, a fin de cuentas, de la calidad de los datos originales. Cuando no somos capaces de, por ejemplo, procesar el material producido mediante software de terceros o de atenernos a plazos, se crean obstáculos que paralizan el proceso, lo que hace que la extracción de datos se convierta en un proceso bastante costoso y complicado.
Uno podría pensar que, dado que las herramientas tradicionales de reconocimiento óptico de caracteres, con todos sus defectos, redoblan la cantidad de trabajo, ¿por qué no limitarse a un proceso completamente manual? Bueno, eso tampoco resulta factible. Las organizaciones modernas manejan enormes cantidades de datos de los clientes a diario. La mayor parte de esta información se debe procesar manualmente, extrayendo los valores útiles que, posteriormente, se convierten a un lenguaje que pueden utilizar los ordenadores para analizarlo. Estas operaciones, por sí solas, pueden llevar días o semanas de trabajo manual.
Las empresas dedicarían una cantidad de tiempo exagerada a capturar y procesar documentos de forma completamente manual: una práctica arriesgada, dado que es imposible evitar errores humanos o el cansancio. Los métodos manuales de captura de datos también son propensos a errores, lo que puede dar lugar a una gestión deficiente de la calidad y a incoherencias en el material resultante. Los inversores gastan cantidades importantes siempre que se produzcan errores graves, como pérdidas de registros de los clientes. El procesamiento manual obliga a las organizaciones a invertir grandes cantidades en soluciones de almacenamiento de datos físicos que tienden a corromperse. Estos dispositivos consumen un espacio de oficina muy valioso que, en las grandes ciudades, representa un bien muy caro.
Y, cuando el equipo de análisis de datos ha terminado de extraer y limpiar los valores, la información podría haber quedado ya obsoleta, lo que haría que todo ese esfuerzo no sirva para nada. Considere las diferentes formas en que el tiempo que se dedica a la entrada y al procesamiento manual de datos podría hacer que algunos servicios básicos resulten inútiles. Por ejemplo, la comprobación de la identidad para acceder a unas instalaciones privadas es algo que, objetivamente, no se puede llevar a cabo de forma manual. Piense también en la detección de prácticas de blanqueo de dinero, un trabajo que debe llevarse a cabo de forma rápida, eficiente y precisa para que los inversores consideren la posibilidad de inyectar recursos a las instituciones y organizaciones. Las instituciones financieras modernas llevan a cabo miles o millones de verificaciones de usuarios finales cada minuto, por lo que, sencillamente, no es posible capturar datos de todos esos documentos y procesarlos a mano.
Algunas organizaciones intentan evitar estos problemas diseñando complejas soluciones personalizadas para la captura y el procesamiento de datos. Por desgracia, estos sistemas suelen exagerar el alcance inicial de los proyectos y conllevan unos costes excesivos. La solución para gestionar el procesamiento, análisis y automatización de documentos no pasa por ahí. Se necesitan soluciones que reduzcan al mínimo las complicaciones que conllevan el procesamiento manual y el OCR.
Descubra DocDigitizer: la solución híbrida
Afortunadamente, hoy existen soluciones de reconocimiento óptico de caracteres más modernas, que se encargan específicamente de resolver estas ineficiencias. DocDigitizer es una herramienta híbrida para el procesamiento de documentos que combina aprendizaje automático y la intervención humana para soluciones sin código/RPA. Los marcos de trabajo compuestos de DocDigitizer combinan de forma estudiada los beneficios de los métodos anteriores: la interoperabilidad de las soluciones sin código, la escalabilidad de la RPA, la velocidad del aprendizaje automático y la precisión que aporta el toque humano.
Gracias a la captura de datos inteligente, ya no tendrá que preocuparse por convertir documentos de baja calidad en archivos digitales. DocDigitizer se basa en el «aprendizaje profundo» informático para definir conceptos de información al escanear soportes físicos. De forma similar a la que usan las personas a la hora de procesar y conservar información para usarla más adelante, el aprendizaje profundo permite a la máquina no solo procesar documentos, sino conservar información y aprender de nuevos patrones. El procesamiento inteligente de documentos hace que su organización pueda trabajar con datos estructurados y no estructurados de forma eficiente, lo que le concede una ventaja sobre los competidores.
Asimismo, DocDigitizer reconoce distintos formatos de documento, por lo que nunca tendrá que preocuparse de aceptar archivos que han sido preparados mediante servicios de terceros. Los módulos de IA garantizan que el servicio pueda trabajar con formatos que, en origen, no estaban codificados en la plataforma.
El enfoque estratégico con el que trabajan ofrece lo mejor de las prácticas manuales y tecnológicas, al tiempo que reduce los errores que plantea cada uno de estos tipos. Las soluciones híbridas ágiles como DocDigitizer permitirán a su empresa liderar el sector del procesamiento de documentos.