Le sfide del riconoscimento ottico dei caratteri tradizionale

Explore in:

Con un numero sempre maggiore di organizzazioni che passano al lavoro da remoto, l’elaborazione dei documenti è diventata una delle funzioni chiave per la continuità delle operazioni. Senza un ufficio centrale fisico dal quale lavorare, avere cumuli di documenti stampati è più un impiccio che un’utilità, come pure la digitalizzazione di tutti questi dati. Essendo proiettati verso un’era in cui la digitalizzazione sarà permanente, spinti dalla pandemia COVID-19, è diventato fondamentale tradurre in codici tutte le risme di documenti stampati, sia manualmente che con strumenti più avanzati, come la tecnologia di riconoscimento ottico dei caratteri.

riconoscimento ottico

È un compito arduo, ma necessario. Non ci rendiamo conto di quanto anche le funzioni aziendali più elementari si siano basate finora su documenti fisici, fin quando senza questi documenti rischiamo di rimanere bloccati all’interno di ambienti di lavoro digitali. Promemoria di comunicazioni d’ufficio, documentazione per i clienti, acquisizioni, contabilità, tutto questo è sempre stato su carta, carta, carta (e, adesso è testo digitale, testo digitale, testo digitale).

Ed ecco che arriva la tecnologia di riconoscimento ottico dei caratteri, abbreviata OCR, che impiega strumenti chiamati lettori ottici di caratteri. Il riconoscimento ottico dei caratteri consiste nell’uso di macchine per convertire immagini di documenti in dati digitali. Invece di ricreare manualmente il documento in versione digitale, i lettori ottici di caratteri scansionano un documento e lo trasferiscono automaticamente nel suo nuovo formato. È un risparmio di tempo e un salvavita.

Mentre i pro della digitalizzazione sembrano evidenti, ovvero migliore collaborazione, uso e integrazione dell’automazione, risparmio di spazio e tempo, non mancano anche numerose difficoltà e ostacoli. Dopo tutto, chi eccelle nelle capacità di lettura, scrittura e pensiero sono gli esseri umani. I computer eccellono in analisi semplici che non richiedono un pensiero critico per decidere cosa includere o tralasciare, cosa è importante e cosa potrebbe essere un errore. Scoprite perché anche nella nostra fiorente era digitale gli analisti di dati devono ancora prendere per mano, per così dire, i computer guidandoli con comandi precisi e specifici.

L’elaborazione dei documenti, pur essendo un processo di routine, si basa sull’analisi umana che interagisce per garantire che i prodotti finali siano effettivamente corretti. È risaputo che i tradizionali lettori ottici di caratteri sono lenti e non sono indicati a elaborare dati complessi. Molti non si preoccupano di convertire i documenti in un formato che possa interagire con la loro nuova interfaccia, oppure, anche quando lo fanno, la mole di lavoro umano necessaria per ovviare a questo problema vanifica il tempo risparmiato prima. Per fortuna al momento sono disponibili soluzioni più recenti costruite specificamente per superare i problemi dell’OCR tradizionale.

Problemi con gli strumenti tradizionali di riconoscimento ottico dei caratteri

L’introduzione del primo lettore ottico di caratteri, l’optofono di Edmund Fournier d’Albe nel 1917 e le successive innovazioni, furono una importante pietra miliare per i primi passaggi a soluzioni tecnologiche per la documentazione. Naturalmente, queste soluzioni erano e rimangono piuttosto basilari rispetto agli standard di riconoscimento ottico dei caratteri richiesti dal XXI secolo.

Gli innovatori concepirono i primi OCR per aiutare i non vedenti a smistare documenti semplici, come il processo di smistamento della posta del servizio postale statunitense. I loro sensori di riconoscimento ottico erano in grado di elaborare le lettere dell’alfabeto latino e i numeri romani di base.

Purtroppo, nonostante questi primi progressi, gli strumenti di riconoscimento ottico dei caratteri hanno di recente acquisito la reputazione di essere estremamente lenti e stagnanti. Negli ultimi dieci anni, la tecnologia OCR si è evoluta a malapena, rendendo i dispositivi basati su queste funzionalità estremamente lenti. Pensate, per esempio, ai semplici scanner piatti ancora presenti oggi ovunque negli uffici e mai aggiornati veramente come strumenti.

La ragione di questa stagnazione è la mancanza di una forza trainante che possa diffondere questa tecnologia di elaborazione dei documenti. Le organizzazioni che si affidano all’OCR non hanno trovato un buon motivo per cambiare i sistemi legacy, sopportandone i numerosi difetti solo perché li trovano “sufficientemente validi”.

Gli strumenti legacy di riconoscimento ottico dei caratteri sono abbastanza dispendiosi in termini di risorse. Le aziende devono investire una quantità eccessiva di risorse umane e tecniche solo per rendere fattibile l’elaborazione dei documenti, ma lo hanno fatto per così tanto tempo che ormai si sono abituate a questo dispendio di risorse e all’inefficienza.

I dispositivi OCR richiedono una considerevole velocità di elaborazione e di memorizzazione virtuale, ogni giorno. Questo di solito si traduce in sistemi lenti e pesanti, incapaci di scansionare grandi volumi di documenti in modo efficiente. In molte situazioni, quando un reparto ha bisogno di elaborare diversi archivi di documenti, tutti i lettori ottici di caratteri sono dedicati a questo compito, quindi nessun altro ufficio può accedervi allo stesso tempo.

I vecchi strumenti di riconoscimento ottico dei caratteri sono noti per essere imprecisi quando le immagini dei documenti non sono perfettamente chiare. La scansione di documenti di bassa qualità di solito produce scarsi risultati, con conseguente senso di frustrazione che tutti abbiamo sperimentato, ma non è realistico aspettarsi che un’azienda si trovi a elaborare esclusivamente documenti di alta qualità.

Le aziende che usano l’OCR finiscono per investire in team di esperti il cui unico compito è quello di controllare i documenti elaborati per trovare imprecisioni e correggerle. Questo significa che i documenti vengono trattati due volte, la prima dalla macchina e poi nuovamente dall’uomo, per assicurarsi che la macchina non abbia sbagliato.

Questi problemi potrebbero sembrare facili da superare. Invece, aggiornare gli strumenti legacy per il riconoscimento ottico dei caratteri è anche impegnativo, poiché sono spesso associati a ulteriori suite di e-discovery. Pertanto, a rigor di logica, qualsiasi miglioramento apportato a uno dei servizi dovrebbe essere esteso a tutte le soluzioni presenti nello stesso pacchetto. Di fatto, la mancanza di uno strumento OCR dedicato significa che occorre fare i conti con un sovraccarico di lavoro inutile, mentre non si è in grado di fare aggiornamenti quando necessario.

Fallimento del motore nell’interpretazione di dati complessi

riconoscimento ottico

La ragione per cui le tecnologie tradizionali di riconoscimento ottico dei caratteri spesso falliscono quando devono interpretare dati complessi ha a che fare con i loro motori.

Un primo punto di vulnerabilità nell’uso dei motori OCR è quando gli strumenti devono analizzare forme complesse di input. Qualsiasi deviazione dagli input pre-approvati – per esempio, testo scritto sopra una linea – risulterà in un rifiuto o in una traduzione errata. E non si tratta solo di deviazioni: succede anche se un blocco di testo è semplicemente più lungo del normale. Gli strumenti di riconoscimento ottico dei caratteri spesso saltano erroneamente la sezione se non riconoscono immediatamente il pattern.

Inoltre, il motore non riesce a supportare formati diversi di documenti. Per esempio, la maggior parte dei lettori ottici di caratteri sono in grado di riconoscere il testo stampato e convertirlo nei dati binari appropriati. Tuttavia, hanno difficoltà con i documenti scritti a mano, un grosso problema quando la maggior parte dei report aziendali ufficiali richiedono la firma di persone per essere validi.

Un altro esempio sono le analisi finanziarie moderne, che dipendono molto dall’organizzazione dei dati in grafici e tabelle. Sfortunatamente, la maggior parte delle soluzioni OCR non è in grado di elaborare tali informazioni, poiché le tabelle sono piene di linee che delimitano colonne, celle e righe e i grafici che ne risultano appaiono pieni di errori da correggere manualmente.

Gli OCR mancano di consapevolezza semantica e non riescono a elaborare valori superflui, come gli spazi vuoti. Non sono in grado di distinguere tra testo normale e input errati, e presentano invece tutte le informazioni con la stessa precisione. Un errore di stampa su un documento finisce per essere scansionato e catturato dal motore come un dato valido. Questo significa che un analista aziendale non può fare affidamento su soluzioni di riconoscimento ottico dei caratteri per correggere le informazioni documentate.

Il metodo tradizionalmente seguito per gestire i dati confusi tratti da soluzioni OCR è sempre stato quello di produrre output multipli, con lo scopo di permettere agli analisti di confrontare le diverse versioni generate da un computer alla fine di ogni scansione. Si tratta di uno spreco, poiché un analista umano passa ore o giorni a rivedere i risultati di una singola scansione per stabilirne il proposito originale.

Eppure, nonostante tutti i problemi noti, la maggior parte delle aziende, in tutti i settori, continua a considerare il motore OCR come la soluzione universale per l’acquisizione dei dati. Non certo per il fatto che l’uso di strumenti legacy di riconoscimento ottico dei caratteri per scansionare i documenti sia stato semplificato negli ultimi anni. Si potrebbe addirittura aggiungere che l’OCR tradizionale funzioni peggio adesso, per via della complessità e della mole di documenti che le aziende moderne elaborano. L’OCR spesso produce un output di bassa qualità quando viene utilizzato per le moderne esigenze di acquisizione dei dati. Piuttosto sembra che siamo di fronte a una lacuna di conoscenze. La maggior parte delle aziende non sa neppure che esistono alternative ibride molto più agili.

I sistemi di elaborazione dei documenti devono essere in grado di acquisire dati di diversa complessità. Dovrebbero inoltre essere in grado di rilevare gli errori per risparmiare il tempo e le risorse di un’organizzazione. Le ore o i giorni sprecati per correggere gli errori primari e secondari potrebbero essere investiti meglio nel gestire altri compiti importanti, che non possono essere automatizzati o computerizzati, come i processi decisionali.

Mancanza di compatibilità multipiattaforma

Anche se un processore riesce a tradurre il materiale senza inconvenienti di sorta, i dati elaborati sono validi solo quanto i dati stessi. L’incapacità di elaborare l’output acquisito dal software di terze parti, per esempio, o l’incapacità di essere sensibili al tempo, finiscono per essere bastoni tra le ruote del processo. Questo fa sì che l’estrazione dei dati diventi un processo abbastanza impegnativo e costoso.

Data la duplicazione del lavoro dovuta alla fallacia degli strumenti tradizionali di riconoscimento ottico dei caratteri, si potrebbe pensare di attenersi a un processo interamente manuale, ma anche questa soluzione non è fattibile. Le aziende moderne hanno a che fare ogni giorno con enormi quantità di dati dei clienti. La maggior parte di queste informazioni deve essere elaborata manualmente estraendo i dati utili che, successivamente, verranno convertiti in un linguaggio compatibile con le macchine per ulteriori analisi. Queste operazioni possono di per sé richiedere giorni o settimane di lavoro manuale.

Le aziende spenderebbero una quantità assurda di tempo per acquisire ed elaborare i documenti in maniera completamente manuale – l’inevitabilità degli errori o della stanchezza umana la renderebbero una soluzione rischiosa. I metodi di acquisizione dati manuale sono anche soggetti a errori che possono portare a una gestione di scarsa qualità e a incoerenze nei risultati. Gli investitori spendono quantità significative di capitale ogni volta che si verificano errori costosi, come la perdita dei registri dei clienti. L’elaborazione manuale costringe le aziende a investire pesantemente in soluzioni di archiviazione fisica dei dati, inclini all’errore. Questi dispositivi occupano spazio prezioso negli uffici, costosissimi soprattutto nelle aree metropolitane.

Quando poi il team di analisi dei dati ha finito di estrarre e correggere i dati, le informazioni potrebbero essere obsolete, rendendo l’intero sforzo inutile. Basti pensare ai diversi modi in cui il tempo speso per l’inserimento e l’elaborazione manuale dei dati potrebbe rendere inutili i servizi di base. Per esempio, la verifica dell’identità per accedere a una struttura privata non può, realisticamente, essere effettuata a mano. Oppure, lo screening antiriciclaggio, che deve essere rapido, efficiente e accurato affinché gli investitori valutino se investire risorse in istituzioni e organizzazioni. Le moderne istituzioni finanziarie eseguono migliaia o milioni di verifiche degli utenti finali ogni minuto: semplicemente non è possibile acquisire i dati di tutti questi documenti ed elaborarli manualmente.

Alcune organizzazioni cercano di aggirare questi problemi costruendo complesse soluzioni personalizzate per l’acquisizione e l’elaborazione dei dati, che però rischiano di aumentare la portata di un progetto, comportando costi eccessivi. La soluzione per l’elaborazione, l’analisi e l’automazione dei documenti si trova altrove. Sono necessarie soluzioni che riducano al minimo sia l’elaborazione manuale che le complicazioni legate all’OCR.

Scoprite DocDigitizer — La soluzione ibrida

Oggi per fortuna esistono soluzioni più moderne per il riconoscimento ottico dei caratteri, proprio per superare queste inefficienze. DocDigitizer è uno strumento ibrido di elaborazione dei documenti che fonde il machine learning con le pratiche umane per ottenere soluzioni senza codice/RPA. I framework composti di DocDigitizer coniugano intenzionalmente i vantaggi degli approcci precedenti: l’interoperabilità di una soluzione no-code, la scalabilità della RPA, la velocità del machine learning e la precisione dell’intervento umano.

L’acquisizione intelligente dei dati significa che non dovrete più preoccuparvi di convertire documenti di bassa qualità in documenti digitali. DocDigitizer si affida al “deep learning” della macchina per stabilire i concetti di informazione durante la scansione di supporti permanenti. In un modo simile a quello in base al quale gli umani elaborano e conservano le informazioni per un uso futuro, il “deep learning” permette alla macchina non solo di elaborare i documenti, ma di conservare le informazioni e imparare attraverso nuovi modelli. L’elaborazione intelligente dei documenti permette alla vostra azienda di lavorare con dati strutturati e non strutturati in modo efficiente, offrendovi così un vantaggio sui vostri concorrenti.

DocDigitizer riconosce anche una varietà di formati di documenti, quindi non dovrete mai preoccuparvi di accettare file preparati con servizi di terze parti. I moduli di IA assicurano che il servizio possa ricevere formati non originariamente codificati sulla piattaforma.

Il loro sforzo strategico offre il meglio di entrambe le pratiche manuali e tecnologiche, mitigando le insidie di ciascuna di esse. Soluzioni ibride agili come DocDigitizer permettono alla vostra azienda di essere leader nel settore dell’elaborazione dei documenti.