L’evoluzione dell’OCR: Donut
Il nuovo modello di AI estrae il testo dalle immagini, ma con un’importante novità
di Simone Eandi, AI Engineer di Intesa, a Kyndryl Company
Recentemente si è diffuso un nuovo modello di VDU abbinato all’AI in grado di estrarre direttamente il testo e le informazioni di interesse da un’immagine senza dover passare attraverso l’OCR. Ce ne parla in questo articolo Simone Eandi.
In questo articolo scoprirai:
I recenti sviluppi in ambito machine learning aprono le porte a numerose potenzialità di automazione per l’analisi di documenti, anche quelli che non sono disponibili in formato digitale. Non stiamo parlando del “classico” OCR, ma di un nuovo modello di AI che consente di estrarre il testo dalle immagini in modo strutturato.
Cosa significa? Facciamo un esempio. Pensiamo di voler sviluppare un’applicazione per avvisare i consumatori con intolleranze in quali ristoranti possono trovare pietanze adatte alle loro esigenze. Se avessimo da ogni ristorante una tabella con l’elenco degli ingredienti per ogni piatto sarebbe relativamente facile automatizzare il processo. Tuttavia raramente i ristoranti sono in possesso di queste informazioni predisposte in modo ordinato all’interno di una tabella. È molto più realistico, invece, trovare delle foto dei menù su Google o sulle varie app di review. Se però per un umano può essere semplice capire quali ingredienti vengono usati dalla foto di un menù, per un computer non lo è: quello che “vede” il computer è solo un insieme di pixel. Certo, in qualche modo l’informazione sugli ingredienti è presente in mezzo a quei pixel, ma non è in un formato strutturato e facilmente comprensibile da un algoritmo. Qui è dove entra in gioco la Visual Document Understanding: il processo di estrazione di informazioni da media poco strutturati, come le immagini.
OCR, uno strumento potente ma con degli svantaggi
Il principale contesto di applicazione della VDU è quello oggi più utilizzato, ovvero l’estrazione del testo da un’immagine, ovvero l’Optical Character Recognition, più conosciuto come OCR. Gli ultimi anni infatti sono stati dominati da potenti motori OCR, sviluppati da big tech companies, che sfruttano una combinazione di AI e Computer Vision per estrarre tutto il testo contenuto all’interno di un immagine. Nonostante questi motori siano altamente performanti, hanno alcuni svantaggi: prima di tutto sono troppo complessi per essere sviluppati in casa ed è quindi necessario affidarsi a servizi terzi, spesso costosi; in secondo luogo i risultati prodotti dai motori OCR richiedono spesso lo sviluppo di un secondo algoritmo o di un servizio terzo che “ripulisca” i risultati ed estragga le informazioni utili al contesto di utilizzo.
Non tutti gli OCR riescono col buco: Donut sì
Recentemente si è diffuso un nuovo modello di VDU abbinato all’AI, chiamato Donut (tradotto: ciambella 🍩). Sfruttando le recenti innovazioni nel campo di generazione e analisi del testo tramite AI, Donut è il primo modello in grado di estrarre direttamente il testo e le informazioni di interesse da un’immagine senza dover passare attraverso l’OCR. Il principale vantaggio di Donut è che, a differenza dei motori OCR, può essere facilmente modificato per adattarsi al contesto di utilizzo,con un notevole risparmio di risorse: invece di pagare per generare un risultato che va comunque ripulito da un altro algoritmo o da un servizio terzo, Donut permette di avere un singolo strumento proprietario che produce direttamente i risultati richiesti. In virtù della sua adattabilità, inoltre, è possibile ottenere risultati più accurati: se i motori OCR funzionano bene in molti ambiti diversi, Donut eccelle nello specifico contesto di applicazione.
Conclusioni
Ritornando all’esempio fatto in precedenza, utilizzando Donut possiamo sviluppare un modello in grado di estrarre gli ingredienti dalla foto di un menù in maniera altamente strutturata, per esempio restituendo la lista di pietanze del ristorante e per ognuna di esse la lista dei relativi ingredienti. Al contrario, affidandoci ad un OCR, otterremmo un blocco di testo con il contenuto del menu senza alcuna struttura, rendendo difficile capire se una determinata parola è un piatto, un ingrediente o altro. Donut, invece, permette con un unico modello di estrarre da un’immagine sia il testo che la sua struttura, rendendo la sua applicazione in ambito digitalizzazione una piccola rivoluzione.
Donut e Intesa
Al momento è in corso lo studio di un’evoluzione del servizio di lettura dei documenti di identità all’interno della soluzione di riconoscimento tramite AI, che punta a utilizzare Donut per semplificare il servizio e migliorarne la precisione. Inoltre, Donut ha diversi campi di applicazione vicini al business di Intesa, come ad esempio l’estrazione di dati chiave da documenti pdf come fatture e bolle, la digitalizzazione di scontrini o l’interpretazione di grafici e tabelle.