Non è “solo” OCR
Solo all’apparenza una tecnologia datata e banale, ma abbinata all’AI diventa un potente supporto ai processi aziendali
di Simone Eandi, AI Engineer di Intesa, a Kyndryl Company
La gestione dei documenti aziendali può risultare complessa per via dei vari formati e layout. Classificazione ed estrazione delle informazioni sono essenziali per un processo efficiente. L’AI migliora precisione ed efficienza nella gestione documentale. Ce ne parla in questo articolo Simone Eandi.
In questo articolo scoprirai:
Per un’azienda la gestione del flusso di documenti può essere un processo piuttosto complicato, a causa della varietà di formati (immagini, pdf, etc.) e layout. Per affrontare questa sfida è utile disporre di un processo che preveda innanzitutto una classificazione dei documenti, per “riconoscere” il tipo di documento e gestirlo adeguatamente, e successivamente un’estrazione delle informazioni più rilevanti.
In questo articolo vediamo come l’AI ci può aiutare proprio su quest’ultimo aspetto, per rendere il processo di estrazione di dati dai documenti più efficiente e preciso.
L’OCR è solo l’inizio
Nonostante la tendenza sia sempre di più quella di avere documenti paperless già pronti per essere processati da una macchina, un grossa fetta dei volumi documentali sono ancora oggi di origine cartacea. In questi casi ci si affida solitamente ad un software di Optical Character Recognition (OCR) per digitalizzare il documento, “estrarre” il testo e renderlo comprensibile da una macchina. Sebbene l’OCR sia una tecnologia ormai ampiamente consolidata e facilmente disponibile a chiunque possieda uno smartphone, nei processi aziendali l’OCR può essere considerato solo il primo passo verso l’estrazione di informazioni da un documento.
Il vero aspetto chiave, infatti, è riuscire ad analizzare il testo estratto dal documento per individuare che tipo di dati sono contenuti in esso, quali sono i più rilevanti e cosa rappresentano.
Comprendere un documento
Dato un documento in formato digitale, sia esso nato in questo formato o sottoposto a un processo di estrazione con OCR, esistono diverse metodologie per rendere il contenuto interpretabile da una macchina e individuare le informazioni chiave, ognuno con i suoi pregi e difetti.
- Euristica: Quando un documento ha una struttura fissa e ben definita, è possibile estrarre informazioni specifiche utilizzando regole ad-hoc. Ad esempio, se il numero del documento compare sempre nella stessa posizione, possiamo definire una regola per cui il testo prelevato da quell’area specifica sappiamo conterrà quell’informazione . Questa tecnica è semplice e leggera, ma poco flessibile, poiché funziona solo con documenti già strutturati.
- Features visive: Le reti neurali possono analizzare i pixel di un’immagine o di un pdf per generare feature basate sull’aspetto del documento, guidando l’estrazione delle informazioni desiderate. Ad esempio, se il numero del documento cambia posizione tra un documento e l’altro, la rete neurale può identificare di volta in volta l’area corretta in cui cercarlo. Un limite importante di questa tecnica è che fatica a interpretare il contenuto testuale, trascurando spesso informazioni importanti.
- Analisi del testo: I Language Models sono diventati estremamente abili nella comprensione del testo. Possiamo quindi addestrarne uno per analizzare automaticamente il testo di un documento, individuando i dati potenzialmente interessanti e determinando cosa rappresentano. Al contrario del caso precedente, questa tecnica si concentra esclusivamente sul contenuto testuale, ignorando completamente la struttura visiva del documento.
- Multimodale: Negli ultimi anni, è stato fatto un grande passo avanti con lo sviluppo di modelli multi-modali, ovvero in grado di interpretare contemporaneamente sia le informazioni testuali che quelle visive di un documento, un compito notoriamente difficile per via della loro diversa natura. Combinando al meglio l’aspetto testuale e visivo, i modelli multimodali combinano i vantaggi dei due metodi precedenti.
End-to-End Information Retrieval
Tutti i metodi finora descritti operano in due fasi distinte: prima viene estratto il testo dal documento (se non è già in formato digitale) e successivamente viene analizzato per ricavare le informazioni d’interesse. Recentemente, è stato sviluppato un nuovo modello end-to-end che combina entrambe le fasi in un unico passaggio: Donut (di cui abbiamo già parlato). Operando in questo modo, Donut riesce sia a specializzarsi molto meglio nell’interpretare documenti anche molto difficili che ad essere più flessibile nella struttura con cui restituisce i dati estratti.
Questo non vuol dire però che sia sempre la scelta migliore: Donut richiede più tempo per essere allenato rispetto ai metodi precedenti e la sua funzione prevede che tutti i documenti (quindi anche per esempio i pdf creati già in formato digitale) vengano dapprima interpretati come immagini, rendendo di fatto il processo di estrazione delle informazioni più complesso del necessario in alcuni casi.
Applicazioni RAG
La RAG è rapidamente diventata una tecnica fondamentale nello sviluppo di diverse applicazioni di AI generativa (GenAI), consentendo la creazione rapida di assistenti in grado di rispondere in modo preciso e dettagliato alle domande. Tra i casi d’uso più comuni ci sono sistemi di Q&A avanzati, motori di ricerca generativi e sistemi di raccomandazione più personalizzati e dettagliati.
In Intesa, diverse applicazioni basate su RAG sono in fase di sviluppo, inclusi un assistente interno per estrarre informazioni dalla documentazione tecnica e un chatbot conversazionale per l’estrazione di KPI dai database SQL della Control Tower Light.
Conclusioni
Come abbiamo visto esistono diverse soluzioni tra cui scegliere per estrarre dati dai documenti senza che nessuna di essa si possa considerare la migliore in assoluto. È infatti fondamentale saper scegliere lo strumento giusto in base al tipo di documento e ai dati da estrarre. Per esempio, se il documento ha una struttura rigida e ben codificata, sfruttare delle semplici euristiche puo’ essere una soluzione al contempo semplice ed efficace. Al contrario, se si ha a che fare con documenti di origine cartacea molto particolari, affidarsi ad un modello end-to-end come Donut potrebbe essere la scelta migliore. Infine, per documenti digitali con una grande varianza nel layout, puntare a un modello multimodale per l’estrazione di dati potrebbe portare ad ottimi risultati.