Agenti conversazionali: cosa sono e a cosa servono

6 Febbraio 2024

Un utile strumento per massimizzare le potenzialità dei large language models

di Luca Pinna, AI Engineer di Intesa, a Kyndryl Company

I language models presentano dei limiti strutturali. Gli agenti convenzionali possono massimizzare la loro potenzialità offrendo numerosi vantaggi. Ce ne parla Luca Pinna in questo articolo.

In questo articolo scoprirai:

Nel nostro precedente articolo dedicato ai “large language models” (LLM) abbiamo visto che si tratta di modelli di deep learning di dimensioni considerevoli, addestrati su enormi dataset, in grado di comprendere e generare testi praticamente indistinguibili da quelli prodotti dagli esseri umani. Possono essere utilizzati per favorire la digitalizzazione di alcuni processi aziendali, per esempio con l’implementazione di chatbot che rispondono a domande sulla documentazione interna o con la generazione di riassunti personalizzati da documenti lunghi.

I limiti dei Large Language Models

Come si è detto, ogni language model è però vincolato dai dati di addestramento e presentano per questo alcuni limiti strutturali, per esempio:

1. LLM recenti possono svolgere operazioni matematiche in modo accurato, ma non sono progettati specificamente per compiti di calcolo avanzato e potrebbero quindi incontrare difficoltà con equazioni matematiche complesse.

2. i LLM non sono aggiornati in tempo reale sulle notizie attuali, poiché il processo di addestramento richiederebbe anni e per questo raramente si effettuano nuovi training. Quindi, se per esempio si chiede al LLM il risultato della partita di Champions League di ieri, non sarà in grado di rispondere correttamente perché non è stato addestrato su dati così recenti.

3. Il modello non può accedere a internet per ottenere informazioni aggiornate, e tali dati non sono inclusi nei dati di addestramento.

Per questi motivi per ottenere un risultato ottimale è essenziale collegare i LLM ad altri strumenti per ampliarne le capacità. Gli “agenti conversazionali” sono una risposta a questa esigenza.

Come funzionano gli agenti conversazionali

Gli agenti conversazionali danno la possibilità di eseguire codice Python, ricercare le informazioni su internet e definire strumenti personalizzati.

Negli agenti, un large language model funziona come “motore di ragionamento” per determinare le azioni da intraprendere e il relativo ordine.

Il flusso di lavoro di un agente si articola in quattro fasi:

1. Ricezione degli input: l’agente riceve input in linguaggio naturale dall’utente.

2. Elaborazione con LLM: l’agente utilizza il large language model per elaborare l’input e formulare un piano d’azione, ovvero una serie di attività che l’agente esegue sequenzialmente.

3. Esecuzione del piano: l’agente esegue il piano d’azione ideato, che potrebbe comportare l’interazione con altri strumenti o servizi oltre a diverse chiamate al LLM.

4. Consegna dell’output: l’agente consegna all’utente l’output del piano eseguito.

L’elaborazione di un piano di azione e l’esecuzione del piano stesso rappresentano degli step cruciali che differenziano gli agenti dal semplice utilizzo di un LLM

Facciamo un esempio

Per provare a spiegare meglio il flusso di lavoro di un agente possiamo prendere un esempio un po’ semplificato. In un caso reale la complessità sarebbe decisamente superiore e il LLM deve gestire l’interazione con diversi strumenti. Ecco come si comporta un agente dotato di uno strumento per fare ricerche sul web (DuckDuckGo) quando gli viene chiesto:

“Chi ha vinto più medaglie d’oro alle olimpiadi tra l’Italia nel 1996 e l’Australia nel 2000?”

Pensiero: Dovrei usare lo strumento duckduckgo_search per trovare la risposta a questa domanda
Azione: duckduckgo_search
Input dell’azione: “Italia medaglie d’oro Olimpiadi 1996”
Risultato: 13
Pensiero: Devo cercare le medaglie d’oro vinte dall’Australia alle Olimpiadi del 2000.
Azione: duckduckgo_search
Azione: “Australia medaglie d’oro Olimpiadi 2000”
Risultato: 16
Pensiero: Ora conosco la risposta finale
Risposta finale: L’Australia ha vinto più medaglie d’oro alle olimpiadi del 2000.

Il LLM elabora dei ragionamenti (Pensiero) che portano all’esecuzione di azioni attraverso l’utilizzo degli strumenti che ha a disposizione. L’azione “duckduckgo_search” necessita di un input dell’azione che viene dettato dal LLM che si occupa anche di interpretare il risultato, che in questo esempio è stato semplificato riportando solo un valore.
Questa catena va avanti fino a che il modello non crede di conoscere la risposta finale che viene riportata all’utente.

Agenti conversazionali, possibili applicazioni

Un’applicazione potenziale di un agente è la traduzione degli input in linguaggio naturale dell’utente in una query eseguibile, a esempio in linguaggio SQL. Questo processo colma il divario tra la comunicazione in linguaggio naturale e l’interrogazione strutturata dei database, fornendo un percorso agevole e intuitivo per il recupero e la gestione dei dati. Anche coloro che non hanno una formazione tecnica potrebbero così acquisire informazioni e indicatori chiave di performance (KPI) interagendo in modo conversazionale con i database.

Inoltre, grazie all’accesso a strumenti di navigazione web, con gli agenti si possono creare assistenti intelligenti in grado di rispondere a domande di vario genere. La conoscenza degli agenti non è limitata dal testo di addestramento: essa può essere estesa recuperando informazioni da diverse fonti ed elaborandole con l’aiuto della potenza dei large language models (LLM) sottostanti. Eventualmente queste informazioni potrebbero essere riportate in un report personalizzato generato automaticamente dall’agente.

Le possibilità sono però tantissime: anche in Intesa stiamo conducendo una sperimentazione sugli agenti conversazionali per capire come sfruttare al meglio questa applicazione al fine di rivoluzionare i nostri servizi digitali.

Conclusioni

Abbiamo delineato solo alcuni dei casi d’uso degli agenti, ma le loro applicazioni sono molteplici. Gli agenti offrono diversi vantaggi, tra cui:

Automazione: Gli agenti possono automatizzare le attività ripetitive, liberando risorse da impiegare su compiti più strategici. Ad esempio possiamo immaginare un agente che sintetizza automaticamente le e-mail dei clienti, genera report o pianifica riunioni in base alle preferenze dell’utente.
Flessibilità: A differenza dell’automazione tradizionale basata sul codice, gli agenti possono gestire situazioni dinamiche e adattare le loro azioni in base a nuove informazioni o al feedback degli utenti.
Miglioramento esperienza utente: Interagendo con gli agenti attraverso il linguaggio naturale, gli utenti possono accedere alle informazioni e completare le attività in modo più intuitivo ed efficiente, rendendo un servizio o una risorsa fruibile con facilità da una qualsiasi tipologia d’utente.