Un esperimento per riflettere sull’accuratezza dell’AI

By ARNAB CHAKRABORTY
Settembre 7, 2024

Quando l’AI era solo una proposta teorica e una curiosità per pochi, il mondo reale ne riconosceva a malapena le potenzialità. Ma il furore dell’intelligenza artificiale generativa ha messo in luce la sua capacità di generare valore tangibile e il suo potenziale di cambiare il funzionamento del mondo.
La tecnologia è in grado di automatizzare, aumentare e reinventare quasi tutti gli aspetti della vita quotidiana e del business. Se da un lato molti ritengono che il lavoro diventi più facile con l’AI generativa, dall’altro alcuni si preoccupano della potenziale delocalizzazione dei posti di lavoro. Tuttavia, l’intelligenza artificiale generativa potrebbe non essere ancora pronta a sostituire gli esseri umani.

L’infallibilità dell’AI generativa

L’AI generativa deve ancora raggiungere il suo pieno sviluppo e per questo si sta lavorando anche sulla sua infallibilità. In un’intervista alla NPR, il professore di Wharton Ethan Mollick ha detto di considerarla come un “tirocinante desideroso di compiacere che a volte ti mente”, a volte con assoluta sicurezza.
Man mano che gli utenti di tutto il mondo diventano sempre più dipendenti dall’AI, diventa più difficile riconoscere e individuare gli errori della tecnologia. I risultati che contengono errori, omissioni e pregiudizi sono spesso difficili da rintracciare, rendendo più complicato garantire che i contenuti generati dall’AI siano accurati e affidabili. Ma sapendo quello che sappiamo sul comportamento umano, possiamo aiutare le persone prima che accettino acriticamente i risultati dell’AI generativa considerandoli affidabili?
Un recente esperimento sul campo condotto da Accenture e dal MIT ha affrontato la questione degli errori e delle imprecisioni dell’IA generativa.
Studiare il ruolo delle scienze comportamentali nella tecnologia non è una novità, soprattutto quando la questione riguarda il comportamento umano e i pregiudizi cognitivi sulla tecnologia. I problemi sorgono quando accettiamo le informazioni prendendo per buono il loro valore nominale, in particolare quando sono generate da un sistema di AI apparentemente infallibile. Questo può portare a un’eccessiva fiducia nei risultati e aumentare il rischio di perpetuare errori e disinformazione.

L’esperimento

L’esperimento sul campo ha coinvolto 140 professionisti della ricerca di Accenture e uno strumento che mirava a spingere gli utenti a riconoscere gli errori introducendo attriti, o “rallentamenti”, nell’output generato dall’AI. Collegando la scienza comportamentale all’intelligenza artificiale generativa, lo strumento ha incoraggiato gli utenti a impegnarsi nel “Sistema 2”: sono stati spinti a pensare in modo più analitico e meno intuitivo. Ai partecipanti è stato chiesto di completare e inviare due sintesi esecutive entro 70 ore utilizzando i risultati di ChatGPT. Hanno ricevuto i risultati generati dall’intelligenza artificiale con vari livelli di testo evidenziato che indicavano la correttezza, i potenziali errori o le omissioni. L’evidenziare faceva parte di un ipotetico strumento progettato per migliorare il rilevamento degli errori. I partecipanti sono stati divisi in tre gruppi: un gruppo a cui è stato offerto un attrito completo (tutti i tipi di evidenziazione), uno a cui è stato offerto un attrito medio (evidenziazione di errori e omissioni) e uno a cui non è stato offerto alcun attrito (nessuna evidenziazione). I risultati hanno rivelato che la tecnica di evidenziazione intensa ha migliorato l’individuazione di errori e omissioni, ma ha aumentato il tempo di completamento del compito. La condizione di attrito medio sembrava invece trovare il giusto equilibrio tra accuratezza ed efficienza.

Lo scontro può essere positivo

Sebbene l’esperimento in sé abbia “spinto” gli utenti a rallentare e a esaminare gli errori e i potenziali errori nei risultati dell’AI, l’implicazione più ampia di questi risultati va oltre il contesto immediato. Aggiungere consapevolmente un attrito nel processo di produzione dell’AI può aiutare le aziende a usarla in modo responsabile e a migliorare l’affidabilità e la trasparenza dei contenuti generati. Promuovere una revisione più approfondita è fondamentale in settori come la sanità, la finanza e i servizi legali, dove l’accuratezza è fondamentale.
Mantenendo gli esseri umani nel circuito e promuovendo modalità di lavoro più consapevoli, le aziende possono scalare l’uso degli strumenti di IA generativa in tutta la loro catena del valore, riducendo al minimo le imprecisioni e gli errori. L’aggiunta di attriti, o di “rallentamenti”, aiuta a creare suggerimenti ponderati per gli utenti mentre si ancorano all’output o al contenuto.
Un’osservazione sorprendente di questo esperimento è che tutti i partecipanti, nelle tre condizioni di attrito, non hanno dichiarato alcuna differenza nella loro risposta all’affermazione del sondaggio di follow-up: “Sono più consapevole dei tipi di errori da cercare quando uso la gen AI”. In altre parole, hanno continuato a sopravvalutare la loro capacità di identificare gli errori nei contenuti generati dall’intelligenza artificiale.
Ciò indica che il ‘nudging’, o forme simili di controlli di qualità, devono essere continuamente testati e incorporati nelle implementazioni di AI gen, in modo che gli utenti non accettino di riflesso i suoi contenuti come accurati, almeno fino a quando la tecnologia non raggiungerà uno stadio più maturo.

Predisporre dossi, non barriere di velocità

Sebbene l’introduzione di attriti nella tecnologia aiuti gli esseri umani a impegnarsi maggiormente nella valutazione dei contenuti, le aziende devono comunque procedere con cautela. Gli interventi dovrebbero influenzare il nostro comportamento in modo da consentirci di prendere decisioni migliori, senza interferire con le nostre scelte e il nostro tempo o essere eccessivamente onerosi, il che potrebbe sottrarci i vantaggi che la tecnologia dell’intelligenza artificiale generativa può offrire.
Promuovendo una cultura della sperimentazione e del pensiero critico, le aziende possono mitigare i rischi associati agli errori e ai pregiudizi dell’AI. In un ambiente di questo tipo, gli utenti diventeranno più abili nel riconoscere le potenziali insidie e saranno meglio attrezzati per prendere decisioni informate. Questo approccio non solo migliora la qualità dei risultati dell’IA, ma contribuisce anche allo sviluppo complessivo dell’alfabetizzazione degli utenti.
In definitiva, l’AI generativa è diventata onnipresente in molti aspetti della nostra vita. Gli sforzi per renderla più affidabile e precisa sono necessari, se non obbligatori.

Le opinioni espresse nei commenti di Fortune sono esclusivamente quelle degli autori e non riflettono necessariamente le opinioni e le convinzioni della testata.

Questa storia è stata originariamente pubblicata su Fortune.com