Chatbot e algoritmi che rispondono a tutto? Beh, in qualche modo si. Il problema però è come rispondono. Un recente studio ci rivela una verità allarmante: gli omniscienti bot di Intelligenza Artificiale non supererebbero neanche un banalissimo esame di storia. Allucinazioni, imprecisioni, pregiudizi e un modello che preferisce la quantità delle informazioni alla qualità: andiamo a scoprire la grande falla in quella potente macchina chiamata AI.
Il test: il chatbot migliore sbaglia più della metà delle risposte
Un gruppo di ricercatori ha creato un test ad hoc, chiamato Hist-LLM, per verificare quanto i modelli di linguaggio più avanzati sappiano rispondere a domande di storia. Nello specifico i ricercatori hanno messo alla prova le conoscenze storiche di GPT-4 di OpenAI, Llama di Meta e Gemini di Google utilizzando il Seshat Global History Databank, una delle più grandi raccolte di dati storici al mondo.
I risultati? Il migliore, GPT-4 Turbo, ha raggiunto solo il 46% di risposte corrette, meno della metà. I modelli sembrano cavarsela abbastanza bene con i fatti basilari, ma vanno in crisi con domande più complesse, come quelle che si incontrano in un dottorato di ricerca. “Non hanno ancora la profondità necessaria”, spiega Maria del Rio-Chanona, docente di informatica e co-autrice dello studio.
Perché l’Intelligenza Artificiale è così carente in storia?
Tra gli errori segnalati, molti derivano da risposte troppo generiche o sbagliate su dettagli storici. Ad esempio, GPT-4 Turbo ha dichiarato che nell’antico Egitto esistessero armature a scaglie durante un certo periodo, ma questa tecnologia è apparsa 1.500 anni più tardi.
Il problema è che questi modelli tendono a basarsi sui dati più noti e a ignorare dettagli meno diffusi. Questo problema emerge soprattutto in domande su regioni storicamente sotto-rappresentate, come l’Africa subsahariana. Insomma, è come se l’AI preferisse la quantità di informazioni alla qualità, portando a una buona dose di risposte corrette su argomenti “mainstream” ma causando una grande confusione su temi più specifici e “di nicchia”.
Nonostante le carenze, lo studio non chiude la porta all’utilizzo dell’AI nella ricerca storica. I ricercatori puntano a migliorare il benchmark con dati di regioni meno rappresentate e domande più complesse. “Non sono ancora pronti per sostituire gli storici, ma possono diventare un valido aiuto”, si legge nello studio. Se quindi state pensando di usare ChatGPT per la vostra tesi in storia contemporanea, beh forse è il caso di pensarci due volte.
- ALEXA PUÒ MOSTRARTI MOLTE COSE: Echo Show 5 è dotato di uno schermo da 5,5", per controllare a colpo d’occhio il...
- PICCOLE DIMENSIONI, MIGLIORI PRESTAZIONI AUDIO: ascolta la tua musica o i tuoi podcast preferiti, guarda le serie TV che...
- LA TUA CASA GESTITA IN TUTTA COMODITÀ: controlla i dispositivi per Casa Intelligente, come lampadine e termostati,...
Ultimo aggiornamento 2024-10-06 / Link di affiliazione / Immagini da Amazon Product Advertising API