fbpx
AttualitàCulturaTech

L’Intelligenza Artificiale bocciata in storia: ancora troppi errori e inesattezze per l’AI

Caro Signor GPT, forse è meglio se torna al prossimo appello

Chatbot e algoritmi che rispondono a tutto? Beh, in qualche modo si. Il problema però è come rispondono. Un recente studio ci rivela una verità allarmante: gli omniscienti bot di Intelligenza Artificiale non supererebbero neanche un banalissimo esame di storia. Allucinazioni, imprecisioni, pregiudizi e un modello che preferisce la quantità delle informazioni alla qualità: andiamo a scoprire la grande falla in quella potente macchina chiamata AI.

Il test: il chatbot migliore sbaglia più della metà delle risposte

Un gruppo di ricercatori ha creato un test ad hoc, chiamato Hist-LLM, per verificare quanto i modelli di linguaggio più avanzati sappiano rispondere a domande di storia. Nello specifico i ricercatori hanno messo alla prova le conoscenze storiche di GPT-4 di OpenAI, Llama di Meta e Gemini di Google utilizzando il Seshat Global History Databank, una delle più grandi raccolte di dati storici al mondo.

I risultati? Il migliore, GPT-4 Turbo, ha raggiunto solo il 46% di risposte corrette, meno della metà. I modelli sembrano cavarsela abbastanza bene con i fatti basilari, ma vanno in crisi con domande più complesse, come quelle che si incontrano in un dottorato di ricerca. “Non hanno ancora la profondità necessaria”, spiega Maria del Rio-Chanona, docente di informatica e co-autrice dello studio.

Perché l’Intelligenza Artificiale è così carente in storia?

Tra gli errori segnalati, molti derivano da risposte troppo generiche o sbagliate su dettagli storici. Ad esempio, GPT-4 Turbo ha dichiarato che nell’antico Egitto esistessero armature a scaglie durante un certo periodo, ma questa tecnologia è apparsa 1.500 anni più tardi.

Il problema è che questi modelli tendono a basarsi sui dati più noti e a ignorare dettagli meno diffusi. Questo problema emerge soprattutto in domande su regioni storicamente sotto-rappresentate, come l’Africa subsahariana. Insomma, è come se l’AI preferisse la quantità di informazioni alla qualità, portando a una buona dose di risposte corrette su argomenti “mainstream” ma causando una grande confusione su temi più specifici e “di nicchia”.

Nonostante le carenze, lo studio non chiude la porta all’utilizzo dell’AI nella ricerca storica. I ricercatori puntano a migliorare il benchmark con dati di regioni meno rappresentate e domande più complesse. “Non sono ancora pronti per sostituire gli storici, ma possono diventare un valido aiuto”, si legge nello studio. Se quindi state pensando di usare ChatGPT per la vostra tesi in storia contemporanea, beh forse è il caso di pensarci due volte.

Echo Show 5 (Ultimo modello) | Schermo touch intelligente e...
  • ALEXA PUÒ MOSTRARTI MOLTE COSE: Echo Show 5 è dotato di uno schermo da 5,5", per controllare a colpo d’occhio il...
  • PICCOLE DIMENSIONI, MIGLIORI PRESTAZIONI AUDIO: ascolta la tua musica o i tuoi podcast preferiti, guarda le serie TV che...
  • LA TUA CASA GESTITA IN TUTTA COMODITÀ: controlla i dispositivi per Casa Intelligente, come lampadine e termostati,...

Ultimo aggiornamento 2024-10-06 / Link di affiliazione / Immagini da Amazon Product Advertising API

Source
TechCrunch

Autore

  • Marco Brunasso

    Scrivere è la mia passione, la musica è la mia vita e Liam Gallagher il mio Dio. Per il resto ho 30 anni e sono un musicista, cantante e autore. Qui scrivo principalmente di musica e videogame, ma mi affascina tutto ciò che ha a che fare con la creazione di mondi paralleli. 🌋From Pompei with love.🧡

    Visualizza tutti gli articoli

Ti potrebbero interessare anche:

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Back to top button