I modelli di intelligenza artificiale hanno ancora dei limiti, ma un ambito in cui funzionano perfettamente è basare il proprio ragionamento sulla logica matematica, giusto? Sembra di no. Secondo un nuovo studio di sei ingegneri di Apple mette in luce i limiti dei Large Language Models (LLM) nell’affrontare problemi matematici di base.
L’intelligenza artificiale non è così brava nella logica matematica
I ricercatori di Apple hanno condotto un’analisi approfondita sulle capacità di ragionamento matematico dei Large Language Models (LLM). Lo studio, intitolato “GSM-Symbolic”, rivela significative lacune nelle abilità di questi sistemi di intelligenza artificiale.
Come sintetizza bene Ars Technica, i ricercatori hanno sviluppato GSM-Symbolic, una versione modificata del noto benchmark GSM8K. Questo nuovo strumento genera varianti dinamiche dei problemi matematici originali, sostituendo nomi e valori numerici. Per esempio, un problema su “Matteo che compra dieci mele per suo fratello” diventa “Marta compra otto arance per sua cugina”. Questo serve a capire se gli LLM sanno davvero ragionare, oppure se hanno imparato solo molto bene gli esempi del modello originario.
I test condotti su oltre 20 LLM all’avanguardia hanno mostrato:
- Un calo generalizzato delle prestazioni su GSM-Symbolic rispetto a GSM8K, con riduzioni dell’accuratezza fino al 9,2%.
- Un’elevata variabilità dei risultati tra diverse esecuzioni del test, con differenze fino al 15% per lo stesso modello.
- Una maggiore sensibilità ai cambiamenti nei valori numerici rispetto alle modifiche dei nomi propri.
Risultati, quindi, che calano ma restano piuttosto buoni — soprattutto nei modelli più avanzati come ChatGPT-4o (che cala dal 95,2 al 94,9% in accuratezza). Tuttavia, l’AI da risultati decisamente peggiori quando i ricercatori hanno introdotto GSM-NoOp, una variante che aggiunge dettagli non pertinenti ai problemi. Per esempio, in un problema sulla raccolta di kiwi, hanno aggiunto che alcuni di loro erano più piccoli del normale. Questa modifica ha causato crolli drammatici nelle prestazioni, con cali di accuratezza dal 17,5% fino al 65,7%.
Anche in questo caso l’ultimo modello di OpenAI è risultato il migliore. Ma il tasso di errore del 17,5% sembra decisamente troppo alto: se una calcolatrice sbagliasse un calcolo su cinque, smetteremmo di utilizzarla.
L’AI ragiona davvero?
I risultati suggeriscono che i LLM attuali non eseguono un vero ragionamento logico, ma si affidano principalmente al pattern matching probabilistico. Questa limitazione rende i modelli fragili di fronte a variazioni anche minime dei problemi. La capacità di “ragionamento” dipende quindi dagli enormi dataset usati per addestrare l’AI, non dal fatto che gli LLM abbiano davvero imparato la logica sottostante. Qualcosa che dipende dalla natura stessa di queste macchine: dobbiamo tenerne conto quando le utilizziamo. E, magari, ricontrollare che i processi logici siano tutti corretti.
Ultimo aggiornamento 2024-10-06 / Link di affiliazione / Immagini da Amazon Product Advertising API
Rimani aggiornato seguendoci su Google News!
Da non perdere questa settimana su Techprincess
🎁 Guida ai Regali di Natale 2024
🎵 Spotify Unwrapped: quanto guadagnano davvero i tuoi artisti preferiti?
🎄Quale iPhone conviene acquistare a Natale 2024?
🚗 Ma avere un’auto elettrica è da privilegiati? Cosa dicono i costi
📰 Ma lo sai che abbiamo un sacco di newsletter?
📺 Trovi Fjona anche su RAI Play con Touch - Impronta digitale!
🎧 Ascolta il nostro imperdibile podcast Le vie del Tech
💸E trovi un po' di offerte interessanti su Telegram!