Site icon Techprincess

Apple “boccia” l’intelligenza artificiale in logica matematica

Apple "boccia" l'intelligenza artificiale in logica matematica thumbnail

I modelli di intelligenza artificiale hanno ancora dei limiti, ma un ambito in cui funzionano perfettamente è basare il proprio ragionamento sulla logica matematica, giusto? Sembra di no. Secondo un nuovo studio di sei ingegneri di Apple mette in luce i limiti dei Large Language Models (LLM) nell’affrontare problemi matematici di base.

L’intelligenza artificiale non è così brava nella logica matematica

I ricercatori di Apple hanno condotto un’analisi approfondita sulle capacità di ragionamento matematico dei Large Language Models (LLM). Lo studio, intitolato “GSM-Symbolic”, rivela significative lacune nelle abilità di questi sistemi di intelligenza artificiale.

Come sintetizza bene Ars Technica, i ricercatori hanno sviluppato GSM-Symbolic, una versione modificata del noto benchmark GSM8K. Questo nuovo strumento genera varianti dinamiche dei problemi matematici originali, sostituendo nomi e valori numerici. Per esempio, un problema su “Matteo che compra dieci mele per suo fratello” diventa “Marta compra otto arance per sua cugina”. Questo serve a capire se gli LLM sanno davvero ragionare, oppure se hanno imparato solo molto bene gli esempi del modello originario.

I test condotti su oltre 20 LLM all’avanguardia hanno mostrato:

Risultati, quindi, che calano ma restano piuttosto buoni — soprattutto nei modelli più avanzati come ChatGPT-4o (che cala dal 95,2 al 94,9% in accuratezza). Tuttavia, l’AI da risultati decisamente peggiori quando i ricercatori hanno introdotto GSM-NoOp, una variante che aggiunge dettagli non pertinenti ai problemi. Per esempio, in un problema sulla raccolta di kiwi, hanno aggiunto che alcuni di loro erano più piccoli del normale. Questa modifica ha causato crolli drammatici nelle prestazioni, con cali di accuratezza dal 17,5% fino al 65,7%.

Anche in questo caso l’ultimo modello di OpenAI è risultato il migliore. Ma il tasso di errore del 17,5% sembra decisamente troppo alto: se una calcolatrice sbagliasse un calcolo su cinque, smetteremmo di utilizzarla.

L’AI ragiona davvero?

I risultati suggeriscono che i LLM attuali non eseguono un vero ragionamento logico, ma si affidano principalmente al pattern matching probabilistico. Questa limitazione rende i modelli fragili di fronte a variazioni anche minime dei problemi. La capacità di “ragionamento” dipende quindi dagli enormi dataset usati per addestrare l’AI, non dal fatto che gli LLM abbiano davvero imparato la logica sottostante. Qualcosa che dipende dalla natura stessa di queste macchine: dobbiamo tenerne conto quando le utilizziamo. E, magari, ricontrollare che i processi logici siano tutti corretti.

Offerta

Ultimo aggiornamento 2024-10-06 / Link di affiliazione / Immagini da Amazon Product Advertising API

Exit mobile version