fbpx
NewsSoftwareTech

Apple “boccia” l’intelligenza artificiale in logica matematica

I modelli di intelligenza artificiale hanno ancora dei limiti, ma un ambito in cui funzionano perfettamente è basare il proprio ragionamento sulla logica matematica, giusto? Sembra di no. Secondo un nuovo studio di sei ingegneri di Apple mette in luce i limiti dei Large Language Models (LLM) nell’affrontare problemi matematici di base.

L’intelligenza artificiale non è così brava nella logica matematica

I ricercatori di Apple hanno condotto un’analisi approfondita sulle capacità di ragionamento matematico dei Large Language Models (LLM). Lo studio, intitolato “GSM-Symbolic”, rivela significative lacune nelle abilità di questi sistemi di intelligenza artificiale.

Come sintetizza bene Ars Technica, i ricercatori hanno sviluppato GSM-Symbolic, una versione modificata del noto benchmark GSM8K. Questo nuovo strumento genera varianti dinamiche dei problemi matematici originali, sostituendo nomi e valori numerici. Per esempio, un problema su “Matteo che compra dieci mele per suo fratello” diventa “Marta compra otto arance per sua cugina”. Questo serve a capire se gli LLM sanno davvero ragionare, oppure se hanno imparato solo molto bene gli esempi del modello originario.

I test condotti su oltre 20 LLM all’avanguardia hanno mostrato:

  • Un calo generalizzato delle prestazioni su GSM-Symbolic rispetto a GSM8K, con riduzioni dell’accuratezza fino al 9,2%.
  • Un’elevata variabilità dei risultati tra diverse esecuzioni del test, con differenze fino al 15% per lo stesso modello.
  • Una maggiore sensibilità ai cambiamenti nei valori numerici rispetto alle modifiche dei nomi propri.

Risultati, quindi, che calano ma restano piuttosto buoni — soprattutto nei modelli più avanzati come ChatGPT-4o (che cala dal 95,2 al 94,9% in accuratezza). Tuttavia, l’AI da risultati decisamente peggiori quando i ricercatori hanno introdotto GSM-NoOp, una variante che aggiunge dettagli non pertinenti ai problemi. Per esempio, in un problema sulla raccolta di kiwi, hanno aggiunto che alcuni di loro erano più piccoli del normale. Questa modifica ha causato crolli drammatici nelle prestazioni, con cali di accuratezza dal 17,5% fino al 65,7%.

Anche in questo caso l’ultimo modello di OpenAI è risultato il migliore. Ma il tasso di errore del 17,5% sembra decisamente troppo alto: se una calcolatrice sbagliasse un calcolo su cinque, smetteremmo di utilizzarla.

L’AI ragiona davvero?

I risultati suggeriscono che i LLM attuali non eseguono un vero ragionamento logico, ma si affidano principalmente al pattern matching probabilistico. Questa limitazione rende i modelli fragili di fronte a variazioni anche minime dei problemi. La capacità di “ragionamento” dipende quindi dagli enormi dataset usati per addestrare l’AI, non dal fatto che gli LLM abbiano davvero imparato la logica sottostante. Qualcosa che dipende dalla natura stessa di queste macchine: dobbiamo tenerne conto quando le utilizziamo. E, magari, ricontrollare che i processi logici siano tutti corretti.

Offerta

Ultimo aggiornamento 2024-10-06 / Link di affiliazione / Immagini da Amazon Product Advertising API

Da non perdere questa settimana su Techprincess

 

🎮 Che impatto avranno le elezioni americane sui videogiochi?
🚘 I gadget più strani delle case automobilistiche
🇨🇳 Un gruppo di ricercatori cinesi ha sviluppato un modello di IA per uso militare basato su Llama di Meta

🔍 ChatGPT si aggiorna e ora naviga sul web
Ma lo sai che abbiamo un sacco di newsletter?
 
📺 Trovi Fjona anche su RAI Play con Touch - Impronta digitale!
 
🎧 Ascolta il nostro imperdibile podcast Le vie del Tech
 
💸E trovi un po' di offerte interessanti su Telegram!

Source
AppleArsTechnica

Autore

  • Stefano Regazzi

    Il battere sulla tastiera è la mia musica preferita. Nel senso che adoro scrivere, non perché ho una playlist su Spotify intitolata "Rumori da laptop": amo la tecnologia, ma non fino a quel punto! Lettore accanito, nerd da prima che andasse di moda.

    Visualizza tutti gli articoli

Ti potrebbero interessare anche:

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Back to top button