L'intelligenza artificiale è davvero brava in logica matemat...

Apple "boccia" l'intelligenza artificiale in logica matematica thumbnail

I modelli di intelligenza artificiale hanno ancora dei limiti, ma un ambito in cui funzionano perfettamente è basare il proprio ragionamento sulla logica matematica, giusto? Sembra di no. Secondo un nuovo studio di sei ingegneri di Apple mette in luce i limiti dei Large Language Models (LLM) nell’affrontare problemi matematici di base.

L’intelligenza artificiale non è così brava nella logica matematica

I ricercatori di Apple hanno condotto un’analisi approfondita sulle capacità di ragionamento matematico dei Large Language Models (LLM). Lo studio, intitolato “GSM-Symbolic”, rivela significative lacune nelle abilità di questi sistemi di intelligenza artificiale.

Come sintetizza bene Ars Technica, i ricercatori hanno sviluppato GSM-Symbolic, una versione modificata del noto benchmark GSM8K. Questo nuovo strumento genera varianti dinamiche dei problemi matematici originali, sostituendo nomi e valori numerici. Per esempio, un problema su “Matteo che compra dieci mele per suo fratello” diventa “Marta compra otto arance per sua cugina”. Questo serve a capire se gli LLM sanno davvero ragionare, oppure se hanno imparato solo molto bene gli esempi del modello originario.

I test condotti su oltre 20 LLM all’avanguardia hanno mostrato:

Un calo generalizzato delle prestazioni su GSM-Symbolic rispetto a GSM8K, con riduzioni dell’accuratezza fino al 9,2%.
Un’elevata variabilità dei risultati tra diverse esecuzioni del test, con differenze fino al 15% per lo stesso modello.
Una maggiore sensibilità ai cambiamenti nei valori numerici rispetto alle modifiche dei nomi propri.

Risultati, quindi, che calano ma restano piuttosto buoni — soprattutto nei modelli più avanzati come ChatGPT-4o (che cala dal 95,2 al 94,9% in accuratezza). Tuttavia, l’AI da risultati decisamente peggiori quando i ricercatori hanno introdotto GSM-NoOp, una variante che aggiunge dettagli non pertinenti ai problemi. Per esempio, in un problema sulla raccolta di kiwi, hanno aggiunto che alcuni di loro erano più piccoli del normale. Questa modifica ha causato crolli drammatici nelle prestazioni, con cali di accuratezza dal 17,5% fino al 65,7%.

Anche in questo caso l’ultimo modello di OpenAI è risultato il migliore. Ma il tasso di errore del 17,5% sembra decisamente troppo alto: se una calcolatrice sbagliasse un calcolo su cinque, smetteremmo di utilizzarla.

Scopri le migliori offerte della giornata sul canale Telegram di techprincess

L’AI ragiona davvero?

I risultati suggeriscono che i LLM attuali non eseguono un vero ragionamento logico, ma si affidano principalmente al pattern matching probabilistico. Questa limitazione rende i modelli fragili di fronte a variazioni anche minime dei problemi. La capacità di “ragionamento” dipende quindi dagli enormi dataset usati per addestrare l’AI, non dal fatto che gli LLM abbiano davvero imparato la logica sottostante. Qualcosa che dipende dalla natura stessa di queste macchine: dobbiamo tenerne conto quando le utilizziamo. E, magari, ricontrollare che i processi logici siano tutti corretti.

Offerta

L'intelligenza artificiale. Una guida per esseri umani...

Mitchell, Melanie (Autore)

Ultimo aggiornamento 2024-10-06 / Link di affiliazione / Immagini da Amazon Product Advertising API

Rimani aggiornato seguendoci su Google News!

Da non perdere questa settimana su Techprincess

🛍️ Amazon Black Friday 2024: date, migliori offerte e consigli per risparmiare
🎮 I 10 migliori giochi che dovresti assolutamente comprare con le offerte di Steam: sconti fino al 95%
🪁 PlayLab, il museo a portata di bambino
🚗 Restomod: quando le leggende dell’asfalto rinascono per farci sognare ancora
📰 Ma lo sai che abbiamo un sacco di newsletter?
📺 Trovi Fjona anche su RAI Play con Touch - Impronta digitale!
🎧 Ascolta il nostro imperdibile podcast Le vie del Tech
💸E trovi un po' di offerte interessanti su Telegram!

Source

Autore

Stefano Regazzi

Il battere sulla tastiera è la mia musica preferita. Nel senso che adoro scrivere, non perché ho una playlist su Spotify intitolata "Rumori da laptop": amo la tecnologia, ma non fino a quel punto! Lettore accanito, nerd da prima che andasse di moda.
Visualizza tutti gli articoli

Apple “boccia” l’intelligenza artificiale in logica matematica

L’intelligenza artificiale non è così brava nella logica matematica

L’AI ragiona davvero?

Rimani aggiornato seguendoci su Google News!

Seguici!

Autore

Lascia un commento Annulla risposta

OnePlus 13: il nuovo smartphone punta su resistenza e design innovativo

BYD, raggiunto un nuovo traguardo: 10 milioni di veicoli plug-in prodotti

Google porta l’IA Gemini sui dispositivi Nest

Attacchi tramite codici QR: un rischio crescente per la sicurezza informatica

Bimby TM6 ora disponibile anche online: acquisti sicuri e supporto personalizzato

L’intelligenza artificiale non è così brava nella logica matematica

L’AI ragiona davvero?

Rimani aggiornato seguendoci su Google News!

Seguici!

Autore

Iscriviti alla newsletter

Meglio mail che tardi

Google punta su micro-reattori nucleari per alimentare l'intelligenza artificiale

La recensione di Roborock Qrevo Curv: supera ancora più ostacoli e non solo!

Ti potrebbero interessare anche:

Apple GPT: il rivoluzionario assistente virtuale arriverà nel 2024 con iOS 18?

Clementoni e Ammagamma: inizia la partnership di ricerca su intelligenza artificiale e gioco

Apple rilascia la patch per tre vulnerabilità zero day

Dota 2: il bot di OpenAI sconfigge quasi tutti i giocatori

Lascia un commento Annulla risposta

OnePlus 13: il nuovo smartphone punta su resistenza e design innovativo

BYD, raggiunto un nuovo traguardo: 10 milioni di veicoli plug-in prodotti

Google porta l’IA Gemini sui dispositivi Nest

Attacchi tramite codici QR: un rischio crescente per la sicurezza informatica

Bimby TM6 ora disponibile anche online: acquisti sicuri e supporto personalizzato