L'intelligenza artificiale è davvero brava in logica matemat...

Apple "boccia" l'intelligenza artificiale in logica matematica thumbnail

I modelli di intelligenza artificiale hanno ancora dei limiti, ma un ambito in cui funzionano perfettamente è basare il proprio ragionamento sulla logica matematica, giusto? Sembra di no. Secondo un nuovo studio di sei ingegneri di Apple mette in luce i limiti dei Large Language Models (LLM) nell’affrontare problemi matematici di base.

L’intelligenza artificiale non è così brava nella logica matematica

I ricercatori di Apple hanno condotto un’analisi approfondita sulle capacità di ragionamento matematico dei Large Language Models (LLM). Lo studio, intitolato “GSM-Symbolic”, rivela significative lacune nelle abilità di questi sistemi di intelligenza artificiale.

Come sintetizza bene Ars Technica, i ricercatori hanno sviluppato GSM-Symbolic, una versione modificata del noto benchmark GSM8K. Questo nuovo strumento genera varianti dinamiche dei problemi matematici originali, sostituendo nomi e valori numerici. Per esempio, un problema su “Matteo che compra dieci mele per suo fratello” diventa “Marta compra otto arance per sua cugina”. Questo serve a capire se gli LLM sanno davvero ragionare, oppure se hanno imparato solo molto bene gli esempi del modello originario.

I test condotti su oltre 20 LLM all’avanguardia hanno mostrato:

Un calo generalizzato delle prestazioni su GSM-Symbolic rispetto a GSM8K, con riduzioni dell’accuratezza fino al 9,2%.
Un’elevata variabilità dei risultati tra diverse esecuzioni del test, con differenze fino al 15% per lo stesso modello.
Una maggiore sensibilità ai cambiamenti nei valori numerici rispetto alle modifiche dei nomi propri.

Risultati, quindi, che calano ma restano piuttosto buoni — soprattutto nei modelli più avanzati come ChatGPT-4o (che cala dal 95,2 al 94,9% in accuratezza). Tuttavia, l’AI da risultati decisamente peggiori quando i ricercatori hanno introdotto GSM-NoOp, una variante che aggiunge dettagli non pertinenti ai problemi. Per esempio, in un problema sulla raccolta di kiwi, hanno aggiunto che alcuni di loro erano più piccoli del normale. Questa modifica ha causato crolli drammatici nelle prestazioni, con cali di accuratezza dal 17,5% fino al 65,7%.

Anche in questo caso l’ultimo modello di OpenAI è risultato il migliore. Ma il tasso di errore del 17,5% sembra decisamente troppo alto: se una calcolatrice sbagliasse un calcolo su cinque, smetteremmo di utilizzarla.

Scopri le migliori offerte della giornata sul canale Telegram di techprincess

L’AI ragiona davvero?

I risultati suggeriscono che i LLM attuali non eseguono un vero ragionamento logico, ma si affidano principalmente al pattern matching probabilistico. Questa limitazione rende i modelli fragili di fronte a variazioni anche minime dei problemi. La capacità di “ragionamento” dipende quindi dagli enormi dataset usati per addestrare l’AI, non dal fatto che gli LLM abbiano davvero imparato la logica sottostante. Qualcosa che dipende dalla natura stessa di queste macchine: dobbiamo tenerne conto quando le utilizziamo. E, magari, ricontrollare che i processi logici siano tutti corretti.

Offerta

L'intelligenza artificiale. Una guida per esseri umani...

Mitchell, Melanie (Autore)

Ultimo aggiornamento 2024-10-06 / Link di affiliazione / Immagini da Amazon Product Advertising API

Rimani aggiornato seguendoci su Google News!

Da non perdere questa settimana su Techprincess

🎮 Che impatto avranno le elezioni americane sui videogiochi?
🚘 I gadget più strani delle case automobilistiche
🇨🇳 Un gruppo di ricercatori cinesi ha sviluppato un modello di IA per uso militare basato su Llama di Meta
🔍 ChatGPT si aggiorna e ora naviga sul web
Ma lo sai che abbiamo un sacco di newsletter?
📺 Trovi Fjona anche su RAI Play con Touch - Impronta digitale!
🎧 Ascolta il nostro imperdibile podcast Le vie del Tech
💸E trovi un po' di offerte interessanti su Telegram!

Source

Autore

Stefano Regazzi

Il battere sulla tastiera è la mia musica preferita. Nel senso che adoro scrivere, non perché ho una playlist su Spotify intitolata "Rumori da laptop": amo la tecnologia, ma non fino a quel punto! Lettore accanito, nerd da prima che andasse di moda.
Visualizza tutti gli articoli

Apple “boccia” l’intelligenza artificiale in logica matematica

L’intelligenza artificiale non è così brava nella logica matematica

L’AI ragiona davvero?

Rimani aggiornato seguendoci su Google News!

Seguici!

Autore

Lascia un commento Annulla risposta

La recensione di LEGO Horizon Adventures: un mix di mattoncini e paleopunk che incanta ma non osa

La recensione di ASUS ROG Delta II, le cuffie all work e all play

Pulsee continua a crescere (e non ha intenzione di fermarsi)

Oppo annuncia il nuovo Find X8 Pro (e non solo)

Amazon Black Friday 2024: date, migliori offerte e consigli per risparmiare

L’intelligenza artificiale non è così brava nella logica matematica

L’AI ragiona davvero?

Rimani aggiornato seguendoci su Google News!

Seguici!

Autore

Iscriviti alla newsletter

Meglio mail che tardi

Google punta su micro-reattori nucleari per alimentare l'intelligenza artificiale

La recensione di Roborock Qrevo Curv: supera ancora più ostacoli e non solo!

Ti potrebbero interessare anche:

Narrative Device: il sito che crea una storia grazie all’intelligenza artificiale

Meta lancia un progetto AI che trasforma i disegni in animazioni

My AI, il chatbot di Snapchat è ora disponibile gratuitamente per tutti

DragGAN è un’intelligenza artificiale (AI) rivoluzionaria che potrebbe soppiantare Photoshop

Lascia un commento Annulla risposta

La recensione di LEGO Horizon Adventures: un mix di mattoncini e paleopunk che incanta ma non osa

La recensione di ASUS ROG Delta II, le cuffie all work e all play

Pulsee continua a crescere (e non ha intenzione di fermarsi)

Oppo annuncia il nuovo Find X8 Pro (e non solo)

Amazon Black Friday 2024: date, migliori offerte e consigli per risparmiare