In che senso è stato usato Super Mario per testare l’AI?

Marco Brunasso

9 ore fa

In che senso è stato usato Super Mario per testare l'AI? thumbnail

Un gruppo di ricercatori ha deciso di mettere alla prova l’intelligenza artificiale con una sfida insolita. Super Mario Bros, celebre platform del 1985, è diventato per l’occasione un nuovo benchmark per valutare le capacità dei modelli AI.

Super Mario come test per l’AI

L’Hao AI Lab, un centro di ricerca dell’Università della California a San Diego, ha testato alcuni dei modelli AI più avanzati facendoli giocare a Super Mario Bros.. Tra i partecipanti figurano Claude 3.7 e 3.5 di Anthropic, Gemini 1.5 Pro di Google e GPT-4o di OpenAI. Il confronto ha rivelato risultati sorprendenti.

I ricercatori hanno utilizzato GamingAgent, un framework sviluppato internamente, per permettere alle AI di controllare Mario. Il sistema ha fornito istruzioni di base come “Se un ostacolo o un nemico è vicino, muoviti o salta a sinistra per schivarlo” e screenshot in tempo reale. Le AI hanno poi generato comandi in codice Python per eseguire le mosse nel gioco.

L’Intelligenza Artificiale sa fare tante cose (ma non giocare a Super Mario)

Nonostante il supporto tecnico, Super Mario Bros. si è rivelato un ostacolo difficile da superare. I modelli hanno dovuto imparare a pianificare le mosse e adattarsi alle dinamiche del gioco. Sorprendentemente, le AI progettate per il ragionamento sequenziale hanno ottenuto risultati peggiori rispetto ai modelli standard.

Il problema principale è la velocità di elaborazione delle decisioni. I modelli che ragionano passo dopo passo impiegano diversi secondi per scegliere un’azione. In un gioco come Super Mario, dove un ritardo può significare la sconfitta, questa lentezza si è rivelata un grosso svantaggio. Modelli più diretti e reattivi, invece, hanno avuto prestazioni migliori.

My Nintendo Store da questo link – Scegli il tuo prossimo gioco

Super Mario è un benchmark affidabile?

L’uso dei videogiochi per testare l’intelligenza artificiale non è una novità, ma alcuni esperti sollevano dubbi sulla validità del metodo. Andrej Karpathy, ex direttore AI di Tesla e attuale ricercatore OpenAI, ha espresso perplessità su X: “Non so davvero quali metriche guardare in questo momento. In sintesi, non so quanto siano buoni questi modelli al momento”.

Questa incertezza solleva una questione più ampia: i benchmark tradizionali sono ancora efficaci per valutare le AI avanzate? O serve un approccio diverso per misurare le loro reali capacità?

Echo Show 5 (Ultimo modello) | Schermo touch intelligente e...

ALEXA PUÒ MOSTRARTI MOLTE COSE: Echo Show 5 è dotato di uno schermo da 5,5", per controllare a colpo d’occhio il...
PICCOLE DIMENSIONI, MIGLIORI PRESTAZIONI AUDIO: ascolta la tua musica o i tuoi podcast preferiti, guarda le serie TV che...
LA TUA CASA GESTITA IN TUTTA COMODITÀ: controlla i dispositivi per Casa Intelligente, come lampadine e termostati,...

Apple pronta al lancio dei nuovi MacBook Air con chip M4: cosa aspettarsi questa settimana

Ultimo aggiornamento 2025-03-04 / Link di affiliazione / Immagini da Amazon Product Advertising API