Un gruppo di ricercatori ha deciso di mettere alla prova l’intelligenza artificiale con una sfida insolita. Super Mario Bros, celebre platform del 1985, è diventato per l’occasione un nuovo benchmark per valutare le capacità dei modelli AI.
Super Mario come test per l’AI
L’Hao AI Lab, un centro di ricerca dell’Università della California a San Diego, ha testato alcuni dei modelli AI più avanzati facendoli giocare a Super Mario Bros.. Tra i partecipanti figurano Claude 3.7 e 3.5 di Anthropic, Gemini 1.5 Pro di Google e GPT-4o di OpenAI. Il confronto ha rivelato risultati sorprendenti.
I ricercatori hanno utilizzato GamingAgent, un framework sviluppato internamente, per permettere alle AI di controllare Mario. Il sistema ha fornito istruzioni di base come “Se un ostacolo o un nemico è vicino, muoviti o salta a sinistra per schivarlo” e screenshot in tempo reale. Le AI hanno poi generato comandi in codice Python per eseguire le mosse nel gioco.
L’Intelligenza Artificiale sa fare tante cose (ma non giocare a Super Mario)
Nonostante il supporto tecnico, Super Mario Bros. si è rivelato un ostacolo difficile da superare. I modelli hanno dovuto imparare a pianificare le mosse e adattarsi alle dinamiche del gioco. Sorprendentemente, le AI progettate per il ragionamento sequenziale hanno ottenuto risultati peggiori rispetto ai modelli standard.
Il problema principale è la velocità di elaborazione delle decisioni. I modelli che ragionano passo dopo passo impiegano diversi secondi per scegliere un’azione. In un gioco come Super Mario, dove un ritardo può significare la sconfitta, questa lentezza si è rivelata un grosso svantaggio. Modelli più diretti e reattivi, invece, hanno avuto prestazioni migliori.
My Nintendo Store da questo link – Scegli il tuo prossimo gioco
Super Mario è un benchmark affidabile?
L’uso dei videogiochi per testare l’intelligenza artificiale non è una novità, ma alcuni esperti sollevano dubbi sulla validità del metodo. Andrej Karpathy, ex direttore AI di Tesla e attuale ricercatore OpenAI, ha espresso perplessità su X: “Non so davvero quali metriche guardare in questo momento. In sintesi, non so quanto siano buoni questi modelli al momento”.
Questa incertezza solleva una questione più ampia: i benchmark tradizionali sono ancora efficaci per valutare le AI avanzate? O serve un approccio diverso per misurare le loro reali capacità?
- ALEXA PUÒ MOSTRARTI MOLTE COSE: Echo Show 5 è dotato di uno schermo da 5,5", per controllare a colpo d’occhio il...
- PICCOLE DIMENSIONI, MIGLIORI PRESTAZIONI AUDIO: ascolta la tua musica o i tuoi podcast preferiti, guarda le serie TV che...
- LA TUA CASA GESTITA IN TUTTA COMODITÀ: controlla i dispositivi per Casa Intelligente, come lampadine e termostati,...
Ultimo aggiornamento 2025-03-04 / Link di affiliazione / Immagini da Amazon Product Advertising API