I ricercatori di Facebook hanno sviluppato un framework di intelligenza artificiale chiamato Recursive Belief-based Learning (ReBeL) in grado di giocare a Poker.
ReBeL è un passo verso lo sviluppo di tecniche universali per le interazioni multi-agente. Le applicazioni vanno dalle vendite all’asta, alle trattative e alla sicurezza informatica, dalle auto e ai camion con guida autonoma. La combinazione dell’apprendimento per rinforzo durante l’addestramento del modello AI e i tempi dei test ha portato a numerosi progressi. L’apprendimento per rinforzo è il luogo in cui gli agenti imparano a raggiungere gli obiettivi massimizzando i premi, mentre la ricerca è il processo di navigazione dall’inizio fino all’obiettivo.
Facebook amplia le conoscenze dello stato del gioco nel poker
L’approccio combinatorio di rinforzo e ricerca, già utilizzato in giochi come gli scacchi, subisce una penalità per le prestazioni quando viene applicato a giochi con informazioni imperfette e ipotetiche come il poker. Il valore di ogni azione dipende dalla probabilità che sia stata scelta e, più in generale, dall’intera strategia di gioco. I ricercatori di Facebook hanno proposto ReBeL come soluzione dato che si basa sull’ampliamento dello “stato del gioco” per includere le conoscenze comuni e alle politiche di altri agenti. ReBeL addestra due modelli di intelligenza artificiale – una rete di valori e una rete di politiche – per gli stati attraverso l’apprendimento del rinforzo in auto-gioco.
Ad alto livello, ReBeL opera su stati di credenza pubblica piuttosto che su stati del gioco. Gli stati di credenza pubblica (PBS) generalizzano la nozione di “valore statale” a giochi di informazione imperfetta come il poker. Una PBS è una distribuzione di probabilità di conoscenza comune su una sequenza finita di possibili azioni e stati, chiamata anche storia. Una PBS nel poker è l’array di decisioni che un giocatore può prendere e i suoi risultati dati una mano, un piatto e delle chips.
L’algoritmo Facebook ricerca un equilibrio
- Tendler, Jared (Autore)
Ultimo aggiornamento 2024-10-06 / Link di affiliazione / Immagini da Amazon Product Advertising API