fbpx
Facebook poker intelligenza artificiale

L’AI di Facebook impara a giocare a Poker
ReBel riqualifica gli algoritmi per tenere conto di stack di chip arbitrari o dimensioni di scommessa impreviste


I ricercatori di Facebook hanno sviluppato un framework di intelligenza artificiale chiamato Recursive Belief-based Learning (ReBeL) in grado di giocare a Poker.

ReBeL è un passo verso lo sviluppo di tecniche universali per le interazioni multi-agente. Le applicazioni vanno dalle vendite all’asta, alle trattative e alla sicurezza informatica, dalle auto e ai camion con guida autonoma. La combinazione dell’apprendimento per rinforzo  durante l’addestramento del modello AI e i tempi dei test ha portato a numerosi progressi. L’apprendimento per rinforzo è il luogo in cui gli agenti imparano a raggiungere gli obiettivi massimizzando i premi, mentre la ricerca è il processo di navigazione dall’inizio fino all’obiettivo.

Facebook amplia le conoscenze dello stato del gioco nel poker

L’approccio combinatorio  di rinforzo e ricerca, già utilizzato in giochi come gli scacchi, subisce una penalità per le prestazioni quando viene applicato a giochi con informazioni imperfette e ipotetiche come il poker. Il valore di ogni azione dipende dalla probabilità che sia stata scelta e, più in generale, dall’intera strategia di gioco. I ricercatori di Facebook hanno proposto ReBeL come soluzione dato che si basa sull’ampliamento dello “stato del gioco” per includere le conoscenze comuni e alle politiche di altri agenti. ReBeL addestra due modelli di intelligenza artificiale – una rete di valori e una rete di politiche – per gli stati attraverso l’apprendimento del rinforzo in auto-gioco.

Ad alto livello, ReBeL opera su stati di credenza pubblica piuttosto che su stati del gioco. Gli stati di credenza pubblica (PBS) generalizzano la nozione di “valore statale” a giochi di informazione imperfetta come il poker. Una PBS è una distribuzione di probabilità di conoscenza comune su una sequenza finita di possibili azioni e stati, chiamata anche storia. Una PBS nel poker è l’array di decisioni che un giocatore può prendere e i suoi risultati dati una mano, un piatto e delle chips.

L’algoritmo Facebook  ricerca un equilibrio

L’algoritmo vince eseguendo iterazioni di un algoritmo di “ricerca di equilibrio” e utilizzando la rete di valori addestrata per approssimare i valori su ogni iterazione. Attraverso l’apprendimento per rinforzo, i valori vengono scoperti e aggiunti come esempi di addestramento per la rete di valori e le politiche nel sottogioco.

I ricercatori Facebook hanno confrontato ReBeL sui giochi heads-up no-limit di poker Texas Hold’em, Liar’s Dice e  endgame hold’em, che è una variante del no-limit hold’em in cui entrambi i giocatori controllano o chiamano per i primi due di quattro giri di puntate.

Sono state utilizzate 128 PC e otto schede grafiche ciascuno per generare dati di gioco simulati e randomizzare le dimensioni della scommessa e dello stack (da 5.000 a 25.000 chip). ReBeL è stato allenato contro Dong Kim, che è considerato uno dei migliori giocatori di poker heads-up al mondo,.ReBeL ha giocato più velocemente di due secondi per mano su 7.500 mani e non ha mai avuto bisogno di più di cinque secondi per una decisione.

I risultati dell’algoritmo nel poker

Nel complesso, ha segnato 165 millesimi di una big blind (scommessa forzata) per partita contro gli umani con cui ha giocato. Il precedente sistema di gioco del poker di Facebook, Libratus,  ha raggiunto il massimo a 147 millesimi. I codici ReBeL poker verrano implementati per Liar Dice, che secondo gli sviluppatori è  più facile da capire e da regolare.

Gli stessi hanno affermato: “Sebbene esistano già algoritmi AI che possono raggiungere prestazioni sovrumane nel poker, questi algoritmi generalmente presuppongono che i partecipanti abbiano un certo numero di chip o utilizzino determinate dimensioni di scommessa. Riqualificare gli algoritmi per tenere conto di stack di chip arbitrari o dimensioni di scommessa impreviste richiede un calcolo maggiore di quanto sia fattibile in tempo reale. Tuttavia, ReBeL può calcolare una politica per dimensioni dello stack arbitrarie e dimensioni delle scommesse arbitrarie in pochi secondi.”


Team di redazione

author-publish-post-icon
L'account della redazione di Tech Princess e Tech Business.
                   










 
Sì, iscrivimi alla newsletter!
close-link