Deep learning et apprentissage par renforcement
pour la conception d'une Intelligence Artificielle
pour le jeu Yokai No Mori
David Roche
Le texte ci-dessous est l'introduction d'un document rédigé par David Roche. L'ensemble du document est en ligne sur le site de l'EPI :
https://www.epi.asso.fr/revue/articles/a1905d.pdf. Il s'adresse aux collègues qui aimeraient en savoir plus sur la notion d'apprentissage par renforcement (avec utilisation d'un réseau de neurones convolutifs).
En 1997 le super ordinateur d'IBM, Deep Blue, battait le champion du monde d'échec Gary Kasparov pour la première fois (quatre parties à deux). Deep Blue utilisait un algorithme relativement classique, l'algorithme Minimax couplé avec une énorme base de données de 60 000 parties.
Il a fallu attendre presque 20 ans pour voir l'ordinateur s'imposer face au multiple champion du monde de Go, Lee Sedol. Pourquoi tant de temps ? Simplement parce que le jeu de Go (figure 1) n'est pas adapté aux méthodes algorithmiques « classiques » comme Minimax. Ce jeu est beaucoup plus complexe avec notamment un nombre de coups possibles qui dépasse l'entendement (10170). Il est aussi extrêmement difficile de déterminer si une position donnée est plutôt favorable aux blancs ou plutôt favorable aux noirs.
Figure 1 : Jeu de Go.
David Silver et son équipe (figure 2) de la société Deep Mind ont donc dû mettre au point de nouvelles méthodes afin de développer un programme capable de rivaliser avec les meilleurs joueurs de Go de la planète. AlphaGo, le programme qui a battu Lee Sedol (quatre parties à une), utilise deux réseaux de neurones et une recherche arborescente de Monte-Carlo, le tout utilisé pour faire de l'apprentissage par renforcement [1].
Figure 2 : Équipe AlphaGo de Deep Mind.
AlphaGo Zero [2] est une évolution majeure d'AlphaGo. En effet, avec AlphaGo, une partie de l'entraînement des réseaux de neurones était réalisée grâce à une base de données de parties de Go réalisées par des experts humains. AlphaGo Zero n'utilise aucune connaissance humaine préalable, seules les règles du jeu sont programmées. AlphaGo Zero a très rapidement pris le dessus sur AlphaGo, montrant l'intérêt de ce système.
Fin 2017 une équipe de DeepMind, toujours dirigée par David Silver, a appliqué les concepts mis au point avec AlphaGo Zero afin de créer une intelligence artificielle (AlphaZero) capable de jouer aux Échec et au Shogi [3] avec, ici aussi, un succès remarquable.
Dans ce projet nous allons utiliser les recherches menées pour AlphaZero, afin de mettre au point une intelligence artificielle capable de joueur au Yokai No Mori. Dans un premier temps nous effectuerons des rappels sur les principales notions utilisées dans AlphaZero : l'apprentissage par renforcement, les réseaux neuronaux profonds et les arbres de recherche de Monte-Carlo.
Ensuite, nous nous intéresserons à l'implémentation des algorithmes utilisés dans AlphaZero. Enfin, après avoir exposé le principe du jeu Yokai No Mori, nous adapterons ces algorithmes afin de créer une intelligence artificielle capable de jouer au Yokai No Mori.
David Roche
Cet article est sous licence Creative Commons BY-SA (Attribution - Partage dans les Mêmes Conditions).
http://creativecommons.org/licenses/by-sa/2.0/fr/
NOTES
[1] David Silver and Aja Huang. Mastering the game of go with deep neural networks and tree search. Nature, 529 :484–489, janvier 2016.
[2] David Silver, Julian Schrittwieser, and Karen Simonyan. Mastering the game of go without human knowledge. Nature, 550 :354–358, octobre 2017.
[3] David Silver, Thomas Hubert, and Julian Schrittwieser. Mastering chess and shogi by self-play with a general reinforcement learning algorithm, décembre 2017.
|