林海onrush (2023-05-31 22:41):
#paper,Mastering the Game of Stratego with Model-Free Multiagent Reinforcement Learning,DOI: 10.1126/science.add4679,强化学习在军事战略模拟领域的尝试如何?作者团队给出了一个可行的思路:如何使用无模型的多智能体强化学习来掌握战略游戏Stratego。本文提出了DeepNash,一个能够学习玩不完美信息游戏Stratego1从零开始,直至达到人类专家的水平。战略游戏是人工智能尚未掌握的少数标志性棋盘游戏之一。(AI)还没有掌握的少数标志性棋盘游戏之一。这个流行的游戏有一个巨大的游戏树10535个节点,也就是说,比围棋大0175倍。它有它还有一个额外的复杂性,就是需要在不完美的信息下进行决策。在tratego中,决策是在大量没有明显的离散行动的情况下做出的。行动和结果之间没有明显的联系。情节很长,在玩家获胜之前往往有几百步棋,而且战略游戏中的情况不容易被分解为可管理的大小的子问题。由于这些原因,几十年来《策略》一直是人工智能领域的一个巨大挑战,而现有的人工智能方法几乎没有达到业余水平。业余水平的游戏。DeepNash使用了一种游戏理论的、无模型的深度强化学习方法,不需要搜索,它通过自我游戏来学习掌握Stratego。正则化纳什动力学(R-aD)算法是DeepNash的一个关键组成部分,它收敛到一个近似的纳什均衡,通过直接修改基础的多Agent学习动态性。DeepNash击败了Stratego中现有的最先进的人工智能方法。并在Gravon游戏平台上取得了年度(2022年)和历史上前三名的成绩。平台上取得了年度(2022年)和历史上的前三名,与人类专家玩家竞争。本文的工作很有意思,有进一步探索的空间。个人认为此思路在MOBA类游戏中有很强的可拓展性。
Mastering the game of Stratego with model-free multiagent reinforcement learning
翻译
Abstract:
We introduce DeepNash, an autonomous agent that plays the imperfect information game Stratego at a human expert level. Stratego is one of the few iconic board games that artificial intelligence (AI) has not yet mastered. It is a game characterized by a twin challenge: It requires long-term strategic thinking as in chess, but it also requires dealing with imperfect information as in poker. The technique underpinning DeepNash uses a game-theoretic, model-free deep reinforcement learning method, without search, that learns to master Stratego through self-play from scratch. DeepNash beat existing state-of-the-art AI methods in Stratego and achieved a year-to-date (2022) and all-time top-three ranking on the Gravon games platform, competing with human expert players.
翻译
回到顶部