随着 AI 的发展,多智能体强化学习已经成为领域内的重要研究方向之一。
与单智能体强化学习相比,多智能体强化学习不仅需要对环境进行探索,还需要考虑其他玩家的策略变化,由此产生的额外的非平稳性往往会给开发者带来更大的挑战。
而要想提出一个好算法,首先需要一个好的基准测试框架,以便统一衡量各个算法在一系列具有代表性的任务上的性能。
例如,在单智能体强化学习中,研究者经常使用 Atari 游戏和 MuJoCo 机器人控制任务,来测试算法的表现,并以此为基础提出了一系列基准测试框架。
日渐完善的基准测试框架,也促使研究者们设计出更加通用、更加高效的单智能体强化学习算法。
举例来说,近端策略优化因其在各个基准测试上的卓越表现,已经成为目前最常用的强化学习算法之一。
清华大学本科毕业生、美国普林斯顿大学博士生李文哲和所在团队注意到:在多智能体方向上,大部分基准测试框面向合作型多智能体场景。
少部分基准测试框专门面向竞争型场景的基准测试,并且大多基于状态动作空间较为简单的游戏(比如棋牌类游戏等)。
另一方面,竞争型多智能体强化学习在算法层面上已经取得了很大的进展,研究者们曾基于不同的场景(如扑克、麻将、星际争霸等)提出了一系列算法,其中一些算法甚至超过了人类专家的表现。
在这一背景下,该课题组认为应该为竞争型多智能体强化学习这一方向提供一个统一的基准测试框架。
2023 年 6 月,该团队启动了本次课题。一开始,他们本想尝试直接设计一个更好的竞争型多智能体强化学习算法。
但是,经过调研之后他们发现已有的测试基准并不能充分满足他们的需求。
因此,他们开始着手研究如何设计一整套测试基准,这就需要厘清模拟环境是什么、评价指标怎么定、基线算法如何选择和实现等。
后来,他们发现双人格斗游戏是一个非常理想的测试环境。它不仅具备丰富的策略自由度,并能在模拟器中快速运行。
由于本次平台是围绕双人格斗游戏开发而来,在调试时经常需要以可视化的方式,来观察该平台所习得策略的表现。
李文哲说:“看 AI 与游戏内置的策略对打十分有意思,时常会出现一些意想不到的局面,但深入思考后又往往能够理解原因所在。”
为了更好地完成本次研究,李文哲曾专门向精通格斗游戏的同学请教,借此了解了格斗游戏的各种机制,后来他也经常与自己训练的 AI“实战演练”。
同时,他和其他组员从最基础的竞争型两人博弈场景出发,基于市面上流行的双人格斗游戏(如上图),推出了基准测试框架 FightLadder。
与此同时,他们提出了一系列由博弈论支撑的评价标准以公平地比较各个算法。
并针对目前一系列的 state-of-the-art 算法进行了比较。目的就是希望 FightLadder 能够成为竞争型多智能体强化学习领域的垫脚石,并能填补竞争型多智能体强化学习平台的空白。
日前,相关论文以《FightLadder:一个竞争型多智能体强化学习的基准测试框架》(FightLadder:A Benchmark for Competitive Multi-Agent Reinforcement Learning)为题发表在机器学习领域顶会 ICML (International Conference on Machine Learning,国际机器学习大会)2024[1]。
图 | 相关论文(来源:arXiv)
李文哲是第一作者,其他作者还有普林斯顿大学博士生丁子涵、普林斯顿大学博士生赛特·卡腾(Seth Karten)和普林斯顿大学教授金驰。
该团队表示,FightLadder 的主要作用旨在推动竞争型多智能体强化学习算法层面上的发展。
竞争型多智能体强化学习算法具有广阔的应用前景,比如用于各类游戏之中。
除此之外,这些算法也可被用来寻找博弈论中的纳什均衡策略并模拟经济学行为。
课题组指出,最近也有一些学者运用多智能体对抗训练的思想来提升大模型的能力。“这些都是非常有趣的研究方向。”李文哲表示。
后续,他们希望基于 FightLadder 这一基准测试框架,开发更加通用、更加高效的竞争型多智能体强化学习算法。
在李文哲眼中,“通用”可能包含以下几个方面:一是不局限于某个特定场景,而是在大部分场景下都适用;二是不仅适用于两人博弈,同时也适用于多人博弈;三是能够自适应对手的策略变化。
“高效”则是指算法通过与环境较少的交互就能达到较高的水平。
更具体地说,他们希望通过类似于自我博弈的方式开发出一个智能体,使其能在多种格斗游戏上都能达到甚至超越顶尖人类玩家的水平。
参考资料:
1. https://proceedings.mlr.press/v235/li24q.html
2.https://sites.google.com/view/fightladder/home
运营/排版:何晨龙
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有