TechBeat 2022: 一个合作博弈的通用求解框架
通过强化学习方法求解多智能体博弈合作问题具有众多的现实应用,例如灵巧双手操纵、无人机群编队等。在本次分享中,杨耀东老师将会介绍一个通用的基于多智能体强化学习技术的合作博弈求解框架:多智能体镜像学习 (Heterogeneous Multi-Agent Mirror Learning)。
HAML 提供了一个通用的算法设计范式,它可以催生出一系列的有效的合作博弈求解算法例如 HAPPO, HATRPO, MACPO, Mutli-agent Transformer 等,并且HAML 算法框架中的成员都天然具有严格的单调递增性的保证。此外,HAML 框架还提供了一系列新的多智能体算法,例如 HADDPG, HADQN, HAA3C。在一系列合作博弈场景,例如星际争霸,灵巧双手操作上,他们都达到了 SOTA 水平。