大语言模型需要对齐人的价值观,同时要符合道德、法律层面的约束。
北京大学团队开源了名为 PKU-Beaver(河狸)项目,其开源地址为:https://github.com/PKU-Alignment/safe-rlhf
大语言模型在智能问答上体现出了惊艳的效果。如果利用大语言模型中的通识辅助智能决策是迈向通用人工智能的关键步骤。本讲中,杨耀东老师将会介绍决策模型序列化的工作以及决策模型与大语言模型的对齐问题。相关技术在灵巧手操作、我的世界中已取得重要进展。
通过强化学习方法求解多智能体博弈合作问题具有众多的现实应用,例如灵巧双手操纵、无人机群编队等。在本次分享中,杨耀东老师将会介绍一个通用的基于多智能体强化学习技术的合作博弈求解框架:多智能体镜像学习 (Heterogeneous Multi-Agent Mirror Learning)。
近年来,求解复杂双人零和博弈在强化学习的技术加持下取得了一系列的重要突破,在游戏AI等实际应用中取得了超人的效果。本次分享将介绍一个通用零和博弈的求解框架以及近期的一些进展和思考。