MIT科技评论:将GPT-4安全性提升26%以上,北大团队提出AI对齐新范式,能充当大模型的“补丁”

这款对齐器能将 GPT-4 的帮助性提升 17.5%、无害性提升 26.9%。

“我们提出对齐器这种对齐新范式之后,获得了许多业界公司的广泛关注。发布仅一个月,多家科技公司已经开始使用这款对齐器的训练范式,来进行多场景的下游应用对齐任务。

对齐器的模型轻量、训练高效及对大模型参数无感的特性,使其有望成为大模型对齐领域中的新的替代者。”北京大学人工智能研究院杨耀东研究员表示。

报道链接