北京大学新闻网:“数字与人文节气沙龙”(2025惊蛰篇)举行

2025年3月5日下午,“数字与人文节气沙龙”系列活动第四十期暨人工智能研究院学术沙龙第十一期在百周年纪念讲堂四季庭院举行。沙龙主题是“人工智能中的价值对齐”,旨在探讨如何确保AI的安全性与可控性并思考未来AI发展的方向。
杨耀东指出,人工智能作为当代科技发展的前沿领域,其发展速度之快和影响力之大已远超传统技术。随着人工智能在社会各领域的广泛应用,其决策和行为是否符合人类价值观成为了一个亟待解决的问题。价值对齐,即确保人工智能系统的决策和行为与人类的核心价值观保持一致,已成为数字与人文交叉研究的重要课题。
杨耀东详细介绍了人工智能价值对齐的技术路径,包括预训练与对齐的结合、基于人类反馈的强化学习(RLHF)以及多阶段对齐策略。他指出,尽管技术路径已经明确,但价值对齐仍面临诸多挑战,如价值观的多样性与动态性、模型的复杂性与不可解释性,以及对齐的边界与超对齐问题。当前的人工智能模型大多基于人类的语料进行预训练,这些语料本身反映了人类社会的复杂性和多样性,其中可能包含与人类核心价值观不一致的内容。因此,对齐过程需要在预训练的基础上,通过人类标注员的反馈和强化学习算法对模型进行优化。他认为,未来的发展方向需要加强跨学科合作,建立安全对齐框架,并探索多模态与多领域对齐的可能性。
此次沙龙活动不仅提供了一个跨学科的交流平台,也对人工智能的伦理与安全问题提供了深刻见解。在人工智能快速发展的今天,如何确保人工智能技术符合人类价值观和社会利益,已成为我们必须面对和思考的重要课题。