摘要:
梳理大语言模型价值对齐评估的核心指标与方法,可为推动构建安全可靠的人工智能系统提供理论支持,实现大语言模型的安全部署与应用。基于有益性、无害性、诚实性和可控性的 4H 框架,对大语言模型价值对齐评估指标及研究进行梳理,可以发现:人工智能大语言模型价值对齐评估模式有静态评估(包括问答数据集测试、博弈论评估)和动态评估模式(包括红队模式的价值对齐评估、基于单一大语言模型的价值对齐评估和 Agent 模式的价值对齐评估)。两种模式的研究方法在应用场景中各有侧重,如静态评估对预设数据集的依赖性、动态评估对交互情境的适应性,也揭示了其在实践维度存在的理论局限性,如博弈情境建模的过度简化导致了评估结论与现实表现的脱离。基于此,人工智能大语言模型价值对齐评估未来研究方向应注重自动化对齐评估框架的范式创新、跨文化语境下的价值对齐评估机制构建和多模态交互场景中的价值对齐评估模式设计 3 个方面。
蒲泓宇 贺云帆 赵 星.
人工智能大语言模型价值对齐评估研究综述
[J]. 图书馆建设, 2025, 335(5): 142-.