人工智能大语言模型价值对齐评估研究综述

同行评审期刊/全国中文核心期刊/中国人文社会科学核心期刊/中文社会科学引文索引来源期刊

文章快速检索

图书馆建设 ›› 2025, Vol. 335 ›› Issue (5): 142-.

人工智能大语言模型价值对齐评估研究综述

出版日期:2025-09-15 发布日期:2025-12-08

Online:2025-09-15 Published:2025-12-08

摘要/Abstract

摘要：

梳理大语言模型价值对齐评估的核心指标与方法，可为推动构建安全可靠的人工智能系统提供理论支持，实现大语言模型的安全部署与应用。基于有益性、无害性、诚实性和可控性的 4H 框架，对大语言模型价值对齐评估指标及研究进行梳理，可以发现：人工智能大语言模型价值对齐评估模式有静态评估（包括问答数据集测试、博弈论评估）和动态评估模式（包括红队模式的价值对齐评估、基于单一大语言模型的价值对齐评估和 Agent 模式的价值对齐评估）。两种模式的研究方法在应用场景中各有侧重，如静态评估对预设数据集的依赖性、动态评估对交互情境的适应性，也揭示了其在实践维度存在的理论局限性，如博弈情境建模的过度简化导致了评估结论与现实表现的脱离。基于此，人工智能大语言模型价值对齐评估未来研究方向应注重自动化对齐评估框架的范式创新、跨文化语境下的价值对齐评估机制构建和多模态交互场景中的价值对齐评估模式设计 3 个方面。

蒲泓宇　贺云帆　赵　星.

人工智能大语言模型价值对齐评估研究综述

[J]. 图书馆建设, 2025, 335(5): 142-.

人工智能大语言模型价值对齐评估研究综述

PDF (PC)

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 0

编辑推荐

Metrics

本文评价