一、文章主要内容总结本文聚焦大型语言模型(LLMs)的人类偏好对齐评估,核心围绕“生成能力与评估能力的一致性”(GE-consistency)展开研究,具体内容如下:研究背景:LLM对齐评估需衡量模型是否有用、诚实、安全且遵循人类指令,传统方法依赖人类标注或LLM作为评判者,但存在成本高、耗时久等问题。同时,LLM的生成能力(生成符合人类偏好的响应)与评估能力(判断响应是否符合人类偏好)的关联尚未被全面探究。核心概念定义:提出“生成-评估一致性(GE-consistency)”,即通过偏好预言机(如强LLM)评估多个LLM的生成能力排名与评估能力排名之间的相关性(采用斯皮尔曼相关系数衡量)。实验验证:以GPT-4o为强偏好预言机,评估15个LLM的生成与评估能力,发现两者存在强相关性(Arena-Hard数据集上达0.971),且过滤偏好预言机不一致的样本后,相关性显著提升。扩展实验显示,更强大的LLM作为偏好预言机时,GE-consistency更高;该一致性在不同类型的指令集(如开放域、技术型)中均成立。基准测试集构建:基于GE-consistency提出ALIGNEVAL基准,无需直接评估LLM的生成输出,而是通过评估其作为评判者的表现来衡量对齐能力,降低评估成本。实验对比:ALIGNEVAL与现有基准(如AlpacaEval、Arena-H