论文编号arXiv:2605.30314v1主题软件工程中规范Specification级推理的评估基准。核心发现现有的 SWE-Bench 等基准主要关注代码生成层面的推理而现实中的软件工程要求智能体具备设计、审查规范如 RFC的能力。本文提出的SpecBench专门评估智能体生成完整、无歧义、一致且正确系统规范的能力。 背景与动机 (Motivation)问题现状现有的基准如 SWE-Bench主要关注实现级推理 (Implementation-level reasoning)即从给定的、完整且正确的规范中生成代码。现实需求真实的软件工程涉及大量的规范设计 (Specification design)。初始提案通常不完整、存在缺陷需要专家审查。核心任务给定初始设计提案、代码库和历史 RFC (Request for Comments) 讨论记录。智能体必须识别规范缺陷 (Specification deficiencies)包括遗漏 (Omission)缺失必要信息。歧义 (Ambiguous)存在多种解释。不一致 (Inconsistent)与其他部分或现有系统冲突。不正确 (Incorrect)与前置信息矛盾。️ SpecBench 设计与方法 (Methodology)1. 数据来源任务源自真实世界RFC 流程中的五个多样化仓库KubernetesReactRustTVMvLLM2. 缺陷分类依据基于 IEEE Std. 1028-1997 及先前的软件规范研究Omission: 缺少必要的信息。Ambiguous: 信息有多种解释。Inconsistent: 与其他部分或现有系统存在冲突。Incorrect: 与之前的文档或信息相矛盾。3. 评估设置预测结果与从历史 RFC 线程中提取的专家验证金集 (Expert-validated golden sets)进行匹配。 关键挑战与解决方案 (Challenges Solutions)挑战解决方案人类专家差异 (Human Expert Variance)使用 LLM 专家面板对缺陷进行 5 点李克特量表评分。达成共识均值 ≥3.0 且 ≥2/3 支持的项目标记为核心 (Core)否则为扩展 (Extended)。核心项在评分中获得2× 权重。开放世界验证 (Open-World Validation)不在金集中的预测视为未评判 (unjudged)。实施有界预测预算智能体预测数量最多为金集大小的1.25×。仅金集内的预测计入分数。预测评判 (Prediction Judging)使用SPI 分解 (Subject-Predicate-Impact)标准化预测与金集。使用集成评判 (Ensemble judging)两两 LLM 评判共 4 次试验。匹配需要多数票 (≥3/4 次试验)。 评估结果 (Results)最佳表现模型Codex-5.4取得了44.4% 的准确率。整体表现所有评估模型的得分均低于45%表明在规范级推理方面仍有巨大的提升空间。核心 vs 扩展所有模型在核心项高共识上的得分均高于扩展项符合分层评分设计。仓库表现Codex-5.4在React和vLLM领域表现领先分别超出第二好系统9.5%和8.6%。评判一致性通过中位成对 Jaccard 相似度测量。未来版本将增加评判多样性和试验次数。 下一步与未来工作 (Future Work)规范修订任务扩展 SpecBench 以评估规范修订任务 (Specification revision tasks)即纠正识别出的缺陷。人类专家验证替换仅 LLM 的评审引入人类专家验证报告人类间和人类与 LLM 间的一致性如 Cohen’s κ。鲁棒性研究评估预测预算N、核心/扩展加权、评判多样性以及 SPI 匹配稳定性。数据集覆盖包括被拒绝的提案或停滞的提案并扩展生态系统Python PEPs、Linux kernel、LLVM。模型评估评估更广泛的模型/工具配置和推理设置。 附录黄金标准示例 (Appendix Highlights)Kubernetes Gang Scheduling RFC 黄金缺陷示例ID类型关键发现1核心Pod 引用不存在的 Workload 时行为未定义缺乏防止永久挂起的机制。3核心死锁避免和重试生命周期在竞争 Gangs 和部分失败情况下未明确说明。5核心调度进行中的 WorkloadSpec 字段可变性规则未定义。8核心Pod 到 PodGroup 的关联机制不明确显式字段 vs 选择器。10核心WorkloadStatus 留为 “TBD”阻碍了操作员的观测性。SPI 分解与评分示例ID主题 (Subject)缺陷类型影响 (Impact)1引用不存在的 Workload 的 Pod缺乏定义拒绝与推迟行为的区分不可调试的无限阻塞和不安全操作2Gang 级抢占语义关于优先级规则和部分 Gang 可调度性未明确说明提前抢占的工作负载导致中断 总结 (Summary)SpecBench 填补了软件智能体评估中“规范设计”的空白。通过引入基于 RFC 流程的专家验证金集和 SPI 评判分解该基准有效量化了智能体在识别和生成高质量软件规范方面的能力。实验结果表明尽管前沿模型如 Codex-5.4表现出一定的推理能力但在规范级推理上仍有显著差距尤其是在处理复杂系统如 Kubernetes时。