AI Agents 输出质量的真正战场，已经不是模型本身了

张

张建站

2026/4/19 0:31:47

10分钟阅读

在 AI 工程一线越来越多的团队把 Claude Code、Cursor、Codex、OpenCode 或者 DeepAgent CLI 当成日常生产力武器。模型生成代码的速度确实惊人可真正把任务推到生产环境时经常出现同一幕第一版代码看起来结构清晰跑起来却满是幻觉、遗漏边缘 case、上下文污染导致的低级错误。返工量不减反增团队开始抱怨“这个 Agent 又 Slop 了”。这不是模型不够聪明而是 Harness——那个包裹在 LLM 外面的脚手架——没有把模型的智能真正转化为可控的生产力。模型负责思考Harness 负责让思考落地管理无状态的上下文、路由工具调用、设置 guardrails。缺少好的 Harness模型再强也只能在“dumb zone”里打转。我起初也和很多人一样认为模型能力就是全部。后来真正去贡献和使用开源 HarnessRoo Code、DeepAgent CLI、HumanLayer才发现真正拉开差距的是那些看似琐碎却决定一切的配置细节。就像工业革命时期的蒸汽机引擎再强劲如果没有配套的传动系统和控制杆整个工厂依然转不起来。为什么“指令预算”成了 Agent 最大的隐形杀手前沿 LLM 只能可靠遵循几百条指令再多就会进入“dumb zone”——相关指令被淹没模型开始幻觉。ETH 的研究也印证了这一点让 LLM 自己生成系统 Prompt反而会让性能下降同时推理成本高出约 20%。因此全球系统 PromptCLAUDE.md 或 AGENTS.md必须由人亲手写而且极度精简。只描述项目本质、最终用户画像每一个 token 都要为存在而战。把所有“可能需要”的规则一股脑塞进去反而会挤占宝贵的 reasoning window。你不可能把所有参考书同时摊开在桌面上那只会让你找不到真正需要的那一本。正确的做法是把书按主题放进书架只在需要时抽出来——这就是 Progressive Disclosure 的精髓。Progressive Disclosure 在三种主流接口上的真实落地CLI模型第一次接触公司内部工具时没有任何训练数据。这时不要把完整文档塞进上下文而是让 Agent 自己跑uv --help、mycli deploy --help来按需发现。只需要在系统 Prompt 里加一句“用 uv 管理 Python 包先跑 uv --help 再决定子命令”就能让上下文保持干净。Skills行业已达成共识。启动时只加载技能名称和简短描述只有 Agent 判断需要时才读取完整的 SKILL.md。这套机制在 Claude Code、Codex、OpenCode 里都被明确称为 Progressive Disclosure能把上下文占用压到最低。MCP Tools差异最大。Claude Code 在会话开始时只加载轻量索引按需拉取完整 schemaAnthropic 称可减少 85% 以上上下文而 Codex 和 OpenCode 则一次性加载所有工具定义。因此要主动筛选项目相关的 MCP Server写出关键词丰富、描述精准的 tool description同时及时断开无关工具。R.P.I. 框架把 Staff Engineer 的思考方式翻译给 Agent配置干净后Prompt 结构就成了下一道关卡。HumanLayer 提出的 R.P.I. 框架Research → Plan → Implement正是把顶级工程师的习惯固化成了可重复流程Research只给问题陈述让 Agent 探索代码库、函数关系、历史决策不允许执行任何改动。PlanAgent 输出详细执行计划人类必须主动审查——这一步偷懒后面的代价会成倍放大。Implement在全新上下文窗口执行已批准的计划。如果计划复杂就用 Subagent 拆分避免中间状态污染主窗口。这本质上是把“先想清楚、再动手、让人 review”的工程师纪律翻译成了 Prompt 层面的抽象。Subagent 才是保持主上下文“聪明区”的终极武器核心判断标准很简单当任务的中间过程总结后足以让主 Agent 继续时就该用 Subagent。主 Agent 只需最终结果不需要知道每一条 log、每一次迭代。两种经典模式Parallel Fan-out适合调查类任务。主 Agent 提出三个根因假设同时拉起三个 Subagent 并行挖掘日志、trace、metrics最后只拿回三份总结速度更快、噪声完全隔离。Pipeline适合需要深度多视角的任务。依次经过 UX 评估、架构审查、魔鬼代言人压力测试每一步只传递上一阶段输出主 Agent 最终拿到的是层层提炼后的高质量结论。我起初觉得 Subagent 是锦上添花后来在实际项目里发现它才是让主窗口始终保持在 frontier model “smart zone”的唯一方法。Harness 配置的真实权衡矩阵配置维度常见错误做法正确做法生产验证长期生产力影响系统 PromptLLM 生成或塞满所有规则人工精简、人写、每 token 必争避免进入 dumb zone幻觉率骤降上下文加载启动时全量加载所有工具/文档Progressive Disclosure 按需拉取上下文占用减少 80%推理更可靠Prompt 结构一次性让 Agent 思考执行严格 R.P.I. 分阶段人类 Review Plan决策质量接近 Staff EngineerSubagent 使用全部放在主窗口仅委托“总结后够用”的子任务主上下文干净复杂任务可扩展Harness 选择频繁切换尝试新工具选一个深度定制失败即迭代记录累积团队 institutional knowledge为什么 Harness 才是 AI 时代工程师判断力真正的放大器模型是智力来源Harness 才是让智力变得有用的那层脚手架。真正稀缺的不是提示词技巧而是愿意把每一次失败都记录下来、喂回 .md 文件、持续迭代同一个 Harness 的工程师心态。换 Harness 就像换 IDE新鲜感过后问题还是那些问题只是踩坑日志从零开始。下一次你启动 AI Agent 之前不妨先问自己我的 Harness 真的把上下文控制在了模型的“聪明区”吗还是只是在用更快的 Slop 生成器我是紫微AI在做一个「人格操作系统ZPF」。后面会持续分享AI Agent和系统实验。感兴趣可以关注我们下期见。

银行数据中心基础设施建设与运维管理【2.0】

4. 4 UPS 系统 4. 4. 1 基础知识不间断电源（Uninterruptable Power Supply， UPS）是能够实现两路电源之间不间断地相互切换的电气装置。从严格意义上讲， UPS 不是一种电源，因为它不是依靠能量形式的转换来提供电能，而只是提供一种两路电源之间不间断互相切换的机…...

2026/4/19 0:30:41 阅读更多 →