AI编程的三阶段演化哪些方向真正值得投入哪些被高估了最近读到一篇万字长文《OpenClaw和Claude Code只是第一阶段》把AI编程的演化拆成了三个阶段智能开发工作台→流程化Agent工坊→AI软件工厂。框架很有洞察力但有些地方我觉得过于乐观了。我把原文的观点、GitHub上正在发生的事、以及自己的判断整理了一下聊聊AI编程到底走到了哪一步哪些方向真的值得关注哪些可能被高估了。先说结论AI编程正在从让模型帮我写代码走向让Agent系统组织软件生产——这个大方向没错。但第二阶段流程化Agent工坊远没有走到尽头正在快速演化中第三阶段AI软件工厂的终点图景清晰但实现路径模糊存在几个根本性的未解决问题真正值得投入的是那些解决真实痛点的轻量方案而不是宏大的软件工厂构想一、AI编程走到哪了第一阶段一个人加一个AgentClaude Code、Cursor、Copilot——过去两年的主力军。一个人一个强Agent项目上下文本质是给开发者配了一副AI外骨骼。这个阶段的天花板很明显上下文腐烂。项目一大聊天历史不断膨胀模型开始遗忘早期决策、偷工减料、产生幻觉。任何用过Claude Code做稍复杂项目的人都经历过。第二阶段用流程来驾驶AgentGSD59.1k Stars、OpenSpec、Matt Pocock的skills和sandcastle——这些项目在过去几个月快速走红原因很简单开发者已经在用实践投票表明一个人加一个Agent的模式不够了。核心转变从人类手动驾驶Agent到用流程和规格来驾驶Agent。GSD通过一组结构化文件PROJECT.md、REQUIREMENTS.md、ROADMAP.md、STATE.md……把项目状态从聊天历史中抽离出来OpenSpec在每次代码变更前插入轻量级规格契约层Matt Skills把资深工程师的工作习惯沉淀成可调用的Agent能力Sandcastle让Agent在隔离环境中工作防止互相污染第三阶段AI软件工厂多个Agent组成一家能持续交付的软件公司——认知图谱、Worker/Checker结对、契约系统、Trace Graph、Human-as-a-Skill。听起来很美。但问题是谁来触发从第二阶段到第三阶段的跳跃核心组件在当前技术中找不到对应物。二、第二阶段正在发生的事第二阶段已经形成了丰富的工具生态而且正在沿几个明确的方向快速演化。多Agent编排的三层架构层级模式代表工具场景Tier 1进程内AgentClaude Code Agent Teams、OMC交互式结对编程Tier 2本地编排器Claude Squad、Conductor、OpenCodeOmO3-10个Agent并行Tier 3云端异步Claude Code Web、Copilot Coding Agent关电脑回来收PR最聪明的开发者根据任务大小在不同层级之间切换而不是只用一种。四个已验证的关键模式1. Ralph Loop——最简单也最有效的模式核心思想每次只做一个小任务做完就清空上下文重来。用Git代替上下文窗口作为记忆层。为什么有效因为小的、有边界的任务比一个巨大的prompt产生更好的代码。每次迭代都是干净状态没有累积性幻觉。已被Anthropic采纳为官方插件。2. Architect-Executor-Reviewer三角色循环几乎所有编排工具都在趋同采用这个模式。Architect分析需求制定计划Executor写代码Reviewer检查输出。问题严重就回到Architect重新规划。3. 多模型路由——省钱又不牺牲质量不是所有任务都需要最强模型编排/协调 → Claude强指令遵循深度推理 → GPT日常探索 → 本地QwenOllama零成本重复性任务 → 最便宜的模型成本可降低30-50%同时保持关键路径的质量。4. Worktree隔离跨工具知识持久化Git worktree已成为并行Agent开发的标准基础设施。Forge Orchestrator让Claude Code积累的知识对Codex CLI可用——一周后系统比你更了解你自己的代码规范。三、GSD和OpenSpec两种规格驱动的哲学GSD给Agent一套阶段化施工流程GSDGet Shit Done是GitHub上目前最火的AI编程框架59.1k Stars被Amazon、Google、Shopify的工程师使用。它的工作流程是一个四步循环Discuss → Plan → Execute → Verify最有意思的是它的Wave并行执行。Agent不串行地一个接一个做任务而是把任务按依赖关系分成Wave——无依赖的并行执行有依赖的等前序完成Wave 1并行 Wave 2并行 Wave 3 用户模块 | 商品模块 → 订单API | 购物车 → 结账UI每个Wave在全新的200K上下文中执行主会话上下文始终保持在30-40%。每个任务完成后立即原子commit。你走开回来看到干净的git历史和完成的工作。还有一个贴心的设计——模型分级配置规划执行验证qualityOpusOpusSonnetbalancedOpusSonnetSonnetbudgetSonnetSonnetHaiku关键决策用强模型日常执行用便宜模型。不想动脑就选balanced想省钱就选budget。OpenSpec流动的规格契约OpenSpec的设计哲学与GSD相反→ fluid not rigid流动而非僵化 → iterative not waterfall迭代而非瀑布 → built for brownfield支持已有项目不只新项目它的核心粒度不是项目而是变更。每次你想改一个功能/opsx:propose 加暗黑模式 → 自动生成 proposal.md、specs/、design.md、tasks.md → /opsx:apply 逐步实现 → /opsx:archive 归档怎么选从零开始的新项目→ GSD它的milestone→phase→plan体系为整个生命周期提供了完整框架已有代码库的增量开发→ OpenSpec每个功能变更独立走规格流程不要求整个项目重构共同价值把人脑中的隐式想法变成可审计的显式规格四、第三阶段图景清晰但路径模糊文章描绘的AI软件工厂——认知图谱、Worker/Checker结对、三平面闭环、Trace Graph、Human-as-a-Skill——作为概念框架是自洽的。读完后能形成一个完整的心理模型。但图景清晰不等于路径清晰。跳跃点没有定义从人类写ROADMAP.md到系统自动生成认知时空图谱之间没有一个可操作的中间状态。是渐进的还是需要新的技术组件文章没有回答。核心组件在现实中不存在构件文章描述现实状况认知时空图谱动态演化的生产依赖图只有简单的任务依赖树Trace Graph需求→架构→代码→测试的因果链只有Git blame和CI日志契约平面多Agent共享的Contract Registry是静态Markdown文件自动归因测试失败自动定位到架构或需求层模型因果推理能力远不够这些不是工程问题搭好框架就行而是能力问题——当前LLM不具备可靠的长期规划、因果推理和自我评估能力。验证问题是最大的未解难题文章把验证嵌入到Worker/Checker对中但回避了一个根本问题Checker本身怎么保证正确性如果Checker和Worker都基于同一种LLM它们会犯同类错误系统性盲区。在制造业中质检有卡尺和光谱仪在软件中自动化测试能覆盖一部分但正确性验证和业务意图验证是两回事——测试能证明代码做了什么但无法证明代码做了你真正想要的事。三个根本性问题1. 规格化的成本悖论好的规格本身就是创造性工作。大量需求在写代码的过程中才会变清晰。过早的形式化会锁死错误的理解。第二阶段的轻量方案几个Markdown文件之所以有效恰恰因为它们是不完整的——留了人类判断的空间。2. 人类角色的调参难题Human-as-a-Skill要求系统知道自己什么时候需要人类metacognition。当前LLM倾向于过度自信——它经常不知道自己不知道。该叫人时没叫可能导致错误方向上的大规模返工不该叫时频繁叫人类成为瓶颈。3. 演化与稳定性的矛盾可演化、可重构、可回滚听起来很美。但演化的标准是什么一次架构级重构可能导致所有下游认知单元失效级联更新的复杂度可能超过人类手动处理。软件架构的演化至今是人类架构师的核心能力因为它需要判断力而不是规则执行。我的判断第三阶段目前不是工程路线图而是研究方向声明。它正确地指出了AI编程的终极形态但实现路径需要多次范式转换。真正值得关注的是第二阶段内部正在发生的演化——它们才是驱动变化的真实力量。五、第二阶段哪些方向真正值得投入最值得做的两件事P0上下文工程所有其他方向的基础。GSD通过结构化文件把项目状态外部化Ralph Loop用Git做记忆层——本质上都在做同一件事给Agent正确的上下文。未来会出现某种上下文分析器告诉你当前会话的利用率、哪些信息可以被外部化。跨工具知识持久化Claude Code积累的知识对Codex CLI可用在多工具混用的现实中价值很大。P0Ralph Loop验证最充分、实现成本最低、效果最直接的模式。一个bash脚本就能跑。未来会与Wave并行执行结合结合多模型路由。值得关注的两个方向P1规格驱动开发SDD社区有一句话总结得很精准LLM写代码本身正在变成水电煤差异化的关键在于谁来管理Agent的工作。SDD就是那个管理层。P1质量门禁制度化验证是多Agent系统最大的瓶颈。最有价值的演化是跨Agent审查——用Codex审查Claude写的代码。不同模型的系统性盲区不同交叉审查能发现单一模型遗漏的问题。长期杠杆P2多模型路由oh-my-openagent的创建者在个人项目上花了$24K的LLM token费。不做路由优化多Agent系统的成本会爆炸。两个被高估的方向被高估一12Agent模拟敏捷团队BMAD Method编排了PM、Architect、Scrum Master、Developer、QA等12个角色。但角色之间的沟通成本高而且Agent不是人——一个Agent扮演安全专家和扮演前端工程师用的是同一个底层模型角色分化只是prompt层面的。更务实的做法是GSD的模式不模拟角色而是模拟工作流阶段。被高估二全自动睡觉起来收PR目前只有规格非常清晰、边界非常明确的任务适合。如果规格有歧义Agent会在错误方向上高速产出大量代码。更务实的做法是半自动人机交替。六、对开发者的建议如果你还没开始用第二阶段的工具建议按这个顺序第一周在Claude Code中启用Agent Teams写一个AGENTS.md描述你的项目规范。试一个简单的并行任务。第二周安装GSD在一个真实功能上跑一遍discuss→plan→execute→verify。对比手动开发的输出质量和token成本。第三周试Ralph Loop。把一个功能拆成8-10个原子任务让Agent循环跑一夜。早上review commits。第四周配置多模型路由。日常任务用本地模型零成本关键决策用云端模型。核心原则用轻量方案解决真实痛点不要追求宏大叙事。写在最后AI编程正在经历一个重要的拐点。代码生成本身正在商品化——Claude、GPT、Gemini、DeepSeek、Kimi都能写代码差异越来越小。真正的竞争正在转移到上一层谁来组织Agent的工作谁能管理上下文、定义规格、保证质量、控制成本这个问题的答案不在某个万能的大模型里而在那些解决真实痛点的轻量工具和实践中。GSD用几个Markdown文件就解决了上下文腐烂。Ralph Loop用bash脚本就实现了高质量的无状态迭代。这些看起来不起眼的方案才是真正驱动变化的底层力量。第三阶段的AI软件工厂终会到来但不是今天。今天该做的是把第二阶段的基本功练好。本文基于《OpenClaw和Claude Code只是第一阶段》傲寒荐书2026年4月29日的延伸讨论结合GSD59.1k Stars、OpenSpec等GitHub热门项目及2026年AI编程工具生态最新实践整理而成。