最近爆炸忙好多都没有更新上自己的内容都拖拖拉拉没做有些丧并且最近做 search 的过程中心里也越来越慌~~~背景因为发现现在做 Agentic RL 方向的基本都在往会修改环境的方向走。而这里面最大的方向就是 Coding。这事直接给我干 emo 了。因为如果继续只看 Search Agent会有一种很强的焦虑感大家都在做能改代码、能跑测试、能和真实环境交互的 Agent而 Search Agent 还停留在搜网页、读证据、回答问题的闭环里。search 依然重要只是它看起来没有那么像一个完整的 RL 环境。为了不被时代抛弃一个比较自然的问题是能不能把自己在 Search Agent 上积累的东西迁移到 Coding Agent 里我仔细想了下先来拆解会面临哪些问题Search Agent 到底面临哪些问题这些问题切到 Coding Agent 后会变成哪些新问题如果真要入门 Coding Agent / Coding RL应该从哪些项目开始这里我们先一个一个的讲Search Agent 面临的问题不止是会不会搜Search Agent 表面流程很简单用户问题→ 生成查询→ 搜索网页 / 文档→ 阅读证据→ 多步推理→ 最终回答但真正困难的地方不在于调用 search API而在于它要在一个长程过程中持续保持目标、管理状态、判断证据、决定什么时候停止。典型问题包括1.1 Query Drift越搜越偏Agent 一开始可能搜得还对但几轮之后 query 会逐渐偏离原问题。比如问题问的是某个雕塑的作者去世地所在郡属于哪个州合理链路应该是雕塑 → 作者 → 去世地 → 郡 → 州但 Agent 可能搜着搜着开始查雕塑风格、展览地点、作者生平八卦最后证据链断掉。这类问题的根源通常在于 query evolution 缺少约束。1.2 Goal Drift任务目标变形Search Agent 经常会在长程搜索中忘掉最初要回答什么。它可能找到了很多相关信息但这些信息并不服务于最终问题。结果就是看起来搜了一大堆但是实际上做了很多无效的探索。1.3 Premature Answer证据不够就急着回答很多 Agent 搜了一两条结果就开始总结。它没有真正建立完整证据链只是看到一个看似相关的片段就提前生成答案。这在开放域 QA 里很常见在 BrowseComp 这种长程任务里更明显。1.4 Evidence Conflict证据冲突不会处理不同网页、文档、时间版本之间可能互相矛盾。Agent 需要判断哪个来源更可信哪个时间更新哪个说法更接近原始证据如果没有这种判断搜索越多反而越容易混乱。1.5 State Explosion长程搜索状态爆炸多轮搜索后上下文里会堆积大量搜索结果。问题包括哪些证据已经确认哪些子问题还没解决哪些 query 已经搜过不能重复哪些搜索结果只是噪声哪些信息应该压缩成 summary这就是 Search Agent 里很核心的 state tracking 问题。1.6 Stop Decision不知道什么时候停Search Agent 很难判断现在证据够了吗还需要继续搜吗继续搜的边际收益大吗停太早会答错停太晚会浪费 token 和工具调用还可能引入噪声。1.7 Reward Credit Assignment错了不知道错在哪一轮最后答案错了不代表所有搜索步骤都错。可能是第一轮 query 就偏了某一轮证据读错了最后一轮总结错了搜索过程是对的但最终 answer extraction 错了如果 reward 只打到最终 token就很难知道应该惩罚哪一段行为。如何从 Search Agent 切换到 Coding Agent这里我们可以梳理下 Coding Agent 的流程Issue 描述 → 搜代码库 → 找相关文件 → 找相关函数 → 定位根因 → 修改代码 → 跑测试 → 根据失败日志继续定位 → 最终 patch换个角度看这里也有一条证据链Issue → 相关文件 → 相关函数 → 错误原因 → 修改点 → 测试反馈 → 最终修复这和 Search Agent 的问题 → 搜索结果 → 证据 → 推理 → 答案非常像。区别只是 Coding Agent 多了两个关键动作Edit File跟Run Test也就是这两个动作会真正的改变环境。这里我列一下一个表来看一下两者的映射Search Agent 问题Coding Agent 中的对应问题具体表现Query DriftCode Search Driftgrep / rg 搜索词越来越偏打开一堆无关文件Goal DriftPatch Goal Drift本来修 bug最后开始重构无关模块Premature AnswerPremature Patch没定位根因就直接改代码靠猜 patchEvidence ConflictCode / Test / Doc ConflictREADME、注释、测试、真实代码行为互相矛盾State ExplosionRepo Context Explosion文件、函数、日志、历史尝试太多状态管理失控Stop DecisionSearch-to-Edit Decision不知道什么时候停止搜代码、开始改代码Verification FailureTest Feedback Failure测试失败后不会根据 traceback 继续定位Credit AssignmentPatch Credit Assignment最终测试失败不知道是哪次 edit 或哪条定位链错了这张表很关键。它说明 Search 背景和 Coding Agent 有很强的连接点可以迁移到 Coding Agent 里最核心的仓库导航 根因定位 反馈闭环部分。Coding Agent 的关键是在代码库里找 bug现在很多人讲 Coding Agent容易把重点放在 code generation 上。但真正的 SWE-bench 类任务会给模型一个真实 GitHub issue让它在已有仓库里修问题而非写一个孤立函数。这类任务的难点往往超出会不会写 Python能不能读懂 issue能不能找到相关文件能不能理解跨文件调用链能不能定位真正根因能不能只做必要修改能不能跑对测试测试失败后能不能继续 debug所以对 Search 背景的人来说最自然的切入点是Codebase Context Retrieval for Coding Agents或者更明确一点State-Aware Repository Navigation for SWE Agents也就是让 Coding Agent 更会在代码库里找问题避免只停留在写代码。可以切入 Coding 方向的几个具体点4.1 Repository Navigation代码库导航这是最像 Search Agent 的方向。把网页搜索换成 repo searchweb search → repo grep / rg / AST / LSP / symbol search可以研究的问题包括Issue 里哪些词应该用来搜搜不到时怎么改 query什么时候 grep什么时候查定义什么时候查引用先看测试还是先看源码如何避免重复打开同一批无关文件如何维护我已经知道什么 / 还缺什么的状态这其实就是 Search Agent 的 query planning 和 state tracking。4.2 Fault Localization根因定位Coding Agent 的核心在于先定位 fault再生成 patch。可以把它拆成一个中间任务Issue → Top-k suspicious files/functions或者Issue traceback → root cause explanation这方向很适合做 reward是否找到 gold file是否找到 gold function是否打开了过多无关文件是否在修改前引用了足够证据这比直接训练 end-to-end patch 更轻也更适合从 Search Agent 迁移。4.3 Test Feedback RL测试反馈驱动的 RLSearch Agent 大多是Search → Read → Answer环境没怎么变。Coding Agent 是Search Repo → Edit File → Run Test → Observe Failure → Edit Again这里的测试结果是环境反馈。可以设计的训练信号包括测试是否从 fail 变 passfail 数量有没有减少traceback 是否变短是否修复目标测试但破坏其他测试是否引入 lint / type error是否过度修改这比只看最终 pass/fail 更 dense也更适合做过程奖励。4.4 Patch Minimality防止乱改Search Agent 有 goal driftCoding Agent 有 patch drift。Agent 很容易改太多大范围重构删除测试hard-code修改无关文件为了过当前 case 破坏通用行为所以可以做一个 reward / verifier通过测试 修改范围小 与 issue 相关 不破坏现有行为这方向很实用因为真实工程里能过测试但改得很脏的 patch 也不能接受。4.5 Trajectory Compression长程 debug 状态压缩长程 Coding Agent 会产生大量历史搜过哪些关键词看过哪些文件改过哪些地方跑过哪些测试每次失败日志是什么当前最可信的 root cause 是什么这和 Search Agent 的多轮搜索 summary 很像。可以做 debug memory / repo state summary / evidence graph目标是让 Agent 在长程任务中不丢状态、不重复探索、不忘记失败教训。4.6 Tool Policy什么时候用什么工具Coding Agent 工具比 Search Agent 更多例如rg / grepsed / catLSP jump-to-definitionfind referencespytestlinteditgit diff工具选择本身就是 policy。可以研究什么时候 search什么时候 read什么时候 edit什么时候 run test什么时候 rollback什么时候停止这和 Search Agent 的搜 / 读 / 总结 / 停止非常像只是动作空间更丰富。可以怎么设计一个最小闭环这里我大概写了一个最小的闭环输入GitHub issue repo动作rg / read file / inspect symbol输出top-k suspicious files evidence summary奖励gold file 命中gold function 命中打开的无关文件少重复搜索少evidence summary 能支持后续 patch这样可以先把 Coding Agent 里的 search 子问题做扎实。然后再接上 edit 和 test输入issue repo动作search / read / edit / test输出patch奖励hidden tests passpublic tests passfail-to-pass 数量增加pass-to-pass 不回退patch diff 小没有删除测试 / hard-code / 大范围无关修改学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】