ReAct 范式详解：让 Agent 学会“思考”而不仅是“回答”

张

张建站

2026/6/3 8:26:22

10分钟阅读

ReAct Prompting范式全解析从原理到实战让LLM Agent突破“空想”与“盲答”的边界附完整的Python代码实现、电商查询增强与数学推理双案例对比第一部分引言与基础 (Introduction Foundation)1. 为什么你必须搞懂ReAct替代生硬的“引人注目的标题”过渡到核心问题在过去的2023-2024年大语言模型Large Language Models, LLMs无疑是整个科技行业最炙手可热的话题——从GPT-3.5、GPT-4的横空出世到Claude、Llama、Qwen等国内外开源模型的百花齐放LLMs已经从实验室的“黑箱玩具”变成了各行各业的“生产力工具雏形”。但如果你曾经用过哪怕稍微复杂一点的LLM应用比如“帮我订明天上午10点从北京飞往上海虹桥下午5点前能回来还要给我带一份虹桥机场T2的小杨生煎推荐链接”你肯定遇到过这两种让人抓狂的问题1.1 LLM的“两大致命缺陷”空想Hallucination与盲答No External Knowledge第一种问题空想幻觉当你问的问题超出了LLM的“预训练知识截止日期”或者需要非常具体、实时、甚至是需要查特定数据库/系统才能得到的信息时LLM往往不会承认自己“不知道”而是会一本正经地编造看似合理的虚假数据。比如你问“2024年6月15日北京到上海虹桥的国航航班有哪些”如果GPT-4没有实时联网插件哦不对现在插件已经迁移到GPT-4o了它可能会编出CA1234、CA5678这样根本不存在的日期或航班号甚至可能会给你一个已经倒闭的小杨生煎分店地址——这对于需要准确性、可信度、可追溯性的严肃应用场景比如医疗问诊辅助、金融数据分析、企业内部知识库问答来说完全是不可接受的。第二种问题盲答信息孤岛即使你给LLM装了一个“搜索插件”让它能查到外部信息但很多时候LLM只会“不假思索”地把所有搜索结果堆给你或者在推理过程中完全割裂“思考Reasoning”和“行动Action”——比如先把所有可能的航班都搜出来但根本不会先思考“用户要求明天上午10点左右出发下午5点前回来那么去程应该在10点±30分钟飞行时间大约2小时到达虹桥T2应该是12点±30分钟然后用户可以自由活动到下午3点左右回程应该在3点±30分钟到达北京首都机场/大兴机场应该在5点±30分钟符合要求的航班是哪些”而是直接搜所有明天的京沪航班浪费大量的token提示词/生成文本的计价单位现在一个GPT-4o的输出token大概是0.00001美元听起来便宜但如果每次搜索都堆100个航班每天1000个用户每月就要花3000美元以上这对于中小团队来说是一笔不小的开支而且返回的结果也非常杂乱用户根本找不到自己想要的。1.2 ReAct的横空出世给Agent安上“脑”和“手”就在大家都在为LLM的这两大缺陷头疼的时候2022年10月来自普林斯顿大学、谷歌研究院、Meta AI的研究团队联合发布了一篇名为《ReAct: Synergizing Reasoning and Acting in Language Models》的论文——这篇论文提出的ReAct PromptingReasoning Acting的缩写中文可译为“思考-行动”协同提示范式首次在统一的提示词框架下让LLM同时具备了“逻辑推理能力”和“调用外部工具获取/执行信息的能力”成功突破了“空想”与“盲答”的边界为后来的所有LLM Agent比如AutoGPT、LangChain Agent、微软的Copilot Studio Agent奠定了核心的理论基础和工程实现思路。根据论文中的实验数据在HotPotQA多跳问答数据集需要结合多个外部信息源才能回答上ReAct的准确率比当时最先进的“纯推理提示词Chain-of-Thought, CoT”高出了15.1%比“纯行动提示词Act-only”高出了21.3%在ALFWorld交互式文本游戏数据集需要在虚拟世界里执行一系列操作才能完成任务上ReAct的任务完成率比当时最先进的Act-only方法高出了34.6%比纯CoT方法高出了48.7%——这些数据足以证明ReAct的强大威力。1.3 读完这篇文章你能获得什么这篇文章是我作为一名深耕LLM Agent开发2年多的资深软件工程师结合《ReAct》原论文、LangChain的ReAct Agent源码、以及我自己在电商查询增强、企业内部知识库问答、数学推理辅助三个实际项目中的经验写成的一篇**“从0到1、从原理到实战、从理论到落地”**的完整技术博客。读完这篇文章你将彻底搞懂ReAct的核心原理包括什么是Reasoning、什么是Acting、为什么要把它们结合起来、ReAct和CoT/Act-only/Reflection反思等其他提示词范式的区别是什么掌握ReAct的数学模型和算法流程虽然ReAct的论文里没有用到太复杂的数学公式但我会用通俗易懂的方式把它的逻辑形式化并用Mermaid流程图把它的完整算法流程画出来从零开始用Python实现一个完整的ReAct Agent不用任何第三方框架比如LangChain只用Python的标准库和OpenAI的API就能写出一个能搜索Google、查询Wolfram Alpha、甚至能查你本地CSV文件的ReAct Agent——这能让你彻底理解ReAct Agent的底层逻辑而不是只会调用LangChain的API通过两个完整的实际案例验证ReAct的效果一个是电商查询增强案例帮用户查京东上的商品信息、价格、库存、用户评价并给出购买建议另一个是数学推理辅助案例帮高中生解复杂的几何题、代数题并给出完整的解题步骤——我会对比ReAct、CoT、Act-only三种方法在这两个案例中的表现掌握ReAct Agent的最佳实践和常见问题解决方案比如如何设计好的提示词模板、如何处理工具调用失败的情况、如何防止LLM陷入无限循环、如何优化ReAct Agent的token消耗和响应速度了解ReAct的行业发展历史和未来趋势比如从最早的Act-only到CoT再到ReAct再到现在的Reflection-ReAct、Self-Consistency-ReAct、多Agent ReActReAct范式的演变历程是怎样的未来ReAct会朝哪个方向发展2. 目标读者与前置知识 (Target Audience Prerequisites)2.1 目标读者这篇文章适合以下三类读者有一定Python编程基础但对LLM Prompting或LLM Agent不熟悉的初级软件工程师你可以通过这篇文章快速入门LLM Agent开发并掌握ReAct这个核心范式已经用过LangChain等框架做过一些简单的LLM应用但想深入理解ReAct底层逻辑的中级软件工程师你可以通过这篇文章从零开始实现一个ReAct Agent摆脱对第三方框架的依赖对LLM Agent感兴趣的产品经理、数据科学家、甚至是高中生只要你有一定的Python基础或者愿意花1-2小时学一下Python的基本语法你就能看懂这篇文章的大部分内容并通过实际案例体会到ReAct的威力。2.2 前置知识为了更好地理解这篇文章你需要具备以下基础知识或技能Python编程基础熟悉Python的基本语法变量、函数、类、循环、条件判断、标准库比如requests、json、random——虽然random在这里用得不多、以及如何用Python调用第三方API对大语言模型LLMs有基本的了解知道什么是LLM、什么是预训练、什么是提示词Prompt、什么是Completion生成文本、什么是token、什么是上下文窗口Context Window可选但强烈推荐有OpenAI API的访问权限因为我们在实战部分会用到OpenAI的GPT-3.5-turbo或GPT-4o作为核心LLM——如果你没有OpenAI API的访问权限也可以用国内的开源模型比如Qwen2-7B-Instruct、Llama3-8B-Instruct替代我会在文章的“环境准备”部分给出具体的替代方案可选但强烈推荐有LangChain的基本使用经验虽然我们在实战部分会从零开始实现一个ReAct Agent但如果你用过LangChain的ReAct Agent你会更容易理解我们的实现思路。3. 文章目录 (Table of Contents)为了方便你快速导航到感兴趣的部分我把这篇文章的完整目录列在下面第一部分引言与基础 (Introduction Foundation)为什么你必须搞懂ReAct替代生硬的“引人注目的标题”过渡到核心问题1.1 LLM的“两大致命缺陷”空想Hallucination与盲答No External Knowledge1.2 ReAct的横空出世给Agent安上“脑”和“手”1.3 读完这篇文章你能获得什么目标读者与前置知识 (Target Audience Prerequisites)2.1 目标读者2.2 前置知识文章目录 (Table of Contents)第二部分核心内容 (Core Content)问题背景与动机 (Problem Background Motivation)4.1 从“工具调用前置”到“纯推理提示词”LLM应用的早期探索4.1.1 工具调用前置Tool Call PreconditioningAct-only的雏形4.1.2 思维链Chain-of-Thought, CoT让LLM学会“空想”逻辑4.1.3 工具调用前置纯推理提示词的局限性4.2 ReAct的核心动机为什么要“思考-行动”协同4.3 核心关键词定义提前统一认知避免后续混淆核心概念与理论基础 (Core Concepts Theoretical Foundation)5.1 ReAct的核心定义与逻辑框架5.2 ReAct的核心要素组成概念结构拆解5.2.1 要素1初始任务/问题Task/Question5.2.2 要素2思考Reasoning, Thought5.2.3 要素3行动Acting, Action5.2.4 要素4行动工具Action Tools5.2.5 要素5观察Observation5.2.6 要素6循环终止条件Termination Condition5.2.7 要素7最终答案Final Answer5.3 ReAct与其他主流提示词范式的对比核心属性维度Markdown表格5.4 ReAct的概念关系图Mermaid ER实体关系图 Mermaid交互关系图5.5 ReAct的数学模型逻辑形式化Latex公式环境准备 (Environment Setup)6.1 软件与库的安装清单6.2 OpenAI API的配置国内用户可用Qwen2/Llama3替代6.2.1 注册OpenAI账号并获取API Key6.2.2 国内用户的替代方案使用阿里云通义千问APIQwen26.2.3 国内用户的替代方案使用本地部署的Llama3-8B-Instruct6.3 工具API的配置Google搜索、Wolfram Alpha、本地CSV查询6.3.1 Google Custom Search JSON API的配置6.3.2 Wolfram Alpha API的配置6.3.3 本地CSV查询工具的准备提前准备好一个电商商品CSV文件从零开始用Python实现一个完整的ReAct Agent分步实现7.1 第一步定义工具基类BaseTool与工具注册机制7.2 第二步实现具体的工具类GoogleSearchTool、WolframAlphaTool、CSVQueryTool7.3 第三步定义LLM调用基类BaseLLM与具体的LLM调用类OpenAILLM、QwenLLM7.4 第四步设计ReAct的提示词模板Prompt Template7.5 第五步实现ReAct Agent的核心循环逻辑7.6 第六步实现结果格式化与循环终止判断关键代码解析与深度剖析Key Code Analysis Deep Dive8.1 为什么要定义工具基类设计模式策略模式的应用8.2 提示词模板的设计技巧Few-Shot Learning、结构化输出约束8.3 核心循环逻辑的设计状态机模式的应用、无限循环的防止8.4 工具调用失败的处理机制重试、降级、用户提示第三部分验证与扩展 (Verification Extension)结果展示与验证Results Verification9.1 案例一电商查询增强查询京东iPhone 15 Pro Max的信息9.1.1 实验设计对比ReAct、CoT、Act-only三种方法9.1.2 实验结果展示截图、API返回示例、准确率对比9.1.3 实验结果分析9.2 案例二数学推理辅助解一道复杂的高考几何题9.2.1 实验设计对比ReAct、CoT两种方法9.2.2 实验结果展示截图、解题步骤对比、准确率对比9.2.3 实验结果分析性能优化与最佳实践Performance Tuning Best Practices10.1 性能优化如何降低ReAct Agent的token消耗10.1.1 优化提示词模板去除冗余内容、压缩Few-Shot Examples10.1.2 优化工具调用减少不必要的工具调用、压缩观察结果10.1.3 使用 cheaper 的LLM做中间思考使用更贵的LLM做最终答案生成10.2 性能优化如何提高ReAct Agent的响应速度10.2.1 并行化工具调用如果允许的话10.2.2 使用流式输出Stream10.2.3 本地缓存工具调用结果10.3 最佳实践如何设计好的ReAct提示词模板10.3.1 明确要求LLM使用结构化的格式输出Thought、Action、Action Input、Observation、Final Answer10.3.2 提供足够的、多样化的Few-Shot Examples10.3.3 明确告诉LLM循环终止的条件10.3.4 明确告诉LLM如果遇到问题应该怎么做比如工具调用失败、信息不足10.4 最佳实践如何选择合适的工具10.4.1 工具的粒度要适中不能太粗也不能太细10.4.2 工具的描述要清晰、准确、具体10.4.3 工具的输入输出格式要标准化常见问题与解决方案FAQ / Troubleshooting11.1 LLM不按照结构化的格式输出怎么办11.2 LLM陷入无限循环怎么办11.3 LLM调用工具的参数错误怎么办11.4 LLM生成的最终答案不准确怎么办11.5 LLM的token消耗太高怎么办未来展望与扩展方向Future Work Extensions12.1 ReAct的未来发展趋势从单Agent到多Agent、从思考-行动到思考-行动-反思-改进12.2 ReAct的扩展方向一Reflection-ReAct反思-思考-行动12.3 ReAct的扩展方向二Self-Consistency-ReAct自洽-思考-行动12.4 ReAct的扩展方向三Multi-Agent ReAct多Agent协同思考-行动12.5 ReAct的扩展方向四Knowledge-Enhanced ReAct知识增强-思考-行动第四部分总结与附录 (Conclusion Appendix)总结Conclusion参考资料References附录Appendix15.1 完整的Python代码实现GitHub仓库地址15.2 完整的提示词模板Few-Shot Examples included15.3 电商商品CSV文件示例15.4 高考几何题示例15.5 国内LLM API的配置指南Qwen2、Llama3、ChatGLM3本章小结第一部分小结第一部分我们主要做了三件事第一通过LLM的“两大致命缺陷”空想与盲答引出了ReAct的核心价值——让LLM同时具备“逻辑推理能力”和“调用外部工具的能力”第二明确了这篇文章的目标读者初级/中级软件工程师、产品经理、数据科学家、高中生和前置知识Python编程基础、LLM基本了解、可选的OpenAI API访问权限第三列出了这篇文章的完整目录方便你快速导航到感兴趣的部分。接下来我们将进入第二部分的核心内容——首先是“问题背景与动机”我们会深入探讨LLM应用的早期探索工具调用前置、纯推理提示词的局限性以及ReAct的核心动机。

BetterJoy深度解析：Switch手柄PC适配的完整技术指南与实战部署

BetterJoy深度解析：Switch手柄PC适配的完整技术指南与实战部署【免费下载链接】BetterJoy Allows the Nintendo Switch Pro Controller, Joycons and SNES controller to be used with CEMU, Citra, Dolphin, Yuzu and as generic XInput 项目地址: https://gitc…...

2026/6/3 8:26:21 阅读更多 →