构建具备“自我反思”能力的 Agent：ReAct 框架的改进与实践

张

张建站

2026/4/17 19:14:15

10分钟阅读

构建具备“自我反思”能力的 Agent：ReAct 框架的改进与实践引言痛点引入：为什么普通 ReAct Agent 还是“不够聪明”？不知道你有没有这样的经历：最近半年大模型应用井喷，你兴冲冲地跟着教程用 LangChain 或者 LlamaIndex 搭了个基于ReAct（Reasoning + Acting）框架的 Agent，想让它帮你分析上周团队的项目周报数据，结果呢？可能它第一步就跳过了“先理解用户需要分析哪项指标”的推理，直接去搜上周的完整周报（浪费 API 调用量）；搜完周报发现数据是按模块拆分的，又开始瞎搜模块间的关联逻辑（比如想当然地认为前端代码提交量和功能上线率成正比）；好不容易凑出个结论，还写错了数据统计的时间范围（明明是11月11-17日，写成了11月11-24日）；你指出错误，它要么只会重复“抱歉我写错了”，要么只会机械地修正错误数据，根本不会反思“我为什么会跳过关联逻辑验证？为什么会搞错时间范围？下次该怎么避免？”没错，这就是普通 ReAct Agent 的核心痛点：只有“线性的、单次的”推理-行动链条，没有“循环的、深度的”自我修正与复盘机制。原 ReAct 论文（2023年 Yao 等人发表在 ICLR 上的ReAct: Synergizing Reasoning and Acting in Language Models）确实解决了“纯推理 LLM 幻觉严重”和“纯工具调用 LLM 缺乏逻辑连贯性”的问题，但它把 LLM 当成了“只会执行当前任务指令”的工具人，完全没有利用 LLM 本身强大的“元认知（Metacognition）”潜力——也就是对自己的“思考过程、行动选择、结果正确性”进行评估、反思和优化的能力。解决方案概述：带“Reflect Loop”的改进版 ReAct 框架为了解决普通 ReAct 的不足，今天我要给大家分享一个改进版 ReAct 框架（我暂且叫它 ReAct-R：Reasoning + Acting + Reflecting），核心创新点在于：在原 ReAct 的“Reason → Act → Observe → (Back to Reason)”线性链条中，插入了一个独立的“Reflect Loop（反思循环）”；反思循环包含三个关键子步骤：Result Check（结果检查）、Error Analysis（错误分析）、Strategy Update（策略更新）；所有反思的内容都会被存储到“Long-Term Memory（长期记忆库）”中，作为后续任务的“经验教训”，避免重复犯错。这个改进版框架不仅能显著降低 Agent 的幻觉率和错误率，还能让它在处理复杂任务时表现出更强的“学习能力”和“逻辑严谨性”——就像一个真正的人类实习生，每次做完任务都会写工作日志复盘，下次再做类似任务时就会更加熟练。最终效果展示为了让大家直观感受到改进的效果，我先放一组对比测试数据（测试环境：GPT-4o-mini，测试任务：随机从 Kaggle 上选10份不同领域的公开数据集分析报告，要求写一份1000字以内的总结，包含核心指标、关键发现和局限性）：测试指标普通 ReAct Agent（LangChain 默认实现）ReAct-R Agent（本文改进实现）提升幅度幻觉率（核心指标/发现错误）28.7%7.2%-74.9%逻辑严谨性（人工评分1-5）3.24.6+43.8%API 调用次数（平均/任务）12.510.8-13.6%完成时间（平均/任务，秒）47.342.1-11.0%从数据可以看出：ReAct-R 不仅大幅提升了输出质量，还稍微降低了 API 调用量和完成时间——这是因为长期记忆库中的经验教训让 Agent 少走了很多弯路（比如不会重复验证已经明确过的数据集来源，不会再犯类似“混淆百分比和千分比”的低级错误）。下面我就带大家一步步实现这个改进版 ReAct-R 框架！准备工作环境/工具为了让大家能跟着我顺利复现，我把所有依赖都整理成了一个requirements.txt文件，同时推荐使用 Python 3.10 以上的版本（因为最新版的 LangChain 和 OpenAI SDK 对 Python 3.9 及以下的支持已经不太好了）：# requirements.txtopenai==1.51.2# OpenAI 官方 SDK，兼容最新的 GPT-4o/GPT-4o-minilangchain==0.3.11# LangChain 核心库，用于构建 Agent 的基础组件langchain-openai==0.2.11# LangChain 对 OpenAI SDK 的封装langchain-community==0.3.10# LangChain 社区组件，包含 DuckDuckGo 搜索、CSV 解析等工具faiss-cpu==1.9.0# Facebook AI 相似度搜索库，用于实现长期记忆库python-dotenv==1.0.1# 用于加载环境变量（比如 OpenAI API Key）pandas==2.2.3# 用于解析和处理 CSV/Excel 格式的测试数据安装依赖的命令也很简单，打开终端（Windows 用户推荐使用 PowerShell 或 WSL2），输入以下命令即可：# 创建虚拟环境（可选但强烈推荐）python-mvenv react-r-env# 激活虚拟环境（Windows）.\react-r-env\Scripts\activate# 激活虚拟环境（Mac/Linux）sourcereact-r-env/bin/activate# 安装所有依赖pipinstall-rrequirements.txt基础知识在开始实现之前，我需要先帮大家梳理几个核心前置知识——如果你已经对这些内容很熟悉了，可以直接跳过这一小节，去看“原 ReAct 框架的深度剖析与不足”部分：大语言模型（LLM）的元认知能力：元认知原本是心理学中的概念，指的是“人对自己认知过程的认知”——比如“我知道我现在很困，所以应该先休息10分钟再写代码”。研究表明，像 GPT-4、Claude 3 Opus 这样的先进 LLM，虽然没有真正的“自我意识”，但已经具备了“弱元认知能力”：它们可以通过提示词（Prompt Engineering）引导，对自己的输出进行反思、批判和修正。这是我们实现 ReAct-R 框架的基础。原 ReAct 框架的核心原理：原 ReAct 框架的核心思想是“让 LLM 的推理过程和行动过程交替进行，相互补充”——简单来说，就是给 LLM 一个“三段式”的提示词模板：Thought（思考）：“用户的问题是什么？我现在需要做什么？为什么？”Action（行动）：“我应该调用哪个工具？工具的输入是什么？”（工具可以是搜索引擎、计算器、代码解释器、数据库查询接口等）Observation（观察）：“工具返回的结果是什么？这个结果对我解决问题有帮助吗？”然后 LLM 就会按照这个模板循环执行，直到它认为问题已经解决为止。LangChain 的核心组件：LangChain 是目前最流行的 LLM 应用开发框架之一，它把构建 Agent 所需的所有组件都封装好了：LLM/ChatModel：用于调用大语言模型（比如ChatOpenAI）；Tools/Toolkits：用于定义和管理 Agent 可以调用的工具（比如DuckDuckGoSearchRun、PythonREPLTool）；Memory：用于存储 Agent 的对话历史和状态（比如ConversationBufferMemory、ConversationSummaryMemory）；Agent/AgentExecutor：用于把 LLM、Tools、Memory 组合起来，形成一个完整的 Agent（比如ZeroShotAgent、ReActAgent）；VectorStores/Embeddings：用于实现语义搜索和长期记忆库（比如FAISS、OpenAIEmbeddings）。原 ReAct 框架的深度剖析与不足核心概念回顾在开始改进之前，我们必须先“知其所以然”——彻底搞懂原 ReAct 框架的核心概念和工作原理。原 ReAct 论文的标题是“Synergizing Reasoning and Acting in Language Models”，翻译过来就是“在大语言模型中协同推理和行动”。这里的“协同”是关键——纯推理 LLM（比如 GPT-3.5 不加任何工具调用）虽然能生成连贯的文本，但因为“看不见、摸不着”真实世界的数据，所以很容易产生幻觉；纯工具调用 LLM（比如早期的 AutoGPT 的某些分支）虽然能调用工具获取真实数据，但因为没有连贯的推理过程，所以很容易“迷失方向”（比如搜了很多无关的信息，或者调用工具的顺序完全错误）。原 ReAct 框架的核心创新点就在于：让 LLM 在推理时“预判”需要调用的工具，在调用工具后“利用”观察结果修正推理，形成一个“推理→行动→观察→推理→…”的闭环——这个闭环虽然是线性的，但已经比纯推理或纯工具调用强很多了。原 ReAct 框架的工作流程为了让大家更直观地理解原 ReAct 框架的工作流程，我画了一个Mermaid 流程图：是否用户输入问题初始化：加载工具、LLM、提示词模板、短期记忆LLM 根据提示词模板生成 Thought判断是否需要调用工具？LLM 生成 Action（工具名 + 工具输入）AgentExecutor 执行 Action，获取 Observation将 Thought、Action、Observation 存入短期记忆LLM 生成 Final Answer输出 Final Answer 给用户清空短期记忆（可选，取决于应用场景）从流程图可以看出，原 ReAct 框架的工

如何彻底隐藏Windows音量弹窗：3步实现纯净桌面体验

如何彻底隐藏Windows音量弹窗：3步实现纯净桌面体验【免费下载链接】HideVolumeOSD Hide the Windows 10 volume bar 项目地址: https://gitcode.com/gh_mirrors/hi/HideVolumeOSD 你是否厌倦了在全屏游戏、视频会议或重要演示时，被突然弹出的Win…...

2026/4/17 19:13:29 阅读更多 →

手把手教你用VPI和Matlab搭建一个完整的相干光通信仿真链路（含完整DSP代码）

从零构建QAM相干光通信仿真平台：VPI与Matlab全链路实战指南在光通信领域，仿真验证是算法开发和系统优化的关键环节。对于刚接触相干光通信的工程师来说，如何快速搭建一个包含完整数字信号处理（DSP）链路的仿真环境往往…...

2026/4/17 19:12:38 阅读更多 →

tchMaterial-parser：高效下载国家中小学智慧教育平台电子课本的终极解决方案

tchMaterial-parser：高效下载国家中小学智慧教育平台电子课本的终极解决方案【免费下载链接】tchMaterial-parser 国家中小学智慧教育平台电子课本下载工具，帮助您从智慧教育平台中获取电子课本的 PDF 文件网址并进行下载，让您更方便地获取…...

2026/4/17 19:12:07 阅读更多 →

⑩【从0制作自己的ros导航小车：上位机篇】05、导航！

1. 从地图到导航的关键跨越当你完成地图构建的那一刻，就像拿到了一张藏宝图，但要让小车真正动起来寻宝，还需要一套完整的导航系统。ROS中的amcl和move_base就是实现这一目标的核心组件。amcl负责定位，让小车知道"我在哪&quo…...

2026/4/17 11:10:51 阅读更多 →

如何构建高性能的消息队列系统

如何构建高性能的消息队列系统在当今高并发的互联网应用中，消息队列系统扮演着关键角色，它能够解耦服务、削峰填谷，并提升系统的整体吞吐量。随着业务规模的扩大，如何构建一个高性能、高可用的消息队列系统成为开发者面临的挑战…...

2026/4/17 10:12:00 阅读更多 →

Java Iterator

Java Iterator 在Java编程语言中，Iterator接口是Java集合框架的一部分，主要用于遍历集合中的元素。本文将详细介绍Java的Iterator接口，包括其定义、使用方法以及与ListIterator的区别。定义 Iterator是一个用于遍历集合中元素的接口。它提供了迭代器的基本操作，例如：检…...

2026/4/17 10:12:00 阅读更多 →