实验里文件系统如何让Agent真正“终身学习”

张

张建站

2026/4/26 2:47:27

10分钟阅读

大多数构建Agent的团队还在为“记忆持久化”这个老大难问题头疼——要么靠向量数据库做模糊检索要么硬编码状态机要么每次会话都从零开始喂上下文。我起初也这么认为Agent记忆必须得是高度结构化的专用机制否则模型根本管不住自己。后来看到Lance Martin分享的Claude Plays Pokémon真实实验才发现这个认知完全把方向带偏了。真正让Agent从“每次重启都失忆”变成“跨会话持续演进”的不是更复杂的内存工具而是最朴素的文件系统。实验细节简单却震撼David Hershey给Claude配了一个读写内存文件夹的工具本意是帮它在游戏里积累导航经验。Sonnet 3.5早期版本完全没理解“记忆”的本质把NPC对话一股脑儿全记下来跑了14000步后生成了31个文件却还卡在第二个城镇几乎毫无进展。那时的记忆文件更像原始的聊天记录而不是可行动的知识。而到了Opus 4.6同样的工具、同样的步数情况完全反转它只生成了10个文件却主动按目录结构组织起来——三个道馆徽章单独存档还提炼出了一个“learnings.md”文件里面全是自己失败教训的浓缩总结。Agent开始像一个真正有经验的玩家一样思考和迭代。这个结果直接颠覆了业界对Agent记忆的常见假设。CoALA论文和memGPT等研究早就指出人类认知科学和操作系统里的内存管理思路能给Agent带来启发。但Pokémon实验第一次用大规模真实交互证明当模型能力跨过某个临界点它反而能把通用文件工具用得比任何专用内存方案都好。Letta_AI的独立验证也印证了这一点——文件系统在实际任务中往往全面胜出。Anthropic正是基于这个洞察在Claude Managed AgentsClaude平台原生支持里把记忆实现为内存存储Memory Stores。它本质上是工作区级别的文本文档集合每次会话结束都不会被丢弃。使用时只需把内存存储挂载到容器里路径固定为/mnt/memory/store-name/系统会自动往提示词里注入一句简短说明让Claude知道这里可以读写持久文件。更厉害的是多Agent协作场景多个Agent可以同时挂载同一个内存存储平台负责实时同步——一个Agent修改了文件其他Agent的文件系统视图立刻更新。同时内置并发控制避免相互覆盖。记忆文件还能通过API完整导出调试、分享、版本管理全都不在话下。会话 Session临时上下文协调Agent/mnt/memory/store-name/持久文件系统Agent 1读写记忆Agent 2实时同步Agent 3导出API文件系统记忆 vs 传统专用内存方案的核心权衡基于实际生产场景维度传统向量数据库/专用内存工具Claude Managed Agents 文件系统记忆结构化程度高强制schema或embedding低Claude自主决定目录文件名跨会话持久性需要额外同步机制原生平台级持久自动跨会话多Agent共享通常需要额外锁或分布式存储平台内置实时同步并发控制可解释性与调试黑盒embedding难以人工审查纯文本文件可直接下载、阅读、版本管理模型利用效率模型只能“检索”难以主动组织模型主动管理、提炼、归档能力随scaling释放长尾风险向量漂移、检索幻觉、存储成本高文件膨胀可控Claude自己学会精简分享与导出复杂需要API或导出脚本一键API导出或直接下载文件夹我早期做Agent项目时最痛苦的就是“上下文窗口永远不够用”和“每次重启都要重新教育模型”。现在回头看会话日志负责当前任务的瞬时状态内存存储负责跨任务的终身知识这个二分法把问题彻底拆开了。Claude可以主动把重要洞见从会话里抽取出来写入结构化的记忆文件下次直接调用——这才是真正意义上的“从经验中学习”。文件系统的另一个隐形优势是完全可解释。不像向量数据库里一堆高维向量谁也看不懂内存文件夹里的每个.md文件都是人类可直接阅读的知识资产。David Hershey当时就是直接把整个内存文件夹分享出去就让其他人能复现和迭代实验。为什么文件系统才是2026年Agent记忆的底层基础设施它把决策权交给了模型本身模型越聪明就越知道该存什么、怎么组织、什么时候提炼。这条路径不是在跟模型能力对抗而是在顺着它放大。专用工具在模型弱的时候是救命稻草但在能力足够强的今天反而成了限制Agent发挥的枷锁。想快速上手直接看Anthropic官方文档或者在Claude Code里输入/claude-api调用内置的claude-api skill就能直接跟它聊Managed Agents的全部细节。你在构建自己的Agent系统时是继续堆专用内存工具还是已经开始把文件系统当成第一公民的持久化层欢迎在评论区分享你遇到的记忆管理痛点——我们一起把这些生产级实践变成团队可复制的资产。我是紫微AI在做一个「人格操作系统ZPF」。后面会持续分享AI Agent和系统实验。感兴趣可以关注我们下期见。

ARM RealView Debugger指令追踪技术详解与应用

1. ARM RealView Debugger中的指令追踪技术概述在嵌入式系统开发中，指令追踪(Instruction Trace)是最强大的调试手段之一。与传统的断点调试不同，指令追踪能够非侵入式地记录处理器的完整执行流程，这对实时系统调试、性能优化和异常诊断至关重…...

2026/4/26 2:42:26 阅读更多 →

VSCode 2026嵌入式烧录插件深度评测：5大主流插件横向对比，Only 1个支持JTAG+SWD+DFU三模热切换

更多请点击： https://intelliparadigm.com 第一章：VSCode 2026嵌入式烧录插件生态概览 VSCode 2026 版本针对嵌入式开发场景深度重构了扩展宿主机制，引入原生支持的 flash-runtime API 接口层，使烧录插件可直接与底层调试适配器&…...

2026/4/26 2:32:23 阅读更多 →

AI Agent Harness Engineering 文档体系建设：标准化研发与运维的核心支撑

AI Agent Harness Engineering 文档体系建设：标准化研发与运维的核心支撑副标题：从零散工具链到全生命周期可追溯智能体构建协作平台的数字化实践指南第一部分：引言与基础 (Introduction & Foundation)1. 引人注目的标题与副标题确认&…...

2026/4/26 2:29:48 阅读更多 →

如何理解临键锁Next-Key Lock_行锁与间隙锁的组合原理解析

临键锁锁定的是左开右闭区间，如对索引值20加锁即锁住(10,20]，包含记录20及前一索引间隙；仅作用于被扫描的索引范围，且在REPEATABLE READ下启用。临键锁到底锁了哪块数据？临键锁不是新锁类型，而是 Record Lo…...

2026/4/26 0:01:56 阅读更多 →

CUDA 13.3 RTX 4090实测报告：FP16混合精度算子性能断层分析（含37个主流PyTorch算子汇编级差异对比）

更多请点击： https://intelliparadigm.com 第一章：CUDA 13.3 RTX 4090混合精度算子性能断层分析总览 NVIDIA RTX 4090 搭载的 Ada Lovelace 架构在 CUDA 13.3 中首次全面启用第三代 Tensor Core 的 FP8 原生支持，使得混合精度计算路径&…...

2026/4/26 0:10:29 阅读更多 →

Vue3项目实战：手写Ant Design Vue a-table拖拽排序（绕过付费功能）

Vue3项目实战：基于Ant Design Vue的a-table手写拖拽排序方案去年接手一个从React迁移到Vue3的项目时，遇到了一个有趣的挑战。项目使用了Ant Design Vue作为UI组件库，在实现菜单管理列表的拖拽排序功能时，发现官方提供的a-table拖…...

2026/4/26 0:11:28 阅读更多 →

2026届最火的AI辅助写作平台实测分析

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在人工智能进行交互期间，指令存在冗余情形常常会致使输出出现偏差以及造成效率方…...

2026/4/26 0:15:26 阅读更多 →