本文介绍了如何将Harness的各个子系统整合构建一个具备可观测性的Agent工作环境。核心内容包括日志记录Agent思维过程、指标监控效率、质量、可靠性、追踪回放执行路径以及完整的Agent工作环境架构。通过这些手段可以实现对Agent行为的全面监控和优化提升Agent的可靠性和效率。实战项目六可观测性、调试能力与完整运维体系的最终集成前面七篇文章我们一层一层地搭建 Harness 的子系统第一篇理解为什么强模型也会失败第二篇掌握 Harness 的五子系统架构第三篇学会给信息分层避免 Giant Instruction File第四篇用规则约束 Agent 的行为第五篇建立上下文继承与工作交接机制第六篇设计状态持久化防止 Agent断片第七篇建立运行时反馈与独立验证闭环最后一个项目是把所有组件集成在一起搭建一套完整的、带有可观测性的 Agent 工作环境。01 为什么需要可观测性前面的 Harness 组件解决的是让 Agent 做对的问题。可观测性解决的是当 Agent 做错时你怎么知道的问题。想象一下Agent 运行了一个小时花了 50 美元最后告诉你任务失败。你问它为什么失败它说不知道。你问它在哪一步失败的它说不记得了。这就是没有可观测性的 Agent一个黑盒。你不知道它做了什么、为什么做、花了多少时间、消耗了多少 token。你只能看到输入和输出中间过程完全不可见。可观测性的三个支柱日志Logs、指标Metrics、追踪Traces。02 日志Agent 的工作日记最简单的可观测性就是日志。但 Agent 的日志不是普通的应用日志——它需要记录 Agent 的思维过程。课程里推荐的日志结构{ timestamp: 2026-05-09T14:30:00Z, session_id: sess-abc123, agent_action: file_write, target_file: src/services/user_service.py, context: { task: 实现用户注册, phase: 3, token_usage: 15420, cost_usd: 0.08 }, result: success, validation: { pytest: passed, mypy: passed, coverage: 87% }}这个日志回答了Agent 在什么时候做了什么动作这个动作属于哪个任务、哪个阶段消耗了多少 token、花了多少钱验证结果是什么日志应该写入文件而不是只显示在终端。因为终端输出会随着对话刷新而丢失文件可以持久保存、事后分析。03 指标Agent 的体检报告日志是细粒度的指标是聚合的。你需要关注的核心指标效率指标任务成功率完成且通过验证的任务 / 总任务数平均完成时间每个任务花了多少分钟平均 token 消耗每个任务用了多少 token平均成本每个任务花了多少钱质量指标验证通过率Agent 自己运行验证的通过率回归率修改 A 功能导致 B 功能失败的比例重试次数Agent 平均需要多少次尝试才能完成任务可靠性指标断片恢复率中断后成功恢复并完成任务的比例状态一致性plan.md 与代码实际状态一致的比例这些指标应该定期汇总形成 Agent 的体检报告。比如每周一早上自动生成Agent 周报2026.05.03 - 2026.05.09任务完成情况- 总任务23- 成功1982.6%- 失败4效率指标- 平均耗时47 分钟- 平均成本$2.3- 平均 token34,500质量指标- 验证通过率91%- 回归率8.7%2/23 个任务引入了回归需要关注的问题- 周四的两个失败任务都卡在 SMTP 集成建议完善邮件相关的 Harness- 回归主要来自 utils.py 的修改建议增加该模块的测试覆盖04 追踪Agent 的执行回放最高级的可观测性是追踪——你能看到 Agent 完成一个任务的完整执行路径。任务实现用户注册功能Step 1: 读取 AGENTS.md2s, 120 tokensStep 2: 读取 .agent/status.json1s, 50 tokensStep 3: 读取 src/models/user.py3s, 800 tokensStep 4: 写入 src/models/user.py5s, 2000 tokens └── 验证mypy 失败 → 修复类型注解 → mypy 通过Step 5: 写入 src/services/auth_service.py8s, 3500 tokens └── 验证pytest 失败 → 修复测试 → pytest 通过Step 6: 更新 .agent/status.json2s, 300 tokensStep 7: Git commit1s, 0 tokens总耗时47 分钟总 token45,000总成本$2.5这个追踪记录的价值在于事后复盘任务失败时你能精确知道在哪一步出了问题成本优化你能发现 Agent 在哪个环节消耗了过多 token模式识别你能发现 Agent 反复犯同样错误的模式然后针对性地完善 Harness05 完整的 Agent 工作环境架构把前面所有文章的内容汇总一个完整的 Agent 工作环境长这样project-root/│├── AGENTS.md # 入口导航项目二、三├── docs/ # 分层文档项目三│ ├── architecture.md│ ├── api-conventions.md│ └── testing-guide.md│├── src/ # 业务代码│ └── ...│├── tests/ # 测试用例项目四、五│ ├── test_features/│ └── test_regression/│├── scripts/ # 验证与工具脚本项目四│ ├── validate.sh # 综合验证│ ├── typecheck.sh # 类型检查│ └── test.sh # 测试运行│├── .agent/ # Agent 工作区项目二、三、六│ ├── status.json # 运行时状态│ ├── plan.md # 执行计划│ ├── session-log.md # 会话历史│ ├── init.sh # 初始化脚本项目三│ └── logs/ # 执行日志项目六│ └── 2026-05-09/│ └── session-001.log│└── .github/ # CI/CD项目六 └── workflows/ └── agent-metrics.yml # 自动生成 Agent 周报每层的设计意图AGENTS.md docs/信息分层Agent 按需读取tests/ scripts/验证闭环Agent 自我纠错.agent/状态持久化 可观测性Agent 不断片、不黑盒.github/workflows自动化运维人类不介入也能持续改进06 写在最后Harness 工程的长期主义搭建完整的 Harness 不是一次性项目是持续演进的过程。第一阶段生存0-2 周建立 AGENTS.md配置基础验证脚本让 Agent 能独立完成简单任务第二阶段可靠2-8 周完善状态管理和交接机制建立多层级验证闭环让 Agent 能处理复杂任务且成功率稳定在 80%第三阶段优化8 周以后建立可观测性和指标系统基于数据持续优化 Harness让 Agent 的产出质量逼近人类工程师第四阶段自治长期目标Agent 能自己发现并修复 Harness 的缺陷Agent 能根据项目演进自动更新 AGENTS.mdAgent 能基于指标自我调优这个系列的核心信念是Agent 的可靠执行取决于 Harness 的完备程度而非模型本身的参数量。OpenAI 的五个月实验、Anthropic 的对照测试、以及这门课程里的六个项目都在验证同一个结论换的是马鞍不是马。最后对于正在迷茫择业、想转行提升或是刚入门的程序员、编程小白来说有一个问题几乎人人都在问未来10年什么领域的职业发展潜力最大答案只有一个人工智能尤其是大模型方向当下人工智能行业正处于爆发式增长期其中大模型相关岗位更是供不应求薪资待遇直接拉满——字节跳动作为AI领域的头部玩家给硕士毕业的优质AI人才含大模型相关方向开出的月基础工资高达5万—6万元即便是非“人才计划”的普通应聘者月基础工资也能稳定在4万元左右。再看阿里、腾讯两大互联网大厂非“人才计划”的AI相关岗位应聘者月基础工资也约有3万元远超其他行业同资历岗位的薪资水平对于程序员、小白来说无疑是绝佳的转型和提升赛道。如果你还不知道从何开始我自己整理一套全网最全最细的大模型零基础教程我也是一路自学走过来的很清楚小白前期学习的痛楚你要是没有方向还没有好的资源根本学不到东西下面是我整理的大模型学习资源希望能帮到你。扫码免费领取全部内容最后1、大模型学习路线2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、 入门必看大模型学习书籍文档.pdf书面上的技术书籍确实太多了这些是我精选出来的还有很多不在图里4、AI大模型最新行业报告2026最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、面试试题/经验【大厂 AI 岗位面经分享107 道】【AI 大模型面试真题102 道】【LLMs 面试真题97 道】6、大模型项目实战配套源码适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】