从“提示词工程“到“Harness工程“:AI工程化三步进化，普通人也能驾驭大模型！

张

张建站

2026/6/1 0:07:08

10分钟阅读

从“提示词工程“到“Harness工程“:AI工程化三步进化，普通人也能驾驭大模型！

文章梳理了AI工程化的三代演进路径提示词工程、上下文工程和Harness工程。提示词工程通过设计输入文本引导模型输出但模型无记忆且不可控上下文工程将更多信息注入上下文窗口实现开卷考试但仍受限于窗口大小和缺乏验证Harness工程则通过设计完整的运行环境包括工作流、约束、反馈循环、工具链等使AI Agent能自主、可靠地完成任务如同给马配备缰绳、马鞍等装备。文章强调AI工程化是不断升级控制平面的过程最终目标是让人工师从写代码转变为设计Harness驾驭AI Agent高效工作。在这里插入图片描述“Agents aren’t hard; the Harness is hard.”— OpenAI Codex 团队在这里插入图片描述在这里插入图片描述本文梳理 AI 工程化的三代演进路径提示词工程 → 上下文工程 → Harness 工程。每一代解决什么问题、留下什么局限最终如何走向设计缰绳的新范式。使用AI方式的变化在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述上图展示了 AI 使用方式的演进从直接对话 → 提示词设计 → 上下文组装 → 运行环境编排。一、大模型是什么是什么大语言模型LLM是一个超大规模的下一个词预测器。它通过阅读互联网上万亿级文本学会了语言的统计规律——给定上文预测最可能的下一个词。当模型参数大到一定程度会突然涌现出推理、编程、翻译等能力。⚡ 核心矛盾大模型能力很强但行为不可控。这就好比你雇了一个超级聪明但完全不听指挥的天才员工。怎么让他好好干活这就是接下来三代 AI 工程要解决的问题。在这里插入图片描述在这里插入图片描述共识• 大模型的每一次回答都是数学计算的结果——输入文本经神经网络逐 token 概率采样模型的思考Deep-Think本质是矩阵运算而非真正的理解。• 大模型本身是无状态的——每次推理都从零开始不保留任何历史信息。 **看起来有记忆是因为应用层把对话历史塞进了上下文窗口。**一旦超出窗口或开启新会话记忆就消失了。• 大模型的上下文窗口是有限的4K~200K tokens 不等。超出窗口的内容会被截断模型看不到。这意味着它不能无限记住你说过的话也不能一次性处理超长文档。二、第一次进化提示词工程Prompt Engineering2022-2024为什么需要提示词工程大模型虽然强大但它本质上是一个**“被动执行者”**——你给什么输入它就给什么输出。同样的模型不同的问法结果天差地别• “帮我写个总结” → 模型可能给一段泛泛而谈的废话• “你是一位资深产品经理请用 3 个要点总结以下会议纪要每点不超过 20 字” → 精准、可用核心驱动力有三个模型不可改输入可改2022-2024 年间主流模型GPT-3.5/4、Claude 2/3都是闭源的开发者无法修改模型权重唯一能控制模型行为的手段就是调整输入文本。提示词工程是唯一可用的控制杠杆。成本门槛倒逼效率早期 API 调用按 token 计费一次失败的调用白花钱。精心设计提示词能一次性命中减少试错成本。在企业场景中提示词质量直接决定了项目能不能跑通。涌现能力需要激活大模型的推理、编程、翻译等能力并非自动发挥——它们像休眠的火山需要特定的输入模式才能唤醒。Chain-of-Thought 让模型展现推理能力Few-shot 让模型理解任务格式。提示词工程本质上是人类摸索模型能力边界的过程。一句话总结提示词工程不是锦上添花而是在模型不可控的前提下人类找到的第一把控制钥匙。是什么通过精心设计**输入文本提示词**来引导大模型产出期望结果的技术。核心技巧• Few-shot Learning给几个示例让模型照葫芦画瓢• Chain-of-ThoughtCoT让模型一步步想而不是直接跳到答案• Role-playing让模型扮演专家角色• 格式约束明确规定输出格式在这里插入图片描述⚠️ 遇到了什么问题• 没有记忆每次对话都是失忆状态• 无法访问外部知识只知道自己训练时见过的内容• 复杂任务一步搞不定需要多步推理、多工具协作时单条提示词远远不够• 提示词越写越长维护困难互相冲突在这里插入图片描述在这里插入图片描述三、第二次进化上下文工程Context Engineering2025在这里插入图片描述为什么需要上下文工程提示词工程解决了怎么问的问题但解决不了模型知道什么的问题。随着模型上下文窗口从 4K 扩展到 200K tokens一种新的思路出现不再只优化提示词而是把所有相关信息都塞进上下文窗口。核心驱动力上下文窗口变大GPT-4128K、Claude 3200K让塞更多信息成为可能开源模型兴起Llama、Mistral 等开源模型让开发者可以自定义模型行为不再只是调 APIRAG 技术成熟检索增强生成让模型能查资料不再只靠训练时的记忆一句话总结上下文工程把模型从闭卷考试变成开卷考试——给它所有需要的信息让它自己组织答案。关键能力• RAG检索增强生成先从知识库中检索相关文档再塞进上下文• 工具调用Tool Use让模型能调用外部 API、函数、数据库• 记忆系统短期记忆当前对话长期记忆跨会话持久化是什么由 Andrej Karpathy 等人推动。核心思想动态构建模型的完整上下文窗口——不只是一个提示词而是把文档、对话历史、工具定义、检索结果全部组装进去。类比提示词工程是写一封邮件上下文工程是把所有相关附件都塞进邮件里。在这里插入图片描述⚠️ 遇到了什么问题• 上下文窗口有限即使扩展到 200K tokens复杂项目的信息也装不下• 模型不知道自己做对了没有没有自我验证和纠错机制• 多步协作困难需要多个 Agent 分工合作时缺乏编排机制关键实验用同样的模型、同样的数据、同样的提示词仅改变运行环境编程基准测试成功率从 42% 跳到 78%。模型能力不是瓶颈工程环境才是。四、第三次进化Harness Engineering驾驭工程2026⭐为什么需要 Harness Engineering上下文工程解决了模型知道什么但解决不了模型做错了怎么办。当 AI Agent 需要自主执行复杂任务时光有信息不够——需要约束、反馈、工具和安全机制。核心驱动力Agent 自主性提升从回答问题到执行任务需要完整的运行环境企业级可靠性需求生产环境不能容忍 Agent 犯错后无法纠正开源生态成熟Codex、Claude Code、Cursor 等工具验证了 Harness 的可行性一句话总结 Harness Engineering 把 AI 从聪明的实习生变成靠谱的员工——不是教它怎么做而是给它一套做好事的系统。是什么Harness 这个词来自马具——缰绳、马鞍、马镫、护目镜——是人类驾驭马匹的整套装备。在 AI 工程中Harness Engineering 指的是为 AI Agent 设计完整的运行环境——包括工作流、约束规则、反馈循环、工具链和生命周期管理。人类不直接写代码或写提示词而是设计缰绳引导 Agent 自主、可靠地完成任务。由 Mitchell HashimotoTerraform 创造者首次系统阐述后被 OpenAI、Anthropic、LangChain 等团队广泛采纳。在这里插入图片描述为什么能解决问题上下文工程的局限Harness 的解法模型犯错无人知没有验证机制Generator Evaluator 对抗式反馈复杂任务搞不定单次调用的局限工作流编排渐进式授权同样的错反复犯没有记忆教训永不重犯原则写入规则六大核心组件① 工作流编排 — 把大任务拆成小步骤定义执行顺序和条件分支② 约束与护栏 — 用系统而非提示词强制执行规则Linter、Type Check、ARCHITECTURE.md③ 反馈循环 — Anthropic 发现模型无法可靠地评估自己的工作。解决方案是 GAN 式双 Agent 架构Generator Evaluator④ 工具链 — 给 Agent 配备专业工具编辑器、终端、浏览器、日志、监控⑤ 知识管理 — 给 Agent 一张地图而不是一本 1000 页的说明书。AGENTS.md 只有 ~100 行充当导航目录⑥ 权限与安全 — 渐进式授权、沙箱执行、两击规则StripeCI 失败两次 → 升级人工在这里插入图片描述人类角色的转变传统角色Harness 时代角色写代码设计 Harness做 Code Review设计 Review Agent调试 Bug设计反馈循环写测试设计测试门控维护文档设计知识架构在这里插入图片描述五、总结三代工程横向对比维度提示词工程上下文工程Harness 工程时间跨度2022-202420252026-核心对象输入文本上下文窗口运行环境人类角色写提示词组装上下文设计缰绳控制方式文本引导信息注入系统约束典型技术CoT / Few-shot / RoleRAG / Tool Use / MemoryWorkflow / Guardrails / Feedback解决的问题怎么问模型给模型什么信息怎么让模型可靠地做事留下的局限无记忆、无验证窗口有限、无纠错工程复杂度高代表人物/工具OpenAI / LangChainKarpathy / RAGHashimoto / Codex / Claude Code最后我在一线科技企业深耕十二载见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**

NLP预处理失效？Gemini评论情感极性误判率高达43.7%，这4个校准动作必须立刻执行

更多请点击： https://kaifayun.com 第一章：Gemini用户评论分析对Gemini模型的用户反馈进行系统性挖掘，是评估其实际应用表现与用户体验的关键路径。我们从Google Play、App Store及Reddit等主流平台采集了2024年Q1期间公开的12,847条英文评…...

2026/6/1 0:05:14 阅读更多 →

鸣潮自动化革命：3步解放双手，智能刷取声骸与日常任务

鸣潮自动化革命：3步解放双手，智能刷取声骸与日常任务【免费下载链接】ok-wuthering-waves 鸣潮后台自动战斗自动刷声骸一键日常 Automation for Wuthering Waves 项目地址: https://gitcode.com/GitHub_Trending/ok/ok-wuthering-waves 你是否…...

2026/5/31 23:56:58 阅读更多 →