一、整体认知框架现代 AI 系统不能只理解为“一个会聊天的模型”更应该理解为一个分层系统1. 模型层TransformerLLMTokenizerToken2. 运行时信息层ContextContext WindowPromptSystem PromptUser Prompt3. 外部能力扩展层ToolTool CallingMCPRAG4. 应用执行层AgentAgent Skill二、概念笔记1. LLM定义LLMLarge Language Model大语言模型是基于 Transformer 架构训练出来的语言模型。本质它的本质可以理解为一个“高级文字接龙系统”根据已有上下文预测下一个最可能出现的 Token。关键特征本质是概率预测输出是逐 token 生成的不具备真正意义上的长期记忆不直接执行外部操作需要借助 Context、Prompt、Tool 才能形成完整应用能力容易混淆的点很多人会把 LLM 理解为“像人一样思考”。更准确地说它底层是在做序列建模与概率生成。关联基于 Transformer处理单位是 Token工作时依赖 Context通过 Prompt 接收任务借助 Tool 扩展外部能力被 Agent 用作核心推理与生成引擎2. Transformer定义Transformer 是现代大模型的底层神经网络架构。作用它擅长处理长文本序列中的依赖关系是绝大多数现代 LLM 的基础。学习意义理解 Transformer 是理解现代 AI 技术栈的起点但在应用层面更重要的是知道LLM 建立在它之上它支持长序列建模它推动了现代生成式 AI 的爆发关联支撑 LLM3. Token定义Token 是大模型处理文本时使用的最小/基本单位。注意Token 不等于一个汉字一个英文单词一个自然语言词语它是模型内部使用的切分单位。1个token对应的是0.75个英文单词/1.5-2个汉字。那么40万token本质上对应的是60-60万个汉字或者30万个英文单词。重要性Context Window 的容量通常按 token 计算API 成本通常按 token 计算输入输出长度限制也通常按 token 计算关联由 Tokenizer 编码和解码构成 Context 的基本单位是 LLM 的输入输出粒度https://platform.openai.com/tokenizer4. Tokenizer定义Tokenizer 是把自然语言文本和模型内部数字表示连接起来的编码/解码模块。两个核心功能编码文本 → Token / token ID解码token ID → 文本本质因为 LLM 本质上只能处理数字不能直接处理自然语言所以必须依赖 Tokenizer。关联负责生成 Token服务于 LLM5. Context定义Context 是模型在当前任务中能“看到”的全部信息总和。通常包括System PromptUser Prompt历史对话用户输入当前返回结果/输出工具列表本质理解Context 可以看作模型的“临时记忆体”。模型不是永久记住之前聊过的话而是平台每次调用时把相关历史重新打包给模型。关键意义决定模型当前知道什么决定模型能否保持对话连续性决定工具结果能否参与推理决定长任务是否会“失忆”关联容量受 Context Window 限制内容常由 Prompt、Tool 结果和历史消息组成是 LLM 每次推理的直接输入环境6. Context Window定义Context Window 是模型一次最多能处理的 token 数量上限。作用它决定模型最多能看多少信息最多能记住多少对话历史能否一次处理长文档是否需要 RAG 或分块策略学习意义理解 Context Window 后就能理解长对话为什么会遗忘大文档为什么要切分为什么系统设计要重视上下文管理关联限制 Context 的容量与 RAG 密切相关目前主流模型的context window的大小为GPT-5.4: 105万Gemini 3.1 pro: 100万claude opus 4.6: 100万7. Prompt定义Prompt 是输入给模型的指令、问题或约束信息。prompt engineering提示词工程即让大模型更精准的理解你的意图即告知大模型它是谁它应该按照什么规则做事作用它决定模型要做什么以什么方式回答输出格式是什么重点关注哪些信息分类System Prompt说明人设和规则的它是开发者自己在后台配置的Tool工具/函数给定输入得到输出。给大模型提供一套它可以调用的外部能力让大模型能感知外部的环境User Prompt说明具体任务即用户自己输入的学习意义Prompt 并不神秘本质上是任务表达和行为约束的设计。关联是 Context 的重要组成部分用于驱动 LLM在 Agent 中常与 Agent Skill 配合使用7.1. System Prompt定义System Prompt 是系统层面的全局规则说明。作用它通常用于定义模型角色回答风格行为边界全局优先级例子你是一名数学老师回答要循序渐进不直接给最终答案与 Agent Skill 的区别System Prompt 更偏“总规则”和“角色设定”Agent Skill 更偏“场景化执行手册”。关联属于 Prompt是 Context 的一部分与 User Prompt 共同约束 LLM7.2. User Prompt定义User Prompt 是用户直接输入的具体问题或任务。例子帮我总结这篇文章帮我查明天天气解释一下 MCP 是什么作用它定义当前任务目标。关联属于 Prompt是 Context 的组成部分与 System Prompt 一起驱动 LLM8. RAG定义RAGRetrieval-Augmented Generation是检索增强生成。核心思想不是把所有知识直接塞进 Context而是先从外部资料中检索出最相关内容再发给模型。解决的问题Context Window 有限全量塞入成本高模型需要更准确的外部知识支持典型场景企业知识库问答文档问答长资料理解搜索增强生成关联用于缓解 Context Window 限制常与 LLM 和 Agent 一起使用9. Tool定义Tool 本质上是一个函数或外部能力接口。它能做什么查询天气搜索网页访问数据库调地图服务执行代码发邮件读写文件为什么需要工具LLM 本身只会输出文本它不能直接感知实时世界也不能直接执行程序操作。Tool 用于补足这部分能力。关键理解LLM 不会“直接执行工具”它只会输出“调用建议”或“调用指令”。关联调用流程见 Tool Calling工具接入标准见 MCP常被 Agent 使用10. Tool Calling定义Tool Calling 指模型发出工具调用意图由平台执行工具再把结果回传模型的过程。标准流程用户提出问题平台把问题和可用 Tool 列表发给模型模型判断要调用哪个工具并生成调用指令平台实际执行工具平台把结果发回模型模型生成最终回答核心认知模型只负责“决定调用什么”真正负责“执行”的是平台。为什么必须有平台因为 LLM 本质是数学函数只能输出文本不能直接运行代码或操作外部系统。关联基于 Tool常见于 Agent工具接入规范可由 MCP 统一11. MCP定义MCPModel Context Protocol是一种统一的模型工具接入协议。工具如何接到平台如果我们使用chatGPT则需要按照openAI的介入规范将工具接入到平台如果用的Claude则需要按照anthropic的接入规范如果使用Gemini则需要按照Google的接入规范将工具接入到平台MCP因此就有开发者想统一一套标准所有的工具开发者都只需要写一套tool代码就能接入到不同的平台。要解决的问题不同模型平台的工具接口规范不同导致工具难复用接入成本高维护复杂MCP 的价值让开发者可以按照统一规范接入工具提高跨平台兼容性。类比像统一充电口或统一接口标准。本质MCP 的重点不是让模型更聪明而是让工具生态更标准化、更容易集成。关联服务于 Tool 生态方便 Agent 集成外部能力12. Agent定义Agent 是具备任务拆解、规划、工具调用和迭代执行能力的系统。核心能力理解目标拆解步骤调用多个 Tool根据中间结果继续判断下一步直到完成任务与普通聊天机器人的区别普通对话模型通常是“一问一答”Agent 更像“接收目标后自主执行流程”。典型特征多步自主目标导向可调用外部工具能进行中间状态迭代关联内部通常依赖 LLM常使用 Tool / Tool Calling复杂任务中常结合 Agent Skill13. Agent Skill定义Agent Skill 是给 Agent 准备的一份结构化操作说明文档通常使用 Markdown 编写。通常包含任务目标步骤说明判断逻辑输出格式示例异常处理规则作用它把复杂 prompt 或流程经验沉淀下来让用户不必每次重复输入长指令。当agent skills定义完成后我们需要存储到电脑指定的位置里。比如Claude code我们需要找到用户目录下的./claude/skills文件夹接下来存放操作必须满足两个规定在目录下新建一个文件夹文件夹必须与agent skills名字相同如我们的agent skills的文件名为go-out-checklist那么则需要命名一个文件夹名字为go-out-checklist. 进入到go-out-checklist文件夹后必须命名一个名字为“SKILL.md”的文件并将agent skills的内容贴进去。本质Agent Skill 更像一份“可复用 SOP”。与 System Prompt 的区别System Prompt偏全局规则与角色设定Agent Skill偏具体场景中的详细执行流程额外要点“渐进式披露”思路不是一次性加载所有 skill 内容而是在需要的时候再加载对应部分以节省 token。关联服务于 Agent与 Prompt 有重叠但更结构化受 Context Window 限制影响三、关键问题理解1. 为什么 LLM 不能直接调用 Tool因为 LLM 本质上只是一个数学模型。 它的输出形式只有文本或结构化文本。它不能真的发请求查数据库跑代码操作系统模型只能输出“请调用某个工具并传入这些参数”的意图真正执行的是平台程序。2. 为什么要有 MCP工程问题如果每个平台都有一套自己的工具接入方式那么开发者就要重复造轮子。MCP的意义降低接入成本提高跨平台复用能力促进生态标准化3. 为什么 Agent 比普通聊天更强因为它不只是回答它能规划分步执行调工具看中间结果继续推进任务所以本质区别是普通聊天回答问题Agent完成任务四、整套逻辑的最简总结一句话总结现代 AI 系统的核心机制是用 LLM 作为语言生成引擎用 Context 承载任务信息用 Prompt 约束行为用 Tool 连接外部世界用 MCP 实现标准化接入再通过 Agent 和 Agent Skill 完成复杂任务。