大白话讲解GPT底层原理
读完这篇文档你会搞清楚三件事GPT 和原始 Transformer 到底有什么不一样为什么不能混为一谈ChatGPT 那个打字机效果背后在发生什么模型有没有在思考全文为什么今天写 Prompt 讲究格式和结构这件事从 2018 年的论文里就能找到根源一、GPT 在解决什么问题在 GPT 出现之前做 NLP自然语言处理任务的套路是你有什么任务就专门为它训练一个模型。情感分析一个模型问答一个模型文本蕴含又一个模型——每个都要大量标注数据费时费力还不能互相复用。GPT 提出了一个不同的思路能不能先让模型读遍所有书学会语言本身然后再针对具体任务稍微调教一下这就是论文的核心贡献——预训练 微调两阶段范式。用一个比喻来理解GPT 的训练就像培养一个实习生。第一阶段让他广泛阅读、积累通识预训练第二阶段再送去不同岗位实习几天快速上手具体工作微调。二、图一解读GPT 的身体结构对应论文 Figure 1 左侧模型架构图2.1 整体结构一览GPT 的结构从下往上读分三层Text Position Embed ← 输入层把文字变成向量 ↓ 12× 解码器块 ← 处理层理解语义与上下文 ↓ Text Prediction / ← 输出层根据任务选不同的脑袋 Task Classifier2.2 输入层文字怎么进入模型模型不认识苹果这两个字它只认识数字向量。输入层做两件事Text Embedding词嵌入把每个词映射成一串数字比如苹果→[0.3, -0.7, 0.9, ...]维度是 768。Position Embedding位置嵌入告诉模型这个词排在第几位。因为注意力机制天然不感知顺序必须额外注入位置信息。GPT 的特别之处位置编码不是固定的三角函数原始 Transformer 的做法而是可学习的向量——模型自己在训练中摸索出最优的位置表示方式更灵活。最终每个 token 的表示 词向量 位置向量两者直接相加。2.3 处理层12 个解码器块堆叠这是 GPT 的核心12 个结构完全相同的解码器块串联信息从下往上流动逐层提炼。每个块只包含两个子结构① 掩码多头自注意力Masked Multi-Head Self-Attention注意力的本质是当模型处理某个词时让它去关注序列里其他词的信息。掩码Masked是关键限制只能看左边不能偷看右边。输入序列我 爱 中 国 处理中时能看到我 爱 中 处理中时不能看国被遮住了 → 模型要根据我 爱 中预测下一个词是国为什么要遮住因为 GPT 是生成模型训练时的任务是预测下一个词——如果让模型提前看到答案就没有任何学习意义了。多头12头的意思是同时从 12 个不同角度关注上下文比如一个头关注语法关系另一个头关注语义相似性最后把所有角度的信息拼合。② 前馈网络Feed Forward注意力层解决了关注哪里的问题前馈网络负责深化理解——对每个位置的表示做进一步的非线性变换提炼更抽象的语义特征。③ 残差连接 Layer Norm图中的 ⊕ 符号每个子层的输出都加上它的输入残差连接再做归一化。作用是保留原始信息防止深层网络训练时梯度消失让 12 层能稳定叠加。2.4 输出层两个可换的脑袋顶部有两个输出头根据任务切换输出头用途阶段Text Prediction预测下一个词输出整个词表的概率分布预训练Task Classifier提取最后一个 token 的表示做分类微调底座12 层 Transformer是共享的只有顶部的脑袋在换。这正是迁移学习的精髓。2.5 交给真实用户时两个头分别长什么样Task Classifier 头 → 用户看不见它。输出是概率列表直接被业务系统消费。你在美团看到的好评率 96%就是这个头在后台悄悄跑的结果用户全程感知不到模型存在。Text Prediction 头 → 就是打字机效果。ChatGPT / Claude 一个字一个字蹦出来本质是一个循环预测一个词 → 拼回输入 → 再预测下一个直到出现结束符。模型没有全局规划每步只往前走一格。GPT-3 之后两个头合并成了一个。分类任务不再换头直接让模型生成正面或负面这几个字。Task Classifier 头的功能被 prompt 格式彻底吸收——这就是为什么今天写 prompt 的结构比措辞更重要现代 LLM 只有一个头所有任务的区别全靠输入格式来传达。三、预训练让模型读遍天下书3.1 训练目标预测下一个词GPT 预训练的任务极其简单用一句话概括给你一段文字的前半段预测下一个词是什么。输入今天天气 模型输出很的概率 40%不的概率 25%真的概率 15%... 正确答案很 → 用正确答案反向调整模型参数这叫自回归语言建模Autoregressive Language Modeling。它的优雅之处在于训练数据完全不需要人工标注——任何一段文字天然就是训练样本前面的词是输入后面的词是标签。3.2 训练数据BooksCorpus论文使用了BooksCorpus语料库来源超过 7000 本英文小说完整文本规模约8 亿词特点语言自然流畅句子长、上下文完整非常适合训练长距离依赖能力为什么用小说而不是网页网页的句子往往短而碎小说有完整的情节逻辑更能让模型学会跨越长距离的上下文依赖。3.3 预训练学到了什么经过在海量文本上的预测训练模型被迫学会语法规则什么词性跟什么词性搭配语义知识苹果和水果是什么关系上下文依赖代词他指代的是前文哪个人物世界常识从书中读到的大量事实性知识这些能力都隐含在 12 层 Transformer 的权重里可以被后续任务直接复用。四、图二解读微调时的输入格式设计对应论文 Figure 1 右侧四种下游任务的输入格式4.1 微调的核心挑战GPT 是自回归语言模型输入必须是一段连续的文本序列。但现实中的 NLP 任务各式各样有的需要比较两段文字有的需要从多个选项里挑一个——怎么把这些任务都翻译成一段文字输入给模型论文给出的答案用特殊 token 做分隔把任务结构编码进输入序列本身。这是整篇论文工程价值最高的地方直接预示了现代 Prompt Engineering 的核心思路。4.2 四种任务格式逐一解读任务输入格式关键设计一句话说明适用场景分类[Start] 文本 [Extract]单段直接提取最简单从 Extract 位置读表示做分类情感分析、话题识别、垃圾邮件检测蕴含[Start] 前提 [Delim] 假设 [Extract][Delim]划定边界没有分隔符模型不知道两段文字各自的角色事实核查、逻辑推理、对话一致性判断相似度正反各跑一次结果拼接后接 Linear消除顺序偏差相似度是对称任务A→B 和 B→A 权重不同必须两次取平均问答匹配、重复问题识别、文档去重多选题每个选项单独一路各自打分Softmax 选最高N 路独立评分不把选项堆一起一眼扫让模型对每个选项单独建立注意力关系阅读理解、常识推理、工具/动作选择4.3 格式设计背后的统一原则详细解读参考公众h: 计算机知识的传播者六、对后世的影响GPT-1 本身并不强大参数只有 1.17 亿但它的范式影响深远GPT-2 / GPT-3同样的架构暴力扩参数 扩数据涌现出 few-shot / zero-shot 能力BERT把单向改成双向同样用预训练 微调但更擅长理解而非生成ChatGPT在 GPT-3 基础上加 RLHF人类反馈强化学习让模型学会对话GPT-4 / GPT-5从 GPT-4 起 OpenAI 转为闭源不再发表完整技术论文本文不作介绍现代 Agent把微调时输入格式设计的思路演化成了 Prompt Engineering再演化成了 Context EngineeringGPT-1 是一粒种子它的核心洞见是语言建模 通用智能的前置条件。学会预测下一个词的模型已经隐式地学会了理解世界。欢迎点赞加关注一起聊聊ai