收藏！小白程序员必看：用8192维度理解大模型如何生成文字的循环奥秘

张

张建站

2026/5/23 23:56:02

10分钟阅读

大模型的核心功能是预测下一个词通过循环实现文本生成。文章首先介绍了从文本到向量的过程包括分词Tokenization和查表Embedding。接着详细解释了Transformer的关键操作注意力机制Attention用于收集上下文信息前馈神经网络FFN用于调用参数中的知识。模型通过100层Transformer加深理解每层交替进行Attention和FFN操作。文章还讨论了KV Cache的优化作用以及大模型常见的五种错误原因如幻觉、信息丢失、注意力稀释等帮助读者全面理解大模型的工作原理。大模型做的事只有一件给定前面的文字预测下一个词。把这个动作放进循环就能生成一段话。理解这个循环里发生了什么就理解了大模型的全部。从文字到向量Tokenization 和 EmbeddingTokenization拆字模型不认识文字只认识数字。用户输入的文本先被 BPEByte Pair Encoding分词器拆成子词单元unhappiness → [un, happiness] → [359, 98372] Hello world → [Hello, world] → [9906, 1917] 你好世界 → [你好, 世界] → [12043, 45892]BPE 的规则很简单训练时统计字节对出现频率反复合并最高频的对直到词表达到约 10 万个 token。高频词整个是一个 token便宜罕见词被拆成多个贵。Embedding查表每个 token ID 查一张大表得到一个 8192 维的浮点向量。再加上位置编码告诉模型这是第几个 token就得到了模型的输入矩阵5 个 token → shape [5, 8192] 的矩阵Transformer 的两个核心操作Attention 和 FFN每一层 Transformer 做两件事Attention 负责从当前文本中收集上下文FFN 负责从参数中调用存量知识。Attention阅读理解Attention 让每个 token 去看它前面的所有 token决定该关注谁。核心操作每个 token 的向量乘以三个权重矩阵分别得到 Q查询、K索引、V内容。然后用 Q 和所有 K 算相似度按相似度加权混合 V小明把球踢给了小红她处理她时 Q₇ · K₅(小红) 0.9 ← 高相似度 Q₇ · K₃(球) 0.1 ← 低相似度输出 ≈ 0.7×V₅ 0.1×V₃ ... → 她的向量融入了小红的信息因果限制每个位置只能看前面不能看后面后面还没生成。多头机制每层有 64 个 attention head 并行工作各自捕捉不同的关系——有的看语法有的看语义有的看局部。FFN记忆回想FFN 是两层神经网络工作方式类似键值数据库FFN(x) W2 × ReLU(W1 × x) W1 的每一行一个模式探测器 W2 的对应列探测到该模式时输出的知识当输入向量匹配某个探测器时对应的知识被注入到输出中。比如处理北京相关的上下文时检测到城市地理属性模式的探测器激活W2 输出中国首都方向的信息。FFN 参数占模型总参数量的大头约 540 亿 / 100 层是存量知识的主要仓库。逐层加深理解两个操作交替进行 100 层每层的输出是下一层的输入通过残差连接output input 计算结果保证信息不丢失。第 1-20 层 : 语法、词性、基本搭配第 20-60 层: 语义理解、指代消解第 60-100 层: 推理、决策、回复规划信息传播的关键第 1 层时什么只能直接看到是和首都。但到了第 2 层首都已经通过第 1 层吸收了北京的信息。“什么看首都时间接获得了北京”。每多一层信息就多传播一跳。100 层后最后一个 token 的向量汇聚了整个 prompt 的信息。KV Cache不要重复算请求内的 KV Cache每一层的 Attention 计算完 K 和 V 后把它们存下来。生成下一个 token 时只需算新 token 的 Q、K、V然后用 Q 去查已缓存的所有 K不用重新计算前面的。无 Cache生成第 1001 个 token 要算 1001 次 K/V → O(n²) 有 Cache只算 1 次新的 K/V读 cache → O(n)跨请求的 Prompt Cache你和 Claude 对话时每轮都要发完整的 system prompt 工具定义对话历史。前缀大部分不变。Prompt Cache 把上次请求的前缀 KV 保留在 GPU 内存中TTL 5 分钟。下次请求如果前缀匹配直接加载跳过 prefill。Claude Code 的 system prompt 约 8000 token缓存命中后只需 prefill 新增的几百 token省掉 90% 的计算。前缀必须完全一致——因为因果 attention 下任何位置的 K/V 依赖前面所有 token。中间改了一个字后面全部失效。路由保证缓存命中缓存在 GPU 显存里下次请求要落在同一组 GPU 才能命中。实际通过三层策略解决全局热缓存所有节点都有 system prompt 的 KV、亲和路由同一 session 的请求路由到同一节点、共享缓存池cache miss 时从共享存储加载。一次请求的完整旅程从你按下回车到看到回复Claude Code 组装 promptsystem prompt 工具定义对话历史你的输入拼成约 8000-10000 tokenHTTPS 发送到 API 网关鉴权、限流、计费调度系统路由找到一组空闲 GPU检查 Prompt Cache 命中Prefill 阶段如果缓存命中只需计算新增 token 的 KV50ms否则全量计算500ms。这段时间你在等待第一个字出现Decode 循环每个 token 跑完 100 层 Transformer预测下一个词~30ms/token。每生成一个就 streaming 返回你看到文字逐字出现生成 EOS结束符循环终止释放 KV Cache前缀部分保留为 Prompt CacheDecode 阶段 GPU 利用率低——每次只算一个 token 的矩阵×向量乘法大部分核心在等数据。服务商通过 continuous batching把多个用户的请求凑在一起算来提高效率。大模型犯错的五个原因幻觉FFN 知识混合出错FFN 参数有限但知识无限多相似知识被压缩到同一组参数中superposition。当输入同时激活多个相关但不同的探测器时输出是它们的混合——可能产生合理但不正确的结果。问: 《狂人日记》发表于哪一年探测器 A: 检测鲁迅发表 → 激活 1918、1921多个作品探测器 B: 检测代表作 → 训练数据中常和《阿Q正传》共现 → 偏向 1921 大多数时候 1918 赢。偶尔混合失误 → 输出 1921。Lost in the Middle中间信息被忽略Softmax 归一化让 attention 总和 1。开头有位置编码优势结尾距离最近。中间位置两头不占——在一个 10000 token 的文档里中间某处提到的关键信息可能被忽略。Attention 稀释5 个 token 时每个位置分到 ~0.2 的注意力。5000 个 token 时每个位置只有 ~0.0002。prompt 越长单个细节被关注到的概率越低。位置编码距离衰减RoPE 位置编码让远距离 token 的 attention score 天然偏低。大多数时候这是合理的近处信息更相关但长距离指代关系会受影响。等等不对的真相你在 Claude Code 里见过回复中出现等等不对应该是…。这不是自我意识——只是当已生成的内容和前文矛盾时等等成了概率最高的下一个 token。已生成: 我们用 useState... 上下文: server component FFN 知识: server component 不能用 hooks 矛盾信号 → 等等的概率飙升 → 模型输出纠正本质上和生成任何其他 token 的过程完全一样。这就是 chain-of-thought 和 extended thinking 有效的原因生成的推理过程本身变成了后续 token 的上下文每一步中间结果都降低了最终出错的概率。但对微妙错误年份差一年、参数本身存错的知识纠正机制无能为力。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

美国景观变化监测系统：1985-2025年美国本土及海外地区的年度遥感监测数据，包含30米分辨率的变化、土地覆盖和土地利用三类产品

简介此产品是景观变化监测系统 (LCMS) 数据套件的一部分。它显示了每个年份的 LCMS 模式变化、土地覆盖和/或土地利用类别，涵盖美国本土 (CONUS) 以及 CONUS 以外的地区 (OCONUS)，包括阿拉斯加 (AK)、波多黎各-美属维尔京群岛 (PRUSVI) 和夏威夷 (HI)。…...

2026/5/23 23:53:17 阅读更多 →

CANN-ATB量化推理-昇腾NPU上W8A8量化为什么比W4A16更实用

Llama2-70B 权重 140GB，8 卡 TP 刚好放得下但没什么余量给 KV Cache。W8A8 量化把权重从 fp16 压到 int8，权重体积减半，4 卡就能跑 70B。W4A16 理论上压得更狠（4 倍压缩），但精度损失在实际业务里往往不可接…...

2026/5/23 23:49:07 阅读更多 →

Google I/O 2026 发布会全记录暨 Gemini 3.5 发布

19-20日是Google 的 I/O 2026 发布会，感觉很久没有谷歌的声音了，印象中光听说 OpenAI，Claude 和 Deepseek，GLM 了。大模型方面也逐渐从掉队的状态，到非常接近的状态：发布的Gemini 3.5，也被行业里…...

2026/5/23 23:36:08 阅读更多 →

告别手慢无！自动化抢票系统让你轻松搞定热门演出门票

告别手慢无！自动化抢票系统让你轻松搞定热门演出门票【免费下载链接】ticket-purchase 大麦自动抢票，支持人员、城市、日期场次、价格选择项目地址: https://gitcode.com/GitHub_Trending/ti/ticket-purchase 还在为抢不到心仪的演唱会门票而烦…...

2026/5/24 0:04:25 阅读更多 →

Pearcleaner：macOS应用彻底清理的终极解决方案，释放宝贵磁盘空间

Pearcleaner：macOS应用彻底清理的终极解决方案，释放宝贵磁盘空间【免费下载链接】Pearcleaner A free, source-available and fair-code licensed mac app cleaner 项目地址: https://gitcode.com/gh_mirrors/pe/Pearcleaner 你是否曾经遇到过这…...

2026/5/24 0:22:18 阅读更多 →