大模型推理：从输入到输出的完整流程解析，让你秒懂AI“思考”过程！

张

张建站

2026/6/27 7:27:34

10分钟阅读

大模型是怎么样推理的当你打开 AI 聊天的网页输入问题按下发送不一会儿对面就开始“哒哒哒”地逐字给你回复了。在 AI 时代我们不能只停留在“会用”上起码得稍微懂点它背后的原理。在这篇文章里我就来和大家聊聊看看大模型推理这玩意儿到底是怎么一回事本文仅从整个 pipeline 的角度做一个综述涉及到的具体细节之后的文章中再谈。可跳至后面的端到端推理流程部分。什么是大模型在一切开始之前先简要介绍一下大模型大模型是基于 Transformer 架构的深度神经网络。接下来我将逐步介绍文本如何被计算、数据如何流动。分词和词嵌入文本本身是不能被计算的那么首先需要把文本转化为计算机能理解的数学表示——高维向量。• 第一步将输入的文本进行分词即将一段文本按照给定方式划分成词元Token——词元是大模型中定义的自然语言文本的基本单位。一个词元对应一个整数所有词元构成一个词表。• 第二步分词之后将词元从整数映射到高维空间的向量。位置编码自注意力机制是无法记录词元先后顺序故引入位置编码这个概念来记录先后顺序。Decoder only Transformer 架构带有位置信息的向量序列依次穿过所有堆叠的解码器块。推理的 Prefill 和 Decode大模型的推理过程通常分为两个截然不同的阶段• Prefill当大模型接收到你输入的 prompt 时它需要先“理解”这些上下文。在这个阶段模型会将输入的所有 Token 一次性并行输入到 Transformer 中进行前向传播计算。因为是并行计算这个阶段能极大地发挥 GPU 矩阵乘法的并行算力。计算完成后模型会输出第一个生成的词First Token并且会计算出输入序列的 Key 和 Value 向量为下一步做准备。这一步是计算密集型。• Decode当你看到屏幕上的字一个一个蹦出来时模型正处于 Decode 阶段。大模型的生成是自回归Autoregressive的这意味着它每次只能生成一个词元并且生成下一个词元时需要依赖之前输入的所有内容加上刚刚生成的所有词元。因为每次只能算一个词元无法像 Prefill 那样大规模并行所以这个阶段的速度相对较慢。这一步是 IO 密集型。KV Cache既然 Decode 阶段每次生成新词都需要看前面的所有词就意味着前面词的注意力Attention需要被重复计算无数次为了避免这种巨大的算力浪费KV Cache 应运而生。在 Transformer 的自注意力计算中每个 Token 都会映射成 Query (Q)、Key (K) 和 Value (V)。• 在生成新词时我们只需要当前最新 Token 的 Q 去和之前所有 Token 的 K 匹配计算注意力分数再乘以之前所有 Token 的 V。• 因此我们可以把之前所有 Token 的 K 和 V 缓存Cache在显存里。每次生成新词只需计算新词的 Q、K、V然后把新的 K 和 V 追加到缓存中。总结来说KV Cache 就是一种“以空间换时间”的策略通过消耗显存来大幅降低重复计算。量化面对动辄几十亿、几百亿甚至上千亿的大模型参数如果使用标准的半精度浮点数FP16/BF16每个参数占 2 字节存储往往需要极其庞大的显存。比如 70B 的模型仅仅是权重就需要约 140GB 显存这使得个人电脑甚至单张高端服务器显卡都无法运行。量化Quantization 就是给模型“瘦身”的技术。它将模型权重甚至激活值从 16 位浮点数压缩到 8 位整数INT8甚至 4 位整数INT4。• 优势显存占用成倍降低同时由于读取的数据量变小极大缓解了 Decode 阶段的访存带宽瓶颈推理速度显著提升。• 代价会带来精度损失。端到端推理流程将以上所有概念串联起来一次完整的对话推理流程如下用户输入输入一段自然语言文本Prompt。分词Tokenization分词器将文本切分成计算机能看懂的 Token IDs。词嵌入与位置编码Embedding Positional Encoding将 Token IDs 转换为高维向量并注入位置信息让模型知道词的先后顺序。预填充Prefill模型并行处理所有输入向量计算并缓存下它们的 KV Cache。最终输出一个概率分布并采样出生成的第一个预测词First Token。反分词与展示Detokenization Streaming将刚刚生成的 Token ID 转换回人类可读的文字立刻在屏幕上展示给用户这就是你看到的第一字。解码循环Decode Loop• 将刚刚生成的 Token 作为新的输入。• 利用已有的 KV Cache仅计算新 Token 的 Q、K、V。• 新 Token 的 Q 与缓存中所有的 K包含自身计算注意力生成下一个词。• 更新 KV Cache将新词转为文字流式展示给用户“哒哒哒”的打字效果。结束条件不断重复步骤 6直到模型生成了特殊的结束符EOS Token或达到了设定的最大长度推理结束。大模型推理框架在实际的生产环境中我们通常不会手写推理代码而是使用成熟的推理框架来处理并发、内存分配和极致优化。主流的推理框架包括• vLLM目前最流行的开源推理框架之一首创了 PagedAttention 技术像操作系统管理内存分页一样管理 KV Cache极大提升了系统的吞吐量。• TensorRT-LLMNVIDIA 官方推出的推理库对自家 GPU 底层做了极致优化性能天花板极高但部署相对复杂。• TGI Text Generation InferenceHuggingFace 开发的框架与 HF 生态集成极好开箱即用。• Llama.cpp专为 CPU 和边缘设备如 Mac、手机端优化的纯 C 框架使得在消费级硬件上跑大模型成为可能。性能监测要评估一个大模型推理服务的好坏我们通常会关注以下几个核心指标• 首字延迟 (TTFT - Time To First Token)从用户点击发送到看到第一个字出现的时间。它主要反映了网络延迟和模型 Prefill 阶段的耗时。• 每个输出词元时间 (TPOT - Time Per Output Token)生成第一个词之后后续每个词生成的平均时间。它反映了 Decode 阶段的速度。• 吞吐量 (Throughput)服务器每秒钟能生成的所有 Token 总数Tokens/s。这是衡量推理框架并发处理能力的最重要指标。• 显存占用 (VRAM Usage)监控权重、KV Cache 和上下文长度对显存的消耗防止 OOM (Out of Memory) 崩溃。假如你从2026年开始学大模型按这个步骤走准能稳步进阶。接下来告诉你一条最快的邪修路线3个月即可成为模型大师薪资直接起飞。阶段1:大模型基础阶段2:RAG应用开发工程阶段3:大模型Agent应用架构阶段4:大模型微调与私有化部署配套文档资源全套AI 大模型学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】配套文档资源全套AI 大模型学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】

十大AI写作工具迎来深度评测，AIGC论文助手从功能性、稳定性等维度出发，量化分析其核心表现。

工具名称核心优势适用场景 aicheck 快速降AIGC率至个位数 AIGC优化、重复率降低 aibiye 智能生成论文大纲论文结构与内容生成 askpaper 文献高效整合开题报告与文献综述秒篇降重效果显著重复率大幅降低一站式论文查重降重查重改写一站式完整论文优化…...

2026/5/29 18:58:16 阅读更多 →

OmniNxt项目深度体验：在树莓派上跑通四相机同步与稠密建图是种什么体验？

OmniNxt项目深度体验：在树莓派上跑通四相机同步与稠密建图是种什么体验？ 当树莓派遇到四路OAK相机，会擦出怎样的火花？作为一名长期扎根嵌入式视觉开发的工程师，我最近花了三周时间在树莓派4B上完整部署了OmniNxt开源项…...

2026/5/6 11:50:34 阅读更多 →

值类型与引用类型：别再只背“栈和堆”了，看这个实际影响翟

基础示例：单工作表 Excel 转 TXT 以下是将一个 Excel 文件中的第一个工作表转换为 TXT 的完整步骤： 1. 加载并读取Excel文件 from spire.xls import * from spire.xls.common import * workbook Workbook() workbook.LoadFromFile("示例.xlsx"…...

2026/5/4 17:01:07 阅读更多 →

终极网盘直链下载指南：八大平台高速下载完全解决方案

终极网盘直链下载指南：八大平台高速下载完全解决方案【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云…...

2026/6/27 5:53:43 阅读更多 →

抖音无水印下载终极指南：专业级开源工具完全解析

抖音无水印下载终极指南：专业级开源工具完全解析【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. 抖…...

2026/6/26 6:36:40 阅读更多 →

考研英语黄皮书pdf|考研英语黄皮书原文外教朗读|考研英语真题手译本电子版

考研英语黄皮书pdf|考研英语黄皮书原文外教朗读|考研英语真题手译本电子版资料全科都有考研英语黄皮书 PDFhttps://tool.nineya.com/s/1jpq3effr 【英语真题】1. The word "resilient" means（ ） A. able to recover quickly B. very fragile C…...

2026/6/27 5:04:19 阅读更多 →

中兴光猫权限解锁工具：zteOnu完整使用指南与教程

中兴光猫权限解锁工具：zteOnu完整使用指南与教程【免费下载链接】zteOnu A tool that can open ZTE onu device factory mode 项目地址: https://gitcode.com/gh_mirrors/zt/zteOnu 中兴光猫权限解锁工具zteOnu是一款专门用于开启中兴光猫设备工厂模式的强大…...

2026/6/26 11:04:54 阅读更多 →