【大模型12步学习路线 · 第11步 · ①原理篇】LLM 量化全景:从 INT4 / NVFP4 / BitNet 1.58 到 KV cache 量化,4× 压缩、3× 加速的工业魔法系列定位:「大模型正确学习顺序」12 步系列第 11 步 · 量化的 ①原理篇。前置阅读:第 9 步私有化部署 + 第 10 步微调 —— Veri-Copilot 已经有 SGLang + Qwen-Coder + SVA-LoRA。本篇产出:量化数学本质 +三层量化栈(weight / activation / KV cache)+ 主流方法对比(GPTQ / AWQ / SmoothQuant / GGUF /NVFP4/BitNet 1.58)+ 精度全谱(FP16 → 1.58-bit)+量化与 LoRA 的关键约束+ 中文场景特殊性 + 决策树。🚀 0. 开场:为什么量化是 LLM 时代最划算的优化?一个让你震惊的对比:Llama-70B 在 FP16 下需要 ~140GB VRAM(4 张 A100 80GB);INT4 量化后只需 ~35GB(单张 RTX 4090 / 5090 或 A100 40GB);质量损失通常 1%。📦 Llama-70B FP16~140GBINT4 量化📦 Llama-70B INT4~35GB ⭐4× 压缩, 1% 质量损失量化是三大模型压缩技术(量化 / 剪枝 / 蒸馏)中:✅最简单:load_in_4bit=True一行搞定;✅最普遍:Llama / Qwen / DeepSeek 全家桶都有量化版;✅效果最直观:75% 内存减少 + 1-3× 推理加速。对 Veri-Copilot 的意义:让 Qwen-Coder-14B 从 H100 80GB 走下"神坛",在工程师的 RTX 4060 16GB 笔记本上跑生产。🧮 1. 量化的数学本质(图解 FP16 → INT4)1.1 浮点 → 整数的核心公式把一个 FP16 张量WWW量化成 INT4:Wint4=round(Wfp16s)+zW_{int4} = \text{round}\left(\frac{W_{fp16}}{s}\right) + zWint4​=round(sWfp16​​)+z其中:sss=scale(缩放因子);zzz=zero point(零点偏移);反量化:Wfp16′=(Wint4−z)×sW_{fp16}' = (W_{int4} - z) \times sWfp16′​=(Wint4​−z)×s。FP16 权重±范围 ±5.0除以 scale四舍五入到 INT4-8 到 +7存储为 4-bit