【大模型12步学习路线 · 第11步 · ①原理篇】LLM 量化全景:从 INT4 / NVFP4 / BitNet 1.58 到 KV cache 量化,4× 压缩、3× 加速的工业魔法

张

张建站

2026/5/21 13:23:19

10分钟阅读

【大模型12步学习路线 · 第11步 · ①原理篇】LLM 量化全景:从 INT4 / NVFP4 / BitNet 1.58 到 KV cache 量化,4× 压缩、3× 加速的工业魔法系列定位:「大模型正确学习顺序」12 步系列第 11 步 · 量化的 ①原理篇。前置阅读:第 9 步私有化部署 + 第 10 步微调 —— Veri-Copilot 已经有 SGLang + Qwen-Coder + SVA-LoRA。本篇产出:量化数学本质 +三层量化栈(weight / activation / KV cache)+ 主流方法对比(GPTQ / AWQ / SmoothQuant / GGUF /NVFP4/BitNet 1.58)+ 精度全谱(FP16 → 1.58-bit)+量化与 LoRA 的关键约束+ 中文场景特殊性 + 决策树。🚀 0. 开场:为什么量化是 LLM 时代最划算的优化?一个让你震惊的对比:Llama-70B 在 FP16 下需要 ~140GB VRAM(4 张 A100 80GB);INT4 量化后只需 ~35GB(单张 RTX 4090 / 5090 或 A100 40GB);质量损失通常 1%。📦 Llama-70B FP16~140GBINT4 量化📦 Llama-70B INT4~35GB ⭐4× 压缩, 1% 质量损失量化是三大模型压缩技术(量化 / 剪枝 / 蒸馏)中:✅最简单:load_in_4bit=True一行搞定;✅最普遍:Llama / Qwen / DeepSeek 全家桶都有量化版;✅效果最直观:75% 内存减少 + 1-3× 推理加速。对 Veri-Copilot 的意义:让 Qwen-Coder-14B 从 H100 80GB 走下"神坛",在工程师的 RTX 4060 16GB 笔记本上跑生产。🧮 1. 量化的数学本质(图解 FP16 → INT4)1.1 浮点 → 整数的核心公式把一个 FP16 张量WWW量化成 INT4:Wint4=round(Wfp16s)+zW_{int4} = \text{round}\left(\frac{W_{fp16}}{s}\right) + zWint4=round(sWfp16)+z其中:sss=scale(缩放因子);zzz=zero point(零点偏移);反量化:Wfp16′=(Wint4−z)×sW_{fp16}' = (W_{int4} - z) \times sWfp16′=(Wint4−z)×s。FP16 权重±范围 ±5.0除以 scale四舍五入到 INT4-8 到 +7存储为 4-bit

OpenHarmony富设备开发实战：基于DAYU200的硬件选型、系统烧录与AI应用开发

1. DAYU200：OpenHarmony富设备开发的“敲门砖”与“试验田”如果你是一名对OpenHarmony感兴趣，尤其是想涉足标准系统（也就是我们常说的富设备）开发的工程师或爱好者，那么“开发板选型”大概率是你遇到的第一个难题。几…...

2026/5/21 13:23:18 阅读更多 →

spring.cloud.nacos.discovery.server-addr和spring.cloud.nacos.server-addr区别

spring.cloud.nacos.discovery.server-addr127.0.0.1:8848和spring.cloud.nacos.server-addr127.0.0.1:8848两配置都能启动成功，有什么区别吗？两者都能启动成功，区别在于作用范围不同：对比属性作用范围优先级spring.cloud.nacos.s…...

2026/5/21 13:20:14 阅读更多 →

传奇3手游网站下载秘境刷怪高爆率光通原班打造怀旧服

官方出版资质：传奇3正版手游由传奇3G原班人马倾力打造，出版单位为华东师范大学电子音像出版社有限公司，审批文号新广出审〔2016〕2183号，出版物号ISBN978-7-7979-0843-6，运营主体安徽游昕网络科技有限公司，…...

2026/5/21 13:19:49 阅读更多 →

Windows隐藏COM端口清理指南：解决端口号膨胀问题

1. 项目概述：为什么你的COM端口号会“膨胀”到两位数？如果你是一位长期在Windows系统下进行嵌入式开发、单片机调试，或者经常使用USB转串口工具的朋友，大概率遇到过这个令人头疼的现象：设备管理器里的COM端口号&#x…...

2026/5/21 5:01:08 阅读更多 →

Playnite完整指南：高效统一你的跨平台游戏库管理体验

Playnite完整指南：高效统一你的跨平台游戏库管理体验【免费下载链接】Playnite Video game library manager with support for wide range of 3rd party libraries and game emulation support, providing one unified interface for your games. 项目地址: http…...

2026/5/21 5:00:30 阅读更多 →