本地大模型参数详解
本地大模型核心参数详解一、模型引擎Model Engine负责加载和运行模型的底层推理框架。引擎说明适用场景Ollama封装 llama.cppollama run一键运行个人玩耍最推荐llama.cppC/C 高性能推理引擎CPU/GPU 皆可底层推理、嵌入式设备LM Studio图形化界面内置 llama.cpp新手友好vLLMPagedAttention吞吐量极高生产部署、API 服务TransformersHuggingFace 官方库生态最全训练、调参、研究ExLlamaV2针对 Llama 架构极致优化低显存快速推理选择建议 个人使用 → Ollama API 部署 → vLLM CPU/低显存 → llama.cpp 训练微调 → Transformers二、模型格式Model Format模型权重文件的存储格式。格式特点配套工具GGUF单文件易分发Ollama 默认格式llama.cpp, OllamaSafeTensors安全、快速、HF 推荐格式HuggingFace TransformersPyTorch (pth/bin)原始权重文件大TransformersAWQ专为量化优化的格式AutoAWQ, vLLMGPTQ另一主流量化格式auto-gptq, ExLlamaV2格式流转关系 HF Transformers (SafeTensors) ↓ 转换 GGUF → Ollama / llama.cpp AWQ / GPTQ → ExLlamaV2 / vLLM注意闭源 APIOpenAI、Claude 等没有格式概念你传的是 Prompt 文本不是模型文件。三、模型大小Model Size / Parameters模型的参数量单位 B Billion十亿。规模参数量FP16 所需显存代表模型极小1B ~ 3B2 ~ 6 GBQwen2.5-1.5B, Phi-3小7B ~ 14B14 ~ 28 GBLlama-3-8B, Qwen2.5-7B中30B ~ 34B60 ~ 68 GBYi-34B, Qwen2.5-32B大70B ~ 72B140 ~ 144 GBLlama-3-70B, Qwen2.5-72B超大120B240 GBMixtral 8x22B能力与资源的关系参数量越大 → 知识储备越多推理越强但也越慢硬件门槛越高粗略类比7B ≈ GPT-3.570B ≈ GPT-4显存估算公式FP16显存 ≈ 参数量 × 2 字节 7B 模型 ≈ 7 × 2 14 GB四、量化Quantization将模型权重从高精度压缩为低精度以减小体积、降低显存需求。量化级别对比格式每权重占位相对于 FP16 体积质量损失推荐指数FP1616 bit基准无损⭐⭐⭐⭐Q8_08 bit缩小 50%几乎无损⭐⭐⭐⭐⭐Q6_K6 bit缩小 62%几乎不可感知⭐⭐⭐⭐⭐Q5_K_M5 bit缩小 69%略有损失⭐⭐⭐⭐Q4_K_M4 bit缩小 75%可接受⭐⭐⭐⭐⭐Q3_K_M3 bit缩小 81%明显下降⭐⭐⭐Q2_K2 bit缩小 88%严重下降⭐⭐命名规则解析以Q4_K_M为例Q4 4-bit 量化K K-Quant 量化算法M Medium 变体S M L越大质量越好实际效果示例Llama-3-8B量化级别文件大小最低显存FP16~16 GB~16 GBQ8_0~8.4 GB~10 GBQ4_K_M~4.7 GB~6 GB ✅ 推荐Q3_K_M~3.8 GB~5 GBQ2_K~3.3 GB~4 GB选择建议显存充足16GB → 用 Q8_0 / Q6_K 显存适中8~12GB → 用 Q4_K_M ★ 最佳平衡点 显存紧张4~8GB → 用 Q3_K_M 显存极低4GB → 用 Q2_K但降质明显五、模型大小 vs 量化核心区别很多人会混淆这两个概念因为它们都影响文件大小和模型表现但本质完全不同。一句话区别模型大小参数量量化精度本质模型有多少个参数/神经元每个参数用多少bit来存储决定能力上限知识储备量能力发挥程度推理精度好比酒桶的大小酒精度的高低公式视角文件大小 参数量 × 每参数位数 ÷ 8 7B FP16: 7,000,000,000 × 16 ÷ 8 14 GB 7B Q4: 7,000,000,000 × 4 ÷ 8 3.5 GB 70B Q4: 70,000,000,000 × 4 ÷ 8 35 GB相同文件大小 ≠ 相同能力都占 14 GB - 7B FP16 ✔ 推理精准但知识面窄 → 数学、逻辑好 - 70B Q2 ✔ 知识面广但推理不准 → 知道很多但容易算错酿酒类比概念类比说明模型大小 (7B → 70B)酒桶大小大酒桶能酿更多酒底子更厚量化 (FP16 → Q4)酒精度稀释还是那些酒只是掺了水味道淡了7B Q8 小酒桶里面是纯酿 → 能力强但知识少70B Q2 大酒桶里面严重掺水 → 知识多但推理能力差量化对不同大小模型的影响模型Q4 量化效果说明7B Q4能力折损较明显底子薄再量化更雪上加霜14B Q4适中能力有一定下降但可用70B Q4依然很强底子够厚即使 Q4 也足够好实际选型策略显存刚好够 7B FP1614GB → 选 7B FP16 / Q8_0 显存只有 8GB → 选 7B Q4_K_M性价比之王 显存有 32GB → 选 70B Q3_K_M知识碾压但推理差点 或 13B Q8_0推理强但知识少点总结大小决定知道多少量化决定算得准不准。一句话总结引擎负责运行格式决定存储方式大小体现能力上限量化决定你跑不跑得动。四者的关系用合适的引擎加载特定格式的模型文件根据模型大小和硬件条件选择合适的量化级别在质量和性能之间找到平衡点。