Qwen3 技术报告精读：阿里通义千问第三代架构全解析

张

张建站

2026/5/14 16:11:02

10分钟阅读

Qwen3 技术报告精读阿里通义千问第三代架构全解析235B总参数但只激活22B——Qwen3这个设计让同月发布的DeepSeek V4有点尴尬。如果你正在选型开源模型这组数据值得认真看。模型AIME 24CodeforcesArena-HardQwen3-235B-A22B85.1205695.6DeepSeek V379.8195091.2本文基于Qwen3官方技术报告arXiv:2505.09388逐层拆解。一、为什么要认真看 Qwen3大模型迭代越来越快但技术报告值得细读的不多。Qwen3 这一代有几个地方确实有意思不只是堆参数。先看一组基准数据模型AIME 24数学推理Codeforces RatingArena-HardAlignBenchQwen3-235B-A22B85.1205695.68.94DeepSeek V379.8195091.28.72GPT-4o参考74.6180087.08.50235B 总参数每次只激活 22B这个性价比在开源模型里目前是最高的。二、架构设计Dense 与 MoE 双线并行Qwen3 没有走单一架构路线而是同时发布了 Dense 和 MoE 两个序列覆盖不同的部署场景。2.1 模型规模一览Dense 序列全参数激活模型参数量适用场景Qwen3-0.6B6亿端侧部署、嵌入式Qwen3-1.7B17亿轻量级对话Qwen3-4B40亿单卡推理Qwen3-8B80亿通用推理Qwen3-14B140亿高性能推理MoE 序列稀疏激活模型总参数激活参数专家数每步激活专家数Qwen3-30B-A3B300亿30亿1284Qwen3-235B-A22B2350亿220亿1288MoE 的核心优势总参数大知识容量大激活参数小推理成本低。Qwen3-235B-A22B 的激活参数量只相当于一个 22B 的 Dense 模型但效果接近 235B Dense。2.2 Think/No-Think 统一框架这是 Qwen3 最值得关注的设计。过去要用推理模型得单独部署一个思考模式的模型普通对话又得换一个。Qwen3 把两种模式合并到同一个模型里由系统根据任务复杂度自动决定是否启用思考链。Think 模式模型在回答前进行多步推理生成中间思考步骤适合数学、代码、复杂逻辑问题。No-Think 模式直接输出答案适合闲聊、简单问答、翻译等不需要深度推理的任务。实现方式是在训练阶段同时提供两种数据带长链思考推理步骤的样本和不带推理步骤的直接回答样本。后训练阶段通过 RL 让模型学会根据任务类型自适应切换。这个设计对部署方来说很实用——一套模型服务所有场景不用维护两个实例。2.3 思考预算机制Thinking BudgetQwen3 还引入了思考预算概念用户可以设定模型思考的最大 token 数或者让模型自适应分配。报告里提到当回答过长时模型会自动插入提示并缩短输出这个机制在实际应用中对控制推理成本很有帮助。三、训练工程36T tokens 是怎么炼出来的3.1 训练三阶段Qwen3 的预训练分三个阶段每个阶段的侧重点不同S1 通用阶段30T tokens上下文窗口4K数据以网页文本、书籍、多语言语料为主目标建立基础语言能力和通用知识S2 推理阶段~5T tokens提高 STEM、编程、逻辑推理类数据的比例引入更多合成数据由强模型生成的高质量推理链上下文窗口开始扩展长上下文阶段数千亿 tokens采用 ABFAdaptive Base Frequency YARN DCA 技术将上下文扩展到 32K侧重长文档理解、长程推理任务3.2 数据规模与语言覆盖维度数据总 Token 数36T语言覆盖119 种Qwen2.5 仅 29 种数据来源网页、书籍、代码、STEM 文献、多模态提取Qwen2.5-VL 从 PDF 提取并清洗语言覆盖从 29 种扩展到 119 种这个扩展幅度意味着 Qwen3 在多语言任务上的表现会有明显提升尤其是小语种。3.3 后训练Long-CoT 双阶段 RLQwen3 的后训练分两步第一步Long-CoT Cold Start用 SFT 做冷启动让模型学会生成长推理链损失函数对思考步骤赋予更高权重loss_weights[0.5, 1.0]第二步General RL采用 20 能力维度的 Rule-based Model-based 混合奖励Rule-based数学、代码等有标准答案的任务用确定性规则评分Model-based开放生成任务用奖励模型评分这种混合 RL 设计比纯 RLHF 更稳定也比纯 SFT 泛化能力更强。3.4 强到弱蒸馏Strong-to-Weak DistillationQwen3 的小模型0.6B ~ 14B Dense不是从头训练的而是通过蒸馏从大模型中迁移知识。具体做法用 Qwen3-235B-A22B 生成高质量推理链数据再用这些数据去训练小模型。报告显示蒸馏后的小模型效果明显优于同等规模的 Base 模型尤其是在推理任务上。这个策略的好处小模型的训练成本大幅降低同时性能接近参数量更大的模型。四、开源与商用Apache 2.0 意味着什么Qwen3 全部模型0.6B ~ 235B-A22B均采用Apache 2.0 许可证开源这意味着可以商用不需要开源衍生作品没有月活用户数限制对比 Llama 3 的 Llama3 License有商用限制Apache 2.0 对专利的保护更明确DeepSeek V3 是 MIT也宽松但 Apache 2.0 在企业合规层面更友好GPT、Claude 完全闭源不在比较范围内企业可以放心把 Qwen3 用在自己的产品里不用担心许可证风险。GitHub 地址https://github.com/QwenLM/Qwen3五、Benchmark 深度解读5.1 数学推理AIME 2485.1AIMEAmerican Invitational Mathematics Examination是高中数学竞赛题需要多步符号推理。Qwen3-235B-A22B 得分 85.1超过 DeepSeek V3 的 79.8。AIME 满分 10015 道题每道最多 7 分通常按正确率换算85.1 大致对应做对 12-13 道的水平接近人类奥赛选手的平均水平。5.2 代码能力Codeforces Rating2056Codeforces 是一个竞争性编程平台Rating 反映模型在算法竞赛中的水平。2056 分大致对应 Codeforces 的 Candidate Master 级别门槛 2100已经超过绝大多数程序员。5.3 对齐能力AlignBench v1.18.94AlignBench 是清华提出的中文对齐评测集考察模型的中文理解、逻辑推理、安全性等维度。8.94 是目前开源模型的最高分。六、与 DeepSeek V3 的核心差异维度Qwen3-235B-A22BDeepSeek V3激活参数22B37B上下文窗口32K128K语言覆盖119 种~中文英文为主Think 模式统一框架需单独部署 R1开源协议Apache 2.0MIT训练数据36T14.8TQwen3 激活参数更小推理更快、语言覆盖更广、Think 模式集成更优雅DeepSeek V3 上下文更长、训练数据更聚焦。七、部署建议根据不同场景推荐以下选型场景推荐模型理由端侧/嵌入式Qwen3-0.6B / 1.7B参数量极小可在移动端运行单卡推理24GB 显存Qwen3-8B / 14B显存占用适中推理速度快高并发服务Qwen3-30B-A3B激活参数仅 3B吞吐量高最高精度要求Qwen3-235B-A22B效果最强激活 22B 推理成本可控八、你用 Qwen3 吗Qwen3 这代有几点值得认真看我自己在做模型选型时会把它和 DeepSeek V3 放在一起对比Think/No-Think 统一框架是架构上的真正创新不是简单的参数堆量36T tokens 训练数据加 119 种语言覆盖在数据规模和覆盖面上大幅领先上一代Apache 2.0 完全开源对企业用户最友好强到弱蒸馏让小模型效果大幅提升端侧部署的想象空间变大了你如果正在做开源模型选型Qwen3-235B-A22B 和 DeepSeek V3 是目前最值得对比的两个。你更倾向哪个欢迎评论区聊聊选型逻辑——是看效果、看成本还是看开源协议下一篇聊 GLM-5。参考资料Qwen3 Technical Report (arXiv:2505.09388)阿里通义千问团队2026年5月