‍♂️ 个人主页小李同学_LSH的主页✍ 作者简介LLM学习者 希望大家多多支持我们一起进步如果文章对你有帮助的话欢迎评论 点赞 收藏 加关注目录 前言「智谱 AI」变成「Z.ai」这是一次蛰伏后的出击 速览核心规格 Benchmark 全景赢了哪些输了哪些✅ GLM-5.1 赢了的❌ GLM-5.1 仍有差距的️ 架构解析GlmMoeDSA 是什么三个组件的分工为什么这个架构适合 Long-Horizon 任务⏱️ 核心突破Long-Horizon 8 小时工作能力什么是 Task-Completion Time Horizon三个让人震撼的官方 Demo可以连续工作多久是怎么做到的 一个被低估的战略细节零英伟达 5 分钟上手 GLM-5.1方式一API 调用OpenAI 兼容方式二OpenRouter11 家供应商可用方式三本地部署需要大显存 国产开源四强横评 智谱的商业策略敢涨价说明底气足了️ 读者投票 总结 最后一句话开门见山2026年4月7日智谱 AI 旗下平台 Z.ai 发布并开源 GLM-5.1。SWE-Bench Pro 拿下58.4%全球第一超越 GPT-5.457.7%和 Claude Opus 4.657.3%。单次任务自主工作 8 小时MIT 协议完全开源。还有一个被低估的细节全程用华为昇腾 910B 训练零英伟达。基本信息 发布时间2026年4月7日 出品Z.ai智谱 AI 旗下平台⚙️ 架构GlmMoeDSA754B 总参数~40B 激活 上下文200K Token最大输出 128K 开源MIT LicenseHuggingFacezai-org/GLM-5.1️ 训练芯片华为昇腾 910B零英伟达 前言「智谱 AI」变成「Z.ai」这是一次蛰伏后的出击在国内大模型圈智谱 AI 是一个特殊的存在。它是清华大学唐杰团队孵化的公司GLM 系列是国内最早一批开源大模型技术积累深厚。但过去一年里DeepSeek 的横空出世、Kimi 的强势崛起、阿里 Qwen 的持续迭代让智谱的声音越来越小。直到 4月7日Z.ai原智谱 AI 更名深夜发布 GLM-5.1。一张 SWE-Bench Pro 排行榜截图开始在 AI 圈流传——第一名是一个中文名字。这是国产开源模型第一次在软件工程最重要的基准测试上击败了所有顶尖闭源模型。本文适合 想了解 GLM-5.1 技术细节的学生‍ 在评估编程 AI 工具的开发者 关注国产 AI 竞争格局的同学 速览核心规格指标GLM-5.1发布方Z.ai智谱 AI总参数754BMoE激活参数~40B每 Token 激活 81 个专家架构GlmMoeDSAGated DeltaNet 标准 Attention 稀疏 MoE上下文窗口200K Token最大输出128K Token长程工作单次任务自主工作 8 小时训练芯片华为昇腾 910B全国产开源协议MIT License权重大小1.51 TBHuggingFace Benchmark 全景赢了哪些输了哪些先上全景图好的坏的都说清楚。✅ GLM-5.1 赢了的BenchmarkGLM-5.1Claude Opus 4.6GPT-5.4说明SWE-Bench Pro58.4%57.3%57.7%真实 GitHub Bug 修复全球第一NL2Repo42.7%35.9%GLM-5→对比略有差异-从零构建完整代码仓库Claude Code Harness69.0%--最佳 Agent 脚手架测试SWE-Bench Pro 是怎么考的不是写算法题是给模型一个真实 GitHub 仓库的 Issue第 237 行在某个边界条件下会报 IndexError要求模型自主定位问题、修改代码、通过原始测试套件。全局第一意味着它修 Bug 比 GPT-5.4 和 Claude Opus 4.6 都强。❌ GLM-5.1 仍有差距的BenchmarkGLM-5.1最强对手说明NL2Repo vs Opus42.7%Opus 4.649.8%从零构建仓库仍落后 7 分Terminal-Bench 2.063.5%Gemini 3.1 Pro更高命令行任务略逊HLE博士级推理31.0%GPT-5.4更高纯推理有差距Vending Bench 2$5,634Opus 4.6$8,017自主获利能力落后AIME / HMMT-GPT-5.4 领先数学竞赛不是强项结论GLM-5.1 是一个专注于软件工程场景的模型在编程/Agent 维度达到全球顶级其他维度仍在追赶。这是一个有清晰取舍的技术路线不是全能模型。️ 架构解析GlmMoeDSA 是什么GLM-5.1 使用了一个专门设计的架构全名GlmMoeDSAGLM Mixture of Experts with Deep Sparse Attention。三个组件的分工① Gated DeltaNet线性注意力处理超长上下文时标准 Attention 的计算复杂度是对于 200K Token 的序列来说代价极高。DeltaNet 用线性近似将复杂度降到让模型能高效处理长任务链。② 标准 Attention在关键层保留精确的注意力计算确保细节不丢失。③ 稀疏 MoE256 路由 1 共享专家每次激活 81每个 Token 只激活约40B 参数大幅降低推理成本——让 754B 的大模型在推理时的计算量接近 40B 的小模型。加入DeepSeek Sparse AttentionDSA进一步降低长上下文下的部署成本。为什么这个架构适合 Long-Horizon 任务传统 Transformer 在处理几百轮工具调用时有两个瓶颈注意力计算量随序列长度平方增长几千步后速度急剧下降KV Cache 显存占用巨大容易 OOMGlmMoeDSA 的线性注意力 稀疏激活组合让模型能在保持性能的前提下把任务链拉长到 8 小时。⏱️ 核心突破Long-Horizon 8 小时工作能力这是 GLM-5.1 最有前瞻性的设计目标也是它对标的核心维度。什么是 Task-Completion Time Horizon2025年3月AI 安全研究机构 METR 提出了新指标任务完成时间线Task-Completion Time Horizon。不再用准确率衡量模型有多聪明而是用时间衡量它能独立完成多长时间的人类专家任务。研究数据显示前沿模型的时间线每 7 个月翻一倍红杉资本称其为AGI 的核心方向2023-2024 年的 AI会对话的talker2026-2027 年的 AI能真正落地做事的doerGLM-5.1 是全球第一个在真实工程任务中验证了 8 小时持续工作能力的开源模型。三个让人震撼的官方 DemoDemo 1向量数据库优化GLM-5.1 自主优化一个向量数据库执行超过 600 轮迭代每轮自动测试性能、分析瓶颈、修改配置、验证结果——8 小时不间断最终将查询速度提升了显著幅度。Demo 2机器学习工作负载优化执行超过 1000 轮工具调用覆盖特征工程、模型选择、超参调优、代码修复的完整研发流程。Demo 3Linux 桌面环境构建从零开始完全自主地构建一个 Linux 桌面环境涵盖系统配置、软件安装、环境调试的全链路。这三个 Demo 的共同特点不是一次性生成而是形成了「实验→分析→优化」的自主循环不停地跑、不停地改、不停地验证——就像一个真正在工作的工程师。可以连续工作多久是怎么做到的核心机制是异步强化学习Asynchronous RL训练其中奖励 $r_t$ 不只针对单步结果而是对整个长任务链的最终完成质量定义。这让模型学会了在数百步之后仍然记得最初的目标而不是做着做着忘了要干什么。 一个被低估的战略细节零英伟达GLM-5.1 was trained entirely on Huawei Ascend 910B chipswith zero Nvidia hardware involvement.在英文媒体的报道里这被称为政治上最重要的技术细节。背景美国持续强化对华 AI 芯片出口管制先后限制 H100、A100、H20。GLM-5.1 的意义用全国产算力华为昇腾 910B训练出了全球 SWE-Bench Pro 第一的模型——这直接证明了中国可以在算力封锁下训练出前沿级别的大模型。这和 DeepSeek V4 的国产化路线遥相呼应V4 全面迁移至昇腾 950PR CANN 框架。两家头部中国 AI 公司相继完成对英伟达的脱钩验证这不只是技术新闻也是产业战略信号。 5 分钟上手 GLM-5.1方式一API 调用OpenAI 兼容from openai import OpenAI client OpenAI( api_keyyour-zai-api-key, base_urlhttps://api.z.ai/api/paas/v4 ) response client.chat.completions.create( modelglm-5.1, messages[ { role: user, content: 分析这段代码的潜在 Bug给出可运行的修复方案\n\n[粘贴你的代码] } ], max_tokens4096, temperature0.6 ) print(response.choices[0].message.content)方式二OpenRouter11 家供应商可用client OpenAI( api_keyyour-openrouter-key, base_urlhttps://openrouter.ai/api/v1 ) response client.chat.completions.create( modelzai-org/glm-5.1, messages[{role: user, content: 帮我优化这段 Python 代码的性能}] )方式三本地部署需要大显存# 权重下载注意1.51 TB git lfs clone https://huggingface.co/zai-org/GLM-5.1 # vLLM 部署推荐多卡 pip install vllm python -m vllm.entrypoints.openai.api_server \ --model ./GLM-5.1 \ --tensor-parallel-size 8 \ --max-model-len 32768⚠️硬件要求754B 模型权重 1.51 TB本地部署需要多张 A100/H100 或等效国产显卡。普通开发者建议直接用 API。 国产开源四强横评本周4月第二周四款重量级国产开源模型密集发布正好做个横评模型SWE-Bench Pro上下文长程能力特色GLM-5.158.4%#1200K8 小时全昇腾训练、Long-HorizonKimi K2.658.6%#1256K13 小时300 Agent 并行、视觉设计MiniMax M2.756.22%200K长程稳定自我进化SWE-V 78%Qwen3.6 Plus-100万中等速度快MCP 最优 **GLM-5.1 vs Kimi K2.6**两者 SWE-Bench Pro 仅差 0.2 分58.4 vs 58.6堪称平局。Kimi 上下文更长、Agent 规模更大GLM-5.1 全昇腾训练、Long-Horizon 场景更专注。选哪个取决于你的具体场景不存在全方位的胜负。 智谱的商业策略敢涨价说明底气足了一个有意思的细节GLM-5.1 发布的同时智谱再次提价 10%。这是智谱在半年内第三次涨价。调价后编码场景定价已接近 Claude Sonnet 4.6 水平。这说明什么一年前国产模型用比你便宜来打市场。 一年后智谱用真能干活来支撑更高的价格。从我便宜所以用我到我真能干活所以我敢贵——国产模型正在完成价值定位的转变。这个转变比 Benchmark 数字本身更能说明国产 AI 走到了哪一步。 总结 核心记忆点发布时间2026年4月7日最大亮点SWE-Bench Pro 58.4%全球第一架构GlmMoeDSA754B 总参数~40B 激活长程能力8 小时自主工作数百轮迭代战略亮点全程华为昇腾 910B 训练零英伟达局限性NL2Repo / 纯推理 / 视觉仍落后头部模型开源MIT License可商用GLM-5.1 不是全能冠军但它选择了一个清晰的赛道——专注软件工程和长程 Agent 任务——然后在这个赛道上打到了全球第一。更深的意义在于它证明了用全国产算力可以训练出前沿级别的模型。这颗棋落在了对的位置。 最后如果这篇让你搞清楚了 GLM-5.1 的价值点赞支持国产开源模型⭐收藏API 代码随时用评论参与投票聊聊你怎么看国产 AI 的崛起关注持续追踪开源大模型动态一个正在学 AI 的大学生 ‍相关阅读《Kimi K2.6 深夜正式发布对标 Opus 4.6刷新开源编程天花板》《MiniMax M2.7 深度解析AI 第一次自己训练自己》《DeepSeek V4 来了长期记忆 编程能力双突破》参考资料Z.ai 官方博客z.ai/blog/glm-5.12026.04.07量子位《开源模型首超 Opus 4.6智谱 GLM-5.1 登场》2026.04.08MarkTechPost《Z.AI Introduces GLM-5.1》2026.04.08buildfastwithai《GLM-5.1: #1 Open Source AI Model?》苏米客《GLM-5.1 代码能力实测》2026.04.08