GPT-5.5 发布Terminal-Bench 82.7%OpenAI 今夜找回主场标签OpenAI、GPT-5.5、大模型评测、AI编程、Agent4月23日深夜OpenAI发布了GPT-5.5内部代号依然是Spud。距上一代GPT-5.4发布只有七周。这七周不太好过——Claude Opus 4.7把CursorBench干到了70%GLM-5.1的开源版本SWE-bench Pro拿下58.4%DeepSeek V4同日发布……OpenAI面临的压力已经不是来自一个方向了。这次GPT-5.5的发布数据看起来确实够硬。一、基准测试结果多项榜单第一先看编程能力这是大家最关心的测试项目GPT-5.5GPT-5.4Claude Opus 4.7Terminal-Bench 2.082.7%75.1%69.4%Expert-SWE73.1%68.5%—SWE-Bench Pro58.6%—64.3%⚠️Terminal-Bench 2.0 比上一代高了7.6个百分点比Claude Opus 4.7高了13.3个百分点。这项测试主要评估在终端环境中完成真实编程任务的能力比传统SWE-bench更贴近实际工程场景。SWE-Bench Pro这个项目GPT-5.5落后了但OpenAI在报告里给Claude Opus 4.7的成绩标注了可能存在过拟合记忆迹象。这场争议短期内应该不会有定论——两家公司各有说法得看独立测评机构的结论。数学和科研能力方面测试项目GPT-5.5GPT-5.4Claude Opus 4.7FrontierMath Tier 435.4%27.1%22.9%GeneBench25.0%19.0%—BixBench80.5%——FrontierMath Tier 4由陶哲轩等顶级数学家出题题目接近未发表研究的难度GPT-5.5领先Opus 4.7超过12个百分点。BixBench是金融/商业分析基准80.5%是所有已公开模型中的第一名。二、Agent能力这才是这次发布的重点OpenAI把GPT-5.5定位为Agent时代的原生大脑。看几个数据OSWorld-Verified计算机操作任务78.7% vs Opus 4.778.0% GDPval知识型工作综合84.9% vs Opus 4.780.3% vs Gemini 3.1 Pro67.3% Tau2-bench多轮工具调用98.0%Tau2-bench 98%这个数字很突出——这个基准测的是多轮对话中连续调用工具、根据结果调整策略的能力在真实Agent工作流中极为重要。三、“每个任务用更少Token”这个细节不容忽视GPT-5.5速度与5.4持平但完成同等任务消耗的Token量显著降低——OpenAI没有给出具体数字但这个方向非常重要。Token消耗量决定实际使用成本也决定在有限上下文窗口内能处理多少信息。如果GPT-5.5能用更少的来回完成复杂任务那么实际API账单会比官方定价看起来更有竞争力。四、定价比想象中贵版本输入输出GPT-5.5$5/百万Token$30/百万TokenGPT-5.5 Pro$30/百万Token$180/百万TokenGPT-5.4对比$2.5/百万Token$15/百万Token输出价格直接翻倍GPT-5.5 Pro和Claude Opus 4.7价位相当Opus 4.7是$5/$25。对于大量调用的企业来说这个涨价幅度需要好好算一算是否值得迁移。五、一个值得关注的内部数据85%员工用CodexOpenAI在报告里提到一个内部数据公司内部85%的员工跨部门使用Codex。这不只是营销话语它传递了一个信号GPT-5.5 Codex的工作流在OpenAI内部已经是默认配置而不是少数人的实验工具。当一家AI公司自己的产研人员日常依赖这套工具它的实际能力大概率是真实的。六、和DeepSeek V4的正面对比同日DeepSeek V4也发布了。两款模型的技术路线形成有趣对比维度GPT-5.5DeepSeek V4-Pro定价输入$5/百万Token¥12/百万Token约$1.7SWE-Bench Pro58.6%—Agentic Coding领先优于Anthropic Sonnet 4.5硬件绑定NVIDIA支持NVIDIA 华为昇腾开源否是两款模型不存在全面碾压的关系更像是不同市场定位的产品GPT-5.5主打最顶级性能和全球生态DeepSeek V4主打开源、国产化适配和极低成本。对于国内开发者这两款模型能够同时存在并且都值得用本身就是一件好事。七、简单说几点个人判断Terminal-Bench 82.7%是真的吓人。在真实终端任务里这意味着GPT-5.5能完成的编程工作已经超过大多数初中级工程师的日常任务量。SWE-Bench Pro落后争议会持续。这个基准在业界已经引发了多次刷题争议短期内很难有一个所有人都认可的权威结论。七周一个大版本的节奏是核心护城河。技术领先可以被追赶但高密度的迭代速度需要体系支撑——不只是算法还有工程基础设施、数据飞轮、评测体系。这个护城河比单个版本的分数更难复制。参考来源36氪、钛媒体、Artificial Analysis综合智能指数、新浪财经