AI商业化落地两头堵,效率优先能否推开普及之门?
AI收费时代来临上周豆包正式开始收费推出专业版并分成三档价格最高级套餐包年费用达5088元。紧接着以价格屠夫闻名的DeepSeek也要更换计价方式实行新的峰谷定价模式每天上午9点到12点、下午2点到6点为高峰调用成本翻倍。ChatGPT今年2月初往免费用户对话框塞广告上星期在法国大举招商广告推送密度增加。白嫖AI的时代似乎即将结束去年各家还在打价格战如今都在思考如何让AI生意不再亏损。商业化落地两头堵一家AI公司想赚钱要么多收钱要么少花钱但现在这两条路都被堵住了。过去几年大家遵循互联网打法疯狂烧钱拉用户认为用户规模够大成本自然摊薄。然而AI产品更接近制造业逻辑用户规模增加算力成本也随之上升因为AI成本是刚性的多一个用户提问模型就要进行一次推理消耗一次算力。月活用户9亿的OpenAI去年净亏损385亿美元今年第一季度情况仍未改善每收入1美元就要赔1.22美元。豆包日均token调用量达180万亿日收入却不足100万元。另一方面算力供给是稀缺资源导致算力价格居高不下总成本降不下来。算力供给的约束是难以突破的物理墙一是电Gartner预测2030年全球数据中心用电量将超1200TWh电网供电无法满足需求二是芯片全球高阶AI芯片的先进封装几乎全靠台积电但台积电产能扩得再快英伟达一家就能吃掉六成以上剩下四成还要被几十家公司争抢有钱也排不上号。此外AI形态正从一问一答的Chatbot转向需要持续运行的Agent这对算力的需求是数量级的跃升。所以算力成本面临双重夹击调用量增加成本就增加规模无法摊薄成本供给又无法满足需求成本降不下来。那么涨价多收钱可行吗在To B的生产力场景提价没问题因为客户看重解决复杂专业问题的能力企业能接受高成本。但在To C场景情况不同。2025年ChatGPT的9亿周活跃用户中个人订阅用户约5000万占比仅约5%国内用户付费意愿更低长期受免费广告互联网模式影响没有养成为独立软件付费的习惯5月初豆包试水订阅时豆包 笨还收费就冲上了热搜。普通用户对To C的AI产品没有忠诚度提价甚至从免费到付费都会赶跑大量用户。那么企业面临的问题是在AI完成同等任务时能否消耗更少的算力资源这就是整个行业目前都在做的事效率优先。让每一分算力都花得值从硬件层到模型架构行业各层都在围绕效率思路开展工作。在硬件层英伟达今年在GTC大会上推出了基于Groq技术授权打造的LPU新芯片专门优化AI推理场景。GPU擅长高并发大规模计算多用于大模型预训练以提高智能上限而LPU像精锐小队擅长快速完成任务日常面向普通用户的推理场景响应快、省钱才是性价比最高的。芯片之上是模型架构MoE混合专家架构成为主流其优点是模型总参数可堆到万亿级别保证脑容量但每次只激活一小撮参数做到又强又省。比如DeepSeek V4 Pro总参数1.6万亿每次只激活490亿编码能力逼近顶级闭源模型输出价格只有GPT - 5.5的八分之一。腾讯开源的hy3 preview也是类似思路295B参数、激活仅21B能力接近300B级模型成本却是20B级别上了OpenRouter后开发者纷纷使用。腾讯灰度内测的AI助手小微背后的模型WeLM总参数800亿每次只激活30亿激活率低至3.75%比国内极致成本性能代表DeepSeek - V4 - Flash激活率4.6%还要低。由于微信月活14亿一旦小微全量开放推理量巨大所以小微绝大多数日常请求交给WeLM碰上难题有合作模型兜底。在模型运行过程中还可通过工程手段榨取算力如DeepSeek等使用的KV缓存复用即与AI反复聊同一话题时系统提示词、常用前缀等重复内容无需每次从头计算直接调用上次结果。DeepSeek还通过价格杠杆优化算力调度新计价方式下平峰时段价格不变缓存命中接近免费将部分负载从白天引导到夜间低谷期提高GPU整体利用率降低单位成本。到了Agent时代算力问题更棘手。Agent干活时大量token用于重复搬运信息多个Agent协作时效率更低。谷歌的A2A协议和Anthropic的MCP协议旨在解决这些问题MCP让单个Agent内部复用上下文A2A让多个Agent之间共享成果减少无效推理。效率优先不仅是企业的需求用户需求也在分化。衡量市场AI付费意愿的LLM Token支出指数持续走低用户加速离开昂贵的前沿模型转向性价比高的轻量级和MoE模型。Citadel Securities判断前沿人工智能和日常人工智能的使用出现分化迹象前沿AI追求智能上限日常AI追求极致效率不能用同一标准衡量。这并非说前沿模型不重要头部大模型仍会追求智能上限但多数场景可选择性价比更高的模型就像公司不会让首席分析师接前台电话模型使用也应避免资源浪费。效率优先实现后企业和用户都能受益企业降低单次推理成本利润增加还能降价吸引更多用户形成正向循环。做人人可用的AI这段时间除了To C端AI产品涨价巨头们也在缩减内部员工的token使用量。微软取消内部的Claude Code许可让员工使用自家更便宜的Copilot CLI亚马逊要求员工不要为用AI而用AIMeta撤下内部的token消耗排行榜。这使得员工被迫学习最大化利用token懂行的工程师能通过精简提示词、控制上下文长度等降低AI账单但普通用户难以读懂省token的技术帖子也不知道如何控制token使用可能一直在为远超实际需要的算力买单。这个落差不应由用户承担如何高性价比使用AI应从用户层面转移到机制层面。理想情况是用户无需了解背后有几种模型运行系统能根据任务简单或复杂程度选择合适的模型就像使用搜索引擎无需知道有多少台服务器响应。只有这样普通用户才能从AI技术中受益。技术的价值在于触达多少人如果AI不能为人人所用就只是精英的狂欢就像电力未普及到每个家庭、互联网未覆盖每个县城时一样。效率优先不仅是商业命题更是技术平权问题AI正站在普及的关键节点效率优先就是推开这扇门的力量。