算力便宜10倍,AI这门生意彻底重写
2026年3月16日,黄仁勋在GTC 2026大会的舞台上,掀开了英伟达新一代AI芯片平台Vera Rubin的面纱。
台下坐着几千个工程师和分析师,他们听完了整场演讲,记下了无数个技术参数。但真正被行业记住的,是一张图上那个简洁的数字:
每Token成本,降低10倍。
10倍。
这个数字比过去三年所有AI芯片发布会上的技术突破加起来都重要。因为它不只是"更快了",它直接改写的是AI这门生意的经济模型。
任何一门生意,当它的核心生产资料成本降低一个数量级,整个行业的格局都会被推倒重来。
这次,也不例外。
一、10倍意味着什么?一家公司的生死线
我先讲一个真实的故事。
2024年,国内某头部AI创业公司A轮融资5亿人民币,估值30亿。当时这家公司做得不错,模型在第三方评测上能排到国内前三,DAU也涨到了200万。
创始人见了很多投资人,2025年想冲B轮。
2025年下半年,见了二十几家,没有一家愿意投。
为什么?算账算不过来。
这家公司的月活200万用户,每个月的推理成本是1.2亿人民币。1.2亿除以200万用户,每个用户每月平均贡献的token成本是60元。但用户的付费率只有3%,平均ARPU(每用户收入)是8元。
60元对8元。卖一单亏七单半。
投资人问的第一个问题都是同一个:你的推理成本什么时候能降下来?
没有人能回答这个问题。
进入2026年,Vera Rubin来了。
每Token成本降到原来的十分之一。
这家公司原来的月推理成本是1.2亿,理论上,硬件不变、模型不变、用户不变,每个月的推理成本可以降到1200万。1200万除以200万用户,每个用户每月平均成本是6元。
6元对8元。开始赚钱了。
一家原本融不到钱的公司,估值的天花板瞬间被打开。
这就是10倍的力量。
不是"性能提升了10倍",不是"用户增长了10倍",是"成本降到了十分之一"。10倍的成本下降,在任何传统行业,都是一场彻底的洗牌。
二、英伟达的"系统公司"进化:卖铲子的人开始造金矿
Vera Rubin平台出来之后,整个AI行业都意识到了一个问题:
英伟达不再是一家公司,它开始变成一个生态。
来看几个数据。
Vera Rubin平台由7种芯片组成:Rubin GPU、Vera CPU、NVLink 6交换机、ConnectX-9 SuperNIC、BlueField-4 DPU、Spectrum-6网络硬件,以及Groq-3 LPU推理加速器。
这意味着什么?
意味着英伟达不仅卖GPU(铲子),现在它开始卖CPU(推土机)、卖网络(道路)、卖存储(仓库)、卖DPU(保安)、卖专用推理加速器(金矿探测仪)。
它要建一个AI时代的"水电站+电网+城市"。
Vera Rubin NVL72机架级系统:72个Rubin GPU + 36个Vera CPU,整机柜推理算力3.6 EFLOPS,HBM4显存20.7 TB,NVLink带宽260 TB/s,峰值功耗120.8 kW,重量1.36吨。
这已经不是一台服务器,这是一座小型数据中心的"基本细胞"。
把镜头拉远一点,看整个AI产业:
Rubin R100单颗GPU的晶体管数量是3360亿颗(Blackwell是2080亿颗,提升54%)。单颗GPU的推理性能是50 PFLOPS(Blackwell约20 PFLOPS),显存容量288 GB HBM4,显存带宽22 TB/s(Blackwell是8 TB/s,提升2.75倍)。
Vera CPU:88核Arm架构,最高1.5 TB LPDDR5X内存,内存带宽1.2 TB/s。与GPU之间的NVLink-C2C互联带宽1.8 TB/s,比PCIe Gen 6快7倍。它是第一个原生支持FP8精度的CPU。
整套系统,支持22,500个并行CPU沙箱,专为AI Agent设计。Agent不再是"绕着CPU瓶颈转圈的GPU协程",而是"GPU+CPU协同调度的真正主角"。
高盛分析师的判断是:Vera Rubin与上一代Blackwell的协同效应,可将每瓦吞吐量提升35倍。
35倍。
英伟达在GTC 2026上还推出了一套叫OpenClaw的软件框架,号称"Agent计算的Linux"。NemoClaw子模块专门用于前沿Agent的部署和管理,兼容Claude Code等系统。
硬件免费送、软件来收钱。英伟达的护城河,从此深不见底。
更狠的是,英伟达开始"生态整合":把曾经的竞争对手Groq的LPU推理加速器直接纳入自己的平台,按token透明卸载计算。这种"竞合策略",让Groq、Graphcore、Habana等独立芯片公司的生存空间被进一步压缩。
OpenAI前员工创立的三家AI芯片公司:Groq、Cerebras、SambaNova,在Vera Rubin时代,都必须面对一个问题:继续和英伟达对抗,还是加入英伟达?
这个问题的答案,决定了未来5年AI芯片产业的终局。
三、推理经济学的范式转移:模型层开始"内卷"到不值钱
过去三年,AI行业的核心矛盾是:
模型太贵了,谁有算力谁就赢。
Vera Rubin之后,这个矛盾被解开了。
当每Token成本降到十分之一,"训练+推理"的算力门槛会断崖式下降。一家只有1亿美金融资的初创公司,理论上可以负担得起过去需要10亿美金融资才能跑得起的模型规模。
Orion-100B项目已经验证了这一点:用商用硬件和开放互联网,每小时1.25美元的成本,就能训练1000亿参数模型,达到传统数据中心训练速度的65%。
1.25美元一个小时。
五年前,训练一个千亿参数模型,需要几百万美元、上千张顶级GPU、几个月的时间。今天,一个车库里的几个工程师,几周就能跑出一个能用的版本。
当训练成本和推理成本同时断崖式下降,"模型"作为商品的价值,就会像"电力"、"自来水"、"网络带宽"一样,被卷入到无休止的同质化竞争里。
模型本身会越来越便宜。
便宜到什么程度?
便宜到2027年底,Agent推理消耗的算力会超过训练算力。训练便宜了,推理便宜了,但Agent会海量调用、24小时不间断运行、并行几千个任务,整体算力消耗反而会暴涨。
这就是黄仁勋在COMPUTEX 2026上喊出"AI Agent时代全面到来"的底气。
Agent是AI的"新用户"。
旧的模型用户是"人"。人用AI,一次问一个问题,一天的token消耗是几百到几千。
Agent用户是"另一个AI"。Agent调用AI,调用一次可能就是几十万、几百万个token,调用频率是每秒几十次。
人 × 1 = 几百 token/天
Agent × 几千 = 几亿 token/天
算力市场总规模,不是缩小了,而是放大了。
但单次推理的利润,被Vera Rubin彻底打穿了。
四、对中国企业的影响:算力平权与生态重构
中国AI行业过去三年最焦虑的事,是被英伟达卡脖子。
A100禁运、H100禁运、H200禁运、B200禁运。
但Vera Rubin带来一个意外的结果:算力平权。
当算力便宜10倍,"堆算力"的玩法变得不那么重要了。一个能用8张A100跑出好效果的中国团队,在Vera Rubin时代,可以做到和硅谷顶级实验室差不多的事。
北京2026年6月29日-30日要开"太空算力大会",揭牌"太空算力产业创新中心"。北京邮电大学牵头,要做"芯片 → 硬件 → 平台 → 智能 → 网络 → 应用"的全栈协同体系。
这个动作背后的逻辑是:在地面算力被英伟达统治的格局下,中国必须把算力基础设施搬到太空去——那里没有地缘政治风险,没有出口管制,只有无尽的太阳能和真空冷。
与此同时,华为昇腾、阿里平头哥、百度昆仑芯、字节跳动自研芯片、摩尔线程、壁仞科技……这些国产替代厂商,在Vera Rubin带来的"算力平权"窗口期,反而获得了前所未有的机会。
为什么?
因为当算力不再是稀缺资源,"能不能用得起"变成"好不好用"、"用得起"。
国产芯片的机会,不再是"替代英伟达",而是"用更便宜的成本做更贴近场景的应用"。
6月10日,OpenAI展示了"无APP手机"原型,理念叫"UI即系统"——手机上不再装App,所有界面由端侧本地模型实时生成。端云协同架构,重推理交云端GPT。量产时间表:2027年上半年。
如果这件事成了,所有国产手机厂商、应用厂商、内容厂商,都会被卷进一场新的范式革命。
而这场革命的硬件基础,就是Vera Rubin这一代"便宜10倍"的算力平台。
五、给创业者和投资人的三条具体建议
说完了趋势,最后给三条具体建议。
第一,不要再投"通用大模型"公司了。
Vera Rubin之后,模型层的同质化会进一步加速。GPT-5.6、Claude Opus 4.8、Gemini 3.5 Flash、MiniMax M3,能力差距越来越小,价格越来越便宜,毛利越来越薄。
通用大模型公司会像当年的门户网站、搜索引擎、电商平台一样,最后剩下2-3家,其他全部退出历史舞台。
一个细节你注意到了吗?2026年6月,GPT-4.5正式退役。一个曾经的旗舰模型,从"行业标杆"到"被退役",只用了不到2年。这就是模型层商品化的速度。
第二,去投"数据 + 工作流 + 场景"的深度公司。
当模型本身不值钱,值钱的是高质量的私有数据、独特的工作流Know-how、深度的行业场景理解。
Tempus AI在医疗领域,靠私有临床数据和深度工作流,做到了上市估值百亿美元。WPP把Google Imagen 3集成到WPP Open营销平台,服务Verizon、欧莱雅、联合利华。Shopify用Imagen 3帮商家做产品摄影和生活方式图像。
这些公司的护城河,不是模型,是数据和场景。
再看一个案例:富士康的"MoMClaw"多代理制造系统,基于NVIDIA FOX蓝图构建,根因分析时间减少80%,机器故障率下降10%。这不是在"卖模型",是在"卖工厂"。
模型只是工具,工厂才是资产。
第三,最值得关注的是Agent。
Agent是AI的"新用户",也是AI的"新入口"。
2026年Q2,全球AI融资总额426亿美元,其中Agent方向融资200亿美元,占了将近一半。MCP协议季度增长58%,已经注册9400个服务器。Anthropic向SEC秘密提交S-1文件,IPO进程加速。
Gartner预测,2026年底40%的企业应用会集成AI代理,但目前只有23%的组织实现了规模化落地(62%还在试验阶段)。
这意味着,Agent从"概念验证"到"规模化生产"的拐点,正在到来。
谁是Agent时代的"卖铲人"?是给Agent提供算力的英伟达、是给Agent提供工具的MCP服务器、是给Agent提供工作流的SaaS厂商、是给Agent提供记忆的向量数据库。
不要投Agent本身,要投Agent生态的基础设施。
隐藏的第四条建议:关注"数据+Agent"的飞轮。
Agent跑得越多,产生的私有数据越多;私有数据越多,Agent就越智能;Agent越智能,能跑的场景就越多。
这种"数据-智能"的飞轮,是Vera Rubin时代最稀缺的资产。拥有这个飞轮的公司,会在3-5年内,长成AI时代的新巨头。
写在最后
2026年的AI行业,正在经历三个根本性的变化:
算力便宜10倍,模型商品化加剧 英伟达从"卖铲子"进化到"造生态" Agent成为AI的"新用户",规模指数级放大
这三个变化叠在一起,AI这门生意从"军备竞赛"变成了"基础设施竞赛",从"造火箭"变成了"建电网",从"前沿科学"变成了"日常生意"。
当你买电不再心疼电费的时候,整个社会的用电量会暴涨10倍、100倍。
AI行业,正在进入这个阶段。
而每一次这种"成本降一个数量级"的时刻,都会诞生一代新的巨头,也会淘汰一代旧的老大。
电力时代,诞生了通用电气、西屋电气,也淘汰了马车公司。
互联网时代,诞生了谷歌、亚马逊、阿里巴巴,也淘汰了 Sears、柯达、诺基亚。
AI时代,正在重演这个剧本。
唯一不同的是,速度更快、规模更大、颠覆更彻底。
Vera Rubin不是一次产品发布,它是AI产业进入"水电煤气时代"的入场券。
从今天开始,所有还在用"算力稀缺"作为商业模式基石的公司,都应该认真想一想:自己的护城河,到底还剩多深?
你准备好了吗?
夜雨聆风