AI 成本革命:这次不是狼来了
4月24日,AI圈发生了一件有点意思的事。
OpenAI 发布 GPT-5.5,同一天,DeepSeek 放出 DeepSeek-V4 预览版。两个头部玩家在同一天亮牌,上一次看到这种场面,还是去年这个时候。
但比起”性能提升了多少”这类老话题,我更想聊一个一直被忽视的维度——成本。
百万 token 上下文:从”奢侈品”到”日用品”
大模型上下文窗口的竞争,一直是各家重点宣传的参数。但过去一年,这个参数更像是一个营销数字——”支持 100 万 token”,听起来很震撼,但实际一用,要么速度慢得像龟爬,要么价格贵到肉疼。
DeepSeek-V4 这次做了一件不一样的事:它把 100 万 token 做成了默认配置,而不是实验特性。
什么意思?就是你不用再纠结要不要开长文本模式、不用再算 token 账单会不会爆——直接用。V4-Flash 版本的 API 定价,输入未命中缓存的情况下是 0.5 元/百万 tokens,命中缓存只有 0.1 元。100 万 token,几毛钱的事。
这背后是架构层面的突破。V4 引入了 CSA(压缩稀疏注意力)和 HCA(重压缩注意力)混合的注意力机制,在 100 万 token 场景下,单 token 推理计算量只有上一代的 27%,显存占用降到约 10%。
换句话说,不是硬件便宜了,而是算法变聪明了。
效率这件事,终于被认真对待了
AI 行业有一个不太好的习惯:喜欢用”算力堆砌”来掩盖架构上的懒惰。模型越来越大,参数越来越多,但底层效率其实很低——大量的计算被浪费在无关紧要的信息上。
DeepSeek-V4 的做法更像是”断舍离”:不追求绝对的参数规模,而是让每次计算都更精准。1.6 万亿总参数听起来吓人,但实际激活的参数只有 490 亿,一次只派最相关的”专家”来干活。
这种思路的转变,意义可能比账面上看到的数字更大。
GPT-5.5 的思路也类似——虽然参数更大,但在 Terminal-Bench 2.0 测试中准确率达到 82.7%,相比前代提升明显。更关键的是,它的成本结构也发生了变化:性能提升的同时,价格反而下来了。
这说明 AI 正在进入一个以效率论英雄的新阶段。
价格战打完了吗?才刚刚开始
过去两年,大模型的价格战打得很凶。多家厂商轮番降价,百万 tokens 的价格从几块钱一路跌到几分钱。但那时候降的多是”短文本”价格,真正考验成本的是长文本场景。
DeepSeek-V4 把战火烧到了更深的地方:100 万 token 的长文本处理,不再是有钱大企业的专属玩法。一个创业团队、一位独立开发者,甚至一个学生,都可以随时调用这个能力。
这不是”降价”能概括的事,这是能力边界的重新定义。
当处理长文本不再需要付出昂贵的代价,开发者就能做以前不敢想的事:让 AI 读完一整本技术文档再回答问题、让模型在一次对话中理解一整个项目的所有代码、让 Agent 能够跨多个文件进行复杂的推理和修改。
这些场景以前不是不想做,是做不起。现在,门槛正在消失。
真正的影响,往往在水面以下
GPT-5.5 和 DeepSeek-V4 同日发布,免不了被拿来做对比。但说实话,现在去争论”谁更强”有点无聊——两款模型各有侧重,GPT-5.5 在复杂推理和多模态任务上依然有优势,DeepSeek-V4 在代码能力和长文本场景下表现突出。
真正值得关注的,是它们共同指向的趋势:AI 基础设施正在走向”普惠”。
这种普惠不体现在发布会上的 PPT 参数,而体现在真实用户的实际使用成本上。当一个能力从”用不起”变成”随便用”,它催生的创新是难以预测的。就像云计算刚普及时,没人能想到它会催生出抖音这样的产品;5G 普及的时候,也没人预料到短视频的爆发。
百万 token 上下文的平权化,可能也是这样一个节点。
最后
每次 AI 有大新闻,朋友圈总会被”震撼””颠覆””革命”刷屏。但真正推动行业进步的,往往不是这些宏大的词,而是一些更枯燥的东西——架构优化、工程落地、成本控制。
DeepSeek-V4 和 GPT-5.5 这一次做的事,本质上都是在回答同一个问题:怎样让 AI 真正用起来不心疼?
答案写在定价表里,也写在技术报告里,更藏在每一个因为”太贵所以没用”到”太便宜随便用”的场景转换里。
软件实用程序
这个变化可能没有发布会那么热闹,但它正在悄悄发生。
你最近有没有遇到因为 token 成本太高而放弃的 AI 用法?现在可以重新考虑一下了。
夜雨聆风