免责声明
本文所转载内容,均来自于网络,并不代表本人观点、立场,本人也不为其真实性负责,只为传播网络信息为目的,如有异议请及时联系,本人将予以删除。所有信息仅供在新媒体背景下的研究观点交流,普通个人投资者有可能由于获得的信息不完整,缺乏对研究观点或报告的解读能力,可能会得出有差异的结论。
你是否注意到了一个看似矛盾的现象:过去一年,AI推理的单位成本下降了100倍,但全球各大科技巨头的算力账单却在疯狂上涨。
如果你能理解为什么这两句话可以同时为真,那么你就看懂了当前AI领域正在发生的最重要的事情。
价格的暴跌与账单的狂欢
让我们先看一组数据。12个月前,生成100万个前沿级别的推理Token(词元),成本大约是60美元。而今天,获得同等质量输出的成本已经降至0.50美元左右。这意味着,顶级智能模型的单位Token价格在一年内下降了约128倍。
按照传统的科技成本曲线逻辑,这应该是一场巨大的“通货紧缩”,应该为所有客户节省大量资金。但现实恰恰相反:每个超大规模云服务商的总计算账单都在飙升,而不是下降。
Anthropic刚刚签署了多年的产能协议,微软Azure的2026年资本支出指导更是惊人,OpenAI据报道每季度的计算支出已超过2023年全年的总和。英伟达甚至斥资约200亿美元收购了推理专用公司Groq。
成本曲线和需求曲线相交了,然后,需求曲线狠狠地甩开了成本曲线。
幕后真相:我们是如何消耗Token的?
这背后到底发生了什么?答案在于我们使用AI的方式发生了根本性的变革。
- 推理模型的“内心独白”:一个推理模型在回答同一个问题时,消耗的输出Token大约是非推理模型的10倍。因为它在给出最终答案前,会用大量的Token进行“大声思考”(Chain of Thought)。
- 智能体(Agent)的“连环计”:一个由智能体驱动的复杂工作流,其串联的请求次数大约是单次完成请求的20倍。因为它需要循环、调用工具、规划路径、重试错误并综合结果。
- 深度研究的“算力吞噬”:一个现代的深度研究查询,可能消耗的计算量超过10个原始GPT-4查询的总和。
简单来说,我们让每一个Token便宜了100倍,但同时,我们构建的新一代AI产品,其消耗的Token数量是过去的1万倍。
杰文斯悖论:效率提升为何导致消耗增加?
这正是“杰文斯悖论”在万亿美元规模上的实时上演。
1865年,经济学家威廉·斯坦利·杰文斯观察到,提高燃煤效率并没有减少煤炭的消耗。相反,煤炭消耗量急剧上升。因为效率的提升解锁了之前因成本过高而不经济的用途,蒸汽机在更多领域变得实用,整个英国的工业因此扩张。
同样的事情正在AI算力上发生,而且速度更快。Token价格的暴跌并没有抑制需求,反而解锁了智能体、深度研究、代码编写系统、多步推理等一系列全新的AI产品层。而这个新层级中的每一个产品,其消耗的计算量都比它取代的旧式聊天界面高出数个数量级。
数学是残酷的:便宜100倍的Token,乘以多消耗1万倍的Token,最终等于总账单扩大了100倍。
连锁反应:产业链的重塑
这种影响正在迅速堆积,并重塑整个产业链。
对于云服务商而言,2026年的资本支出远非顶峰,而只是曲线上的一级台阶。推理是7x24小时不间断运行的,这与爆发式的模型训练截然不同。电力、冷却、网络收发器、存储占用,所有基础设施都在为一种全新的、指数级增长的负载模式进行规模化扩张。
对于AI应用公司而言,一个一年前还不存在的问题出现了:随着客户从你的产品中获得更多价值(即使用得更多),你需要支付的计算成本也越高,毛利率反而可能恶化。能够赢得这场游戏的公司,将是那些在数学追上他们之前,就搞定垂直整合的公司。
而整个硬件地图也正在被实时重绘。
- KV缓存成为“无声的怪物”:长对话或智能体循环的运行内存状态(KV缓存)并不随模型参数线性扩展,而是随上下文长度和智能体步骤数量线性扩展。一个长的智能体会话,每个用户、每个会话可能持有数十GB的状态。
- 内存与封装层被重新定价:当我们将这个状态乘以每个产品的每个并发用户时,就能理解为什么整个内存和先进封装产业链会被重新定价。
- CPU与GPU比例演变:训练时,CPU与GPU的比例可能是1:8;基础聊天推理是1:4;而智能体式推理可能达到1:1,有时甚至是CPU密集型。谷歌已将其TPU产品线一分为二,推出了专门用于推理、并大幅增加SRAM容量以应对KV缓存的专用芯片。
新的生存法则:垂直整合与精细化运营
我们当前状况的正确框架,并非“AI撞上了墙”。正确的理解是:AI变得戏剧性地更便宜、更强大、更有用,但在新需求平衡下运行它的成本,远高于旧需求平衡下的成本,因为这个新平衡的规模是巨大的。
在新的推理需求平衡下,将计算视为商品的成本已不再可持续。那些搞明白API之下那一层的公司——专注于KV缓存管理、推测解码、模型量化、智能路由等垂直整合技术的公司——才是能保住毛利率的赢家。
更便宜的Token,更多的Token。历史正在重演,而这一次,主角是算力。
万水千山总是情,打赏一元行不行?
夜雨聆风