
1.token是什么东西?
要回答AI是什么,必须先理解token。那什么是token呢?
现在我们经常会用DeepSeek、豆包,美国的ChatGPT、Claude,这就是大语言模型。严格来说,大语言模型就是一个输入输出的黑箱——输入token,预测输出别的token。
但我们平时在手机上是用语音、图片、视频、文档的方式和大语言模型对话的,而不是token。
其实大语言模型也无法理解人类直接发给它的图片、文字。首先要把内容切碎、转化成token,然后黑箱处理这些token,最后输出新的token,再把这些token拼回我们能看懂的文字和图片。整个过程经历了一道"翻译—处理—翻译"的来回,才能呈现出我们日常的体验。
比如你把一张猫的照片扔进黑箱,照片先被切成几百个token,黑箱一通运算,最后输出一堆token,再拼成一段话——
"这是一只橘猫。"
你不知道里面发生了什么,只知道结果变聪明了。
可以看得出来,token就像人体的血液一样,无处不在。离开了token,大语言模型就是个空壳。
2.算力:token的发动机
如果token是血液,那算力就是心脏。心脏跳得越快,血液才能流得更远。
那算力到底是什么?
简单说——算力就是一堆GPU在同时做数学题。大语言模型的每一次推理、每一次对话,本质上是GPU集群在做海量的矩阵乘法。GPU越多、越快,模型就越聪明、反应越迅速。
但GPU不是孤岛。它有一套完整的硬件链条:
GPU本身。市场上最先进的叫H100和Blackwell,均由英伟达生产。一台Blackwell售价3到4万美元,而2026年的产能已经全部卖光——积压订单超过360万颗,排到了2027年下半年。
GPU旁边的HBM,高带宽内存。GPU算得飞快,但数据运不进来就白搭。HBM就是紧贴在GPU旁边的高速货仓,离得够近,数据才能跟上运算的节奏。2026年全年,SK海力士、美光、三星三家的HBM产能全部被锁单,交期长达50周——想要?排队。
机柜内部的铜线。同一台机柜里,几十块GPU之间用铜线直连——7米以内,铜线的成本和功耗都远低于光纤。英伟达的GB200 NVL72,一台机柜塞72块GPU,全部靠高速铜缆(DAC)互联,像同一间屋子里喊话,距离近,铜线又快又便宜。
机柜之间的光纤和光模块。一个真正的大模型训练集群不是一台机柜能装下的。机柜之间、甚至数据中心之间,距离动辄几十米到几公里——铜线跑不动了,必须上光纤。一个万卡GPU集群,仅内部互联就需要数万芯公里光纤。
这就是为什么2025年到2026年,铜连接和光模块这两个赛道涨得如此凶猛。
光模块方面。全球AI专用光收发模块市场,2025年165亿美元,2026年预计飙至260亿美元,一年暴涨57%。800G光模块已成AI数据中心标配,1.6T产品已开始量产。
光纤方面。2025年全球数据中心光纤需求同比暴增75.9%。光纤现货价格从2025年初不到20元/芯公里,涨到2026年3月的83.4元,累计涨幅超过400%。A股光纤指数2025年涨了98%,2026年又涨了86%。龙头长飞光纤,一年半涨了五倍。
铜连接方面。英伟达GB200 NVL72机柜内部,72块GPU之间全部采用高速铜缆直连。博通CEO公开表示,短距离场景下铜缆成本更低、功耗更小,客户会继续选择铜连接。随着NVL72大规模量产,铜缆互联的需求被彻底引爆。
这就是算力硬件的完整拼图。那训练一个今天最前沿的大模型,到底要吃多少?
2026年4月23日,OpenAI发布了GPT-5.5——当前最强的模型,拥有100万token的超长上下文窗口。它的训练集群规模OpenAI没有公开,业内估算至少需要10万块H100以上级别的GPU,连续运行数月。
另一边,马斯克的xAI "Colossus"集群更加激进——目前已部署55.5万块GPU,电力消耗达到2吉瓦,总投资180亿美元。目标是2026年第二季度扩展到90万块GPU。Colossus上跑的是Grok 5,一个6万亿参数的巨型MoE模型。
这还只是训练。
推理——也就是你每次打开DeepSeek问一个问题——也需要算力。用户越多,上下文越长,需要的GPU就越多。GPT-5.5支持100万token上下文,一次对话吃掉的计算量是上一代模型的数十倍。而现在的问题是:
算力不够。不是不够用,是远远不够。
3.半导体:算力的产线,每一环都在被挤爆
GPU不是从天上掉下来的。它背后是一整条半导体产业链。而这条产业链的每一环,都在发出同一个信号——供不应求。
先看上游,半导体设备。造芯片需要光刻机。荷兰ASML生产的EUV光刻机,一台售价2.2亿美元,先进款High-NA卖到3.8亿美元。即便这个价格,全球60多台EUV仍然供不应求,ASML的CEO公开说"供应将长期不足"。2026年全球300mm晶圆厂设备支出达到1330亿美元,创历史纪录。
再看中游,台积电。全球最先进的AI芯片,几乎都经台积电之手。台积电的3nm产线利用率高达98%,5nm达97%——满负荷运转。新订单排到了2027年。而交付周期呢?
N3制程:104到156周。你今天下单,两年到三年后才能拿到芯片。
往下走,先进封装。AI芯片造出来之后需要封装,而这里的瓶颈甚至比制造本身更严重。台积电的CoWoS封装三座工厂全部满负荷,利用率超95%,交期52到78周,已售罄至2027年。台积电正在疯狂扩产——月产能从2025年底的3.5万片,扩张到2026年底的12.5到13万片,增长超过70%。
再往下,HBM。前面说了,三大家全年锁单。价格上,三星HBM合约价在一季度暴涨100%之后,二季度又涨了30%。
还有一个最硬的证据——供货周期。过去半导体行业正常的交货时间是12到16周。而今天,AI芯片从下单到到货,起跳就是一年,动辄三年。这已经不是"行业景气"能解释的了。这是真实且庞大的需求,在挤压真实且有限的供给。
总结下来一句话:
对AI的需求 → 对token的需求 → 对算力的需求。
目前的算力产能,根本撑不住所有人同时用。
4.资本开支:产能即一切
需求是真的。供给是卡脖子的。那,谁在付钱?
答案是——一场史无前例的资本开支军备竞赛。
2026年,全球四大云厂商的AI相关资本开支合计约6300亿美元,同比增长62%。
微软:1100到1200亿美元Meta:1150到1350亿美元谷歌:1750到1850亿美元亚马逊:约2000亿美元
这些钱在干什么?
抢GPU产能。锁HBM订单。包台积电先进制程产线。在沙漠里建数据中心。
四个字:产能即一切。
这四个字听起来耳熟吗?
回到19世纪。铁路狂潮时代。英国、美国、欧洲,无数资本涌入铁轨和蒸汽机车。铁路公司疯狂举债、圈地、铺轨。当时也有人说这是泡沫——"铁路太多了,谁会坐这么多火车?"
但铁路不是泡沫。它是工业革命的骨架。铁轨铺到哪里,煤和钢铁就运到哪里,工厂就能开到哪里。产能过剩是暂时的,基础设施创造的需求是永久的。
石油时代也一样。洛克菲勒不是靠挖油发家的——他是靠控制炼油厂和输油管道。产能。产能。还是产能。
今天,token就是新时代的石油。GPU集群就是新时代的铁路。大型云厂商不是在赌博——他们在抢下一代基础设施的入场券。
但抢入场券,不等于一定能跑赢。
怎么判断这轮到底是真的工业革命,还是泡沫?
看两点就够了。
第一,需求是不是指数增长。ChatGPT达到1亿用户只用了两个月。人类历史上没有任何产品做到过。如果接下来每一代大模型发布后,用户量和token消耗量继续沿指数曲线往上走,需求就不是幻觉。
第二,云厂商的利润增速能不能盖过资本开支增速。资本开支是前置的,利润是后置的。如果两年后,微软、谷歌的AI业务利润增速跑赢了资本开支增速——那这就不是泡沫,是基础设施建完之后的收获期。
反之,如果利润永远追不上投入,不管需求多大,终局都是亏损。
目前来看,趋势站在工业革命这一边。但保持观察,比提前下结论重要。
尾声:市场的定价
2025年美伊休战后,半导体板块迎来了一轮空前绝后的上涨潮。到2026年5月8日——美国时间刚刚收盘——涨势不仅没停,反而加速了。
5月8日当天,费城半导体指数(SOX)盘中暴涨3.9%,再创历史新高。SOXX半导体ETF收于508美元,盘中最高触及519美元。SMH半导体ETF站上26年高位,年内涨幅接近28%。标普500同步收于历史新高。
个股层面,已经不能叫"涨"了。
存储芯片之王闪迪(SanDisk),年内暴涨163%,股价突破1254美元。数据中心业务收入同比暴增233%。花旗给出1300美元目标价,巴克莱和Wedbush跟到1200美元——股价已经跑到了目标价门口。
美光一周暴涨30%。AMD一周暴涨24%,市值突破7000亿美元。英特尔年内涨了76%。整个板块已经不再是"轮动",是全面开花。
仅4月单月,SOXX和SMH两只ETF合计录得54.5亿美元资金净流入,创历史纪录。
市场的反应,某种程度上已经在定价我们上文讨论的一切——人们或许正在逐渐意识到,这不是又一波科技浪潮,而是一次能源载体级别的范式转变。美银和Evercore最新预测,大型云厂商的AI资本开支到2027年底可能突破1万亿美元。
但硬币有两面。当ETF单月流入破纪录、期权隐含波动率突破90分位、大空头Michael Burry公开买入半导体看跌期权、华尔街开始把SOX走势曲线叠在2000年纳斯达克上做对比的时候——情绪层面的红灯也亮了。
这是当下最有趣的张力——
基本面:极度供不应求。情绪面:极度拥挤。
谁对谁错,时间会说。
但有一点是确定的。我们正在经历的,不是AI泡沫的顶点,就是AI工业革命的起点。
没有中间地带。
夜雨聆风