AI通鉴 第二篇章 总序言 | 硅基进化的三次越狱:从CPU到NPU的权力交接
虚拟的代码可以在云端无限复制;但在现实中,我们必须不断重塑物理的容器,才能盛放那团日益狂暴的智能火焰。
◆楔子:被锁死在底层代码里的幽灵
在进入大模型时代的物理深水区之前,我们必须先粉碎一个长期盘踞在科技圈的浪漫幻觉。
很多人以为,AI的爆发是一群算法天才在白板上写下了极其绝妙的数学公式,然后智能就自然”涌现”了。但这只说对了一半。在真实的物理世界里,如果盛放算法的”容器”不对——如果芯片的底层架构根本不适合做大规模并行计算——再伟大的公式也只是一堆无法点燃的湿柴。
在计算机科学的深处,一直游荡着一个叫”冯·诺依曼瓶颈”的幽灵。
1945年,天才数学家冯·诺依曼为人类确立了计算机的底层架构。这个架构有一个核心特征:计算单元和存储单元是分开的。每做一次计算,运算器和控制器就要去存储器里取数据,算完了再放回去。当数据量小的时候,这套系统完美无缺——流水线顺畅,逻辑清晰,人类进入了计算时代。
但当深度学习这种需要瞬间吞吐亿万数据的怪物出现时,这个经典的架构,变成了一座坚不可摧的物理牢笼。
更具体地说,这道牢笼在现代半导体工业中有一个更残酷的名字——内存墙。过去二十年,处理器的计算速度提升了数万倍,但内存访问速度只提升了几十倍。芯片不是一直在算,而是大部分时间在等数据。就像一支出租车车队在高速公路收费站前排起了长队——发动机再强,也堵在路上。在冯·诺依曼架构下,数据从内存搬运到计算单元的能耗,是计算本身能耗的数倍甚至数十倍。”搬运”比”计算”更昂贵——这是现代芯片设计最大也最隐秘的物理悖论。
中美两国的科技精英们,在过去几十年里所有的合谋、背叛、垄断与突围,本质上只为了做一件事:打破这座牢笼,为AI寻找最完美的肉身。
在这场极其漫长的越狱史中,人类算力的权杖,经历了三次极其惨烈的交接。
◆第一幕:CPU——被”串行法则”困住的孤独数学家
在AI大爆发之前,统治数字世界整整四十年的霸主,是CPU——中央处理器。它的王座上坐着英特尔和微软,这对被称为Wintel联盟的组合,定义了整个个人计算机时代的权力结构。
CPU的本质是什么?它就像一个绝顶聪明、但必须按部就班的数学家。它被设计用来处理极其复杂的逻辑分支——运行操作系统、处理文档、玩扫雷游戏。它一次只能做一两件事,但速度极快,逻辑控制能力天下无敌。为了实现这种”聪明”,CPU内部塞满了分支预测器、乱序执行引擎、多级缓存——全都是为了让这个数学家跑得更快。
但在2010年前后,当科学家们试图用CPU去训练早期的神经网络时,他们绝望了。
神经网络的底层数学逻辑,是海量的矩阵乘法。它不需要复杂的逻辑判断,只需要同时进行几百万次极其简单的加减乘除。如果用CPU去训练大模型,就等同于雇佣了一个诺贝尔数学奖得主,去工地上同时搬一万块砖。数学家跑得再快,他一次也只能搬两块。
在长达十年的时间里,深度学习因为找不到合适的物理容器,被困在CPU的串行法则里,陷入了漫长的寒冬。
英特尔的掌舵者不是没看到AI的机会。2016年到2022年间,英特尔多次试图杀进AI芯片战场——收购Nervana、Habana、Movidius,挖来一堆AI芯片架构师。但每一次都是雷声大雨点小。这不是执行力的问题,这是架构宗教的问题:一个把CPU当圣经的公司,无法真正相信世界已经不需要神父了。它的商业模式、它的设计哲学、它对”通用计算”的信仰,都让它无法接受一个事实——未来不属于越来越聪明的数学家,而属于越来越庞大的列兵方阵。
这个列兵方阵的缔造者,此刻正在一家快餐店里画图纸。
◆第二幕:GPU——游戏玩家的”副产品”,与暴力的列兵方阵
1993年,黄仁勋在圣何塞一家Denny’s餐厅的卡座里创立了英伟达。他的第一代产品NV1几乎毁掉了这家公司——方向错了,宝押在了微软并不真正需要的架构上。1997年RIVA 128翻盘,1999年GeForce 256定义了GPU这个词,英伟达在独立显卡的血战中活了下来。
但黄仁勋和他造的GPU,最初根本不是为AI准备的。它是为了满足游戏玩家对3D画面的极致追求而诞生的。
电脑屏幕上有几百万个像素点,要让这些像素点同时发生变化,靠一个数学家是不行的。于是黄仁勋改变了架构:他在GPU里塞进了几千个极其简单的微型核心。这些核心不懂复杂的逻辑分支,但它们可以同时干活。如果CPU是一个诺贝尔奖得主,那么GPU就是一万个只服从指令的列兵方阵。
历史在这里发生了一个极其魔幻的巧合:游戏画面渲染的底层数学原理,和AI神经网络的矩阵乘法,竟然惊人地一致。渲染一个像素点的计算,和调整神经网络一个权重参数的更新——本质上都是把两个数乘起来再加上一个数。
2012年,辛顿的两个学生——亚历克斯·克里泽夫斯基和伊利亚·苏茨克维——买了两张在任何一个电子城里都买得到的GeForce GTX 580显卡,训练出了AlexNet模型。他们在ImageNet图像识别大赛上把错误率从25%直接压到了15%,碾压了所有CPU阵营的团队。
这两张显卡,跑的是CUDA。
黄仁勋在2006年做了那个被华尔街骂作”精神错乱”的决定:在每一块游戏显卡里强行塞进CUDA的硬件支持。他用游戏玩家掏的钱,供养了一场长达十年的基础设施建设。他把CUDA免费送进斯坦福、MIT、伯克利的实验室,让一整代博士生从入门第一天就用他的语言思考AI架构。
当AlexNet赢下ImageNet的那一刻,CPU阵营的失败不是被一个更好的CPU打败的,而是被一个本来用来画怪兽和爆炸画面的消费级显卡打败的。这不是性能的胜利,这是架构范式的降维打击。AI时代的奇点降临了。GPU成为了AI时代唯一的硬通货,黄仁勋的帝国拔地而起。
但如果你以为GPU就是算力的终局,那你就太低估人类对极致的贪婪了。
当大模型进化到万亿参数的阶段,当马斯克把十万张H100塞进同一个机房时,GPU的物理局限爆发了。GPU毕竟是为图形和通用计算设计的,它的硅片面积里保留了大量为了打游戏、为了适配各种乱七八糟任务的冗余模块。做AI训练时,H100有相当一部分功耗不是花在矩阵乘法上,而是花在了张量核心之外的各种通用逻辑和显存调度上。
用GPU来做AI,就像是让一万个背着平底锅、开瓶器和全套野外生存装备的特种兵,去流水线上拧螺丝。它能拧吗?能。但在大规模并发下,那些多余的装备会极度耗电,会产生能把电网熔断的废热。
巨头们看着手里昂贵的英伟达账单和恐怖的电费,终于意识到:GPU,不过是AI在寻找完美容器过程中的一个过渡态的畸形儿。
◆第三幕:NPU/TPU——脱掉伪装的刺客,与软硬合谋的极致
既然AI需要的只是纯粹的矩阵乘法和张量运算,我们为什么还要花几万美金,去买一块带有图形渲染冗余的GPU?为什么不直接造一块只为AI而生的终极芯片?
于是,算力越狱史的第三阶段——ASIC(专用集成电路)与NPU(神经网络处理器)/TPU(张量处理器)——带着刺客般的冷酷,登场了。
2016年,谷歌的硬件天才诺姆·约皮带队发布了第一代TPU。它毫不留情地剥离了GPU身上所有为了”打游戏”设计的冗余晶体管。TPU的芯片里只有一样东西:脉动阵列——数千个乘加器排列成方阵,数据流进去,像心跳一样有节奏地在矩阵中传递,每一次脉动完成一次乘加运算。同样的面积,同样的功耗,TPU的矩阵乘法密度对GPU形成了降维打击。
这不仅仅是一次硬件的升级,这是整个计算哲学的底层翻转。
过去半个多世纪,计算机工业的运作逻辑是:硬件造出来,算法去适配硬件。英特尔造一块CPU,微软为它写操作系统,应用开发者为操作系统写软件。这条链条自上而下,硬件是神,软件是信徒。
但AI颠覆了这条链条。当Transformer架构在2017年确立了AI算法的终极形态——多头注意力加矩阵乘法——硬件工程师们突然意识到,他们不需要再为”通用计算”保留任何冗余了。他们可以直接根据Transformer的数学结构,把硅片雕刻成算法想要的形状。
这就是软硬合谋——Software-Hardware Co-design。算法确定形态,硅片为之塑形。未来属于TPU、属于昇腾NPU、属于那些只为AI算法量身定制的专用硅片。
而这场从GPU向NPU进化的革命,在大洋彼岸的中国,因为美国的极限封锁,演变成了一场极其悲壮且壮阔的系统级反杀。
2022年10月,美国商务部将A100和H100列入对华禁运清单。随后禁令一路升级。华盛顿以为,切断中国获取顶级GPU的通道,就能锁死中国的AI。但禁令的起草者不懂技术史的残酷铁律:旧架构的封锁,只会加速新架构的普及。
因为买不到最先进的GPU,中国的极客们被迫跳过了继续等待更新的H100的路径依赖,一头扎进NPU和自研架构的深水区。华为的昇腾NPU从达芬奇架构开始,完全就是为了AI大模型的张量计算原生地长出来的——它的指令集、内存层级、互联拓扑,全部围绕Transformer的数学结构设计。寒武纪的思元系列从学术论文起步,专攻AI推理。DeepSeek的算法团队直接下沉到华为芯片的物理底层,把原本只能在CUDA上跑的算子一行行重写,针对昇腾处理器的物理特性重新设计了通信调度框架。
2026年4月,DeepSeek-V4正式宣布同步适配华为昇腾、寒武纪、海光信息等国产AI芯片。全球首个顶级大模型,彻底脱离了CUDA生态,跑在了中国自己的算力底座上。
中国AI被迫在一个与CUDA完全平行的物理宇宙里,走通了软硬件极端耦合的NPU之路。封锁的终极讽刺是:当你要锁住别人时,你自己也站在了旧路尽头的悬崖边上。
◆尾声:即将被重写的硅基版图
看懂了这条从CPU到GPU,再到NPU的算力越狱史,你才能真正看懂今天这牌桌上发生的一切。
为什么微软和亚马逊宁可亏钱,也要疯狂研发自研AI芯片?为什么被切断英伟达供应的中国,反而涌现出了打破CUDA垄断的极致算法?为什么曾经不可一世的英特尔,在今天的科技版图中显得如此落寞?
因为这个世界正在经历一场极其残酷的物理重构。英伟达的GPU是这场革命伟大的第一级助推火箭。但当火箭突破大气层进入深空时,那副笨重的躯壳注定要被抛弃。
从”什么都能干的通用芯片”,走向”极度纯粹的专用AI芯片”——在这个不可逆的物理进化法则中,无论是硅谷的巨头,还是被封锁的中国极客,都在被同样的引力拉扯着向前狂奔。
接下来,《AI通鉴》第二篇章的大幕将正式拉开。我们将深入到这张芯片竞争的牌桌内部,去看看大厂们的自研阳谋、去看看光通信如何绞杀铜线、去看看谷歌的TPU如何用OCS光交换机重塑集群架构——以及,磷化铟这种极其冷门的半导体材料,如何成为算力霸权争夺战中最隐秘的锁喉武器。
欢迎来到硅与光的焦土战。
◆明观四七·独白:设计的极简主义,与硅片的宿命
工业设计界有一句被说烂了、却永远是真理的名言:”Form follows function”——形式追随功能。
如果你去研究人类工具的进化史,会发现一个不可逆的规律:任何一种工具,在它刚诞生、还没想清楚自己终极用途的时候,总是臃肿的、多功能的。就像兜里那把瑞士军刀,能开瓶盖、能锯木头、能拧螺丝——它什么都能干,但干什么都不是最高效的。
早期的CPU是这样,黄仁勋的GPU也是这样。它们为了照顾”通用性”,在硅片上堆满了形形色色的妥协性设计。
但在工业的终局里,真正决定生死效率的,永远是那些极其纯粹的、单任务的专用工具。就像流水线上的重型冲床,它不会开啤酒瓶,它唯一的动作就是以数万吨的压力,在零点几秒内把钢板压成车门。
大模型,就是智能时代的冲床。当AI的数学本质被彻底明确为矩阵乘法的那一刻,GPU这把庞大的瑞士军刀,在物理进化的尺度上,其实就已经过时了。
我们在后视镜里看黄仁勋的帝国,庞大且无敌。但在前沿架构师的眼睛里,未来属于TPU、属于昇腾NPU、属于那些只为AI算法量身定制的专用硅片。
这也是为什么我始终对中国的算力突围抱有信心。美国的禁令,封锁的是我们通向”瑞士军刀”的旧路;但它阴差阳错地,把中国极客直接逼上了通往”纯粹冲床”的新干线。
形式追随功能。当大模型的灵魂确定了它的形状,硅的宿命,就已经被写好了。
夜雨聆风