AI通鉴第二篇章总序言 | 硅基进化的三次越狱:从CPU到NPU的权力交接-夜雨聆风

AI通鉴第二篇章总序言 | 硅基进化的三次越狱:从CPU到NPU的权力交接

虚拟的代码可以在云端无限复制；但在现实中，我们必须不断重塑物理的容器，才能盛放那团日益狂暴的智能火焰。

◆楔子：被锁死在底层代码里的幽灵

在进入大模型时代的物理深水区之前，我们必须先粉碎一个长期盘踞在科技圈的浪漫幻觉。

很多人以为，AI的爆发是一群算法天才在白板上写下了极其绝妙的数学公式，然后智能就自然”涌现”了。但这只说对了一半。在真实的物理世界里，如果盛放算法的”容器”不对——如果芯片的底层架构根本不适合做大规模并行计算——再伟大的公式也只是一堆无法点燃的湿柴。

在计算机科学的深处，一直游荡着一个叫”冯·诺依曼瓶颈”的幽灵。

1945年，天才数学家冯·诺依曼为人类确立了计算机的底层架构。这个架构有一个核心特征：计算单元和存储单元是分开的。每做一次计算，运算器和控制器就要去存储器里取数据，算完了再放回去。当数据量小的时候，这套系统完美无缺——流水线顺畅，逻辑清晰，人类进入了计算时代。

但当深度学习这种需要瞬间吞吐亿万数据的怪物出现时，这个经典的架构，变成了一座坚不可摧的物理牢笼。

更具体地说，这道牢笼在现代半导体工业中有一个更残酷的名字——内存墙。过去二十年，处理器的计算速度提升了数万倍，但内存访问速度只提升了几十倍。芯片不是一直在算，而是大部分时间在等数据。就像一支出租车车队在高速公路收费站前排起了长队——发动机再强，也堵在路上。在冯·诺依曼架构下，数据从内存搬运到计算单元的能耗，是计算本身能耗的数倍甚至数十倍。”搬运”比”计算”更昂贵——这是现代芯片设计最大也最隐秘的物理悖论。

中美两国的科技精英们，在过去几十年里所有的合谋、背叛、垄断与突围，本质上只为了做一件事：打破这座牢笼，为AI寻找最完美的肉身。

在这场极其漫长的越狱史中，人类算力的权杖，经历了三次极其惨烈的交接。

◆第一幕：CPU——被”串行法则”困住的孤独数学家

在AI大爆发之前，统治数字世界整整四十年的霸主，是CPU——中央处理器。它的王座上坐着英特尔和微软，这对被称为Wintel联盟的组合，定义了整个个人计算机时代的权力结构。

CPU的本质是什么？它就像一个绝顶聪明、但必须按部就班的数学家。它被设计用来处理极其复杂的逻辑分支——运行操作系统、处理文档、玩扫雷游戏。它一次只能做一两件事，但速度极快，逻辑控制能力天下无敌。为了实现这种”聪明”，CPU内部塞满了分支预测器、乱序执行引擎、多级缓存——全都是为了让这个数学家跑得更快。

但在2010年前后，当科学家们试图用CPU去训练早期的神经网络时，他们绝望了。

神经网络的底层数学逻辑，是海量的矩阵乘法。它不需要复杂的逻辑判断，只需要同时进行几百万次极其简单的加减乘除。如果用CPU去训练大模型，就等同于雇佣了一个诺贝尔数学奖得主，去工地上同时搬一万块砖。数学家跑得再快，他一次也只能搬两块。

在长达十年的时间里，深度学习因为找不到合适的物理容器，被困在CPU的串行法则里，陷入了漫长的寒冬。

英特尔的掌舵者不是没看到AI的机会。2016年到2022年间，英特尔多次试图杀进AI芯片战场——收购Nervana、Habana、Movidius，挖来一堆AI芯片架构师。但每一次都是雷声大雨点小。这不是执行力的问题，这是架构宗教的问题：一个把CPU当圣经的公司，无法真正相信世界已经不需要神父了。它的商业模式、它的设计哲学、它对”通用计算”的信仰，都让它无法接受一个事实——未来不属于越来越聪明的数学家，而属于越来越庞大的列兵方阵。

这个列兵方阵的缔造者，此刻正在一家快餐店里画图纸。

◆第二幕：GPU——游戏玩家的”副产品”，与暴力的列兵方阵

1993年，黄仁勋在圣何塞一家Denny’s餐厅的卡座里创立了英伟达。他的第一代产品NV1几乎毁掉了这家公司——方向错了，宝押在了微软并不真正需要的架构上。1997年RIVA 128翻盘，1999年GeForce 256定义了GPU这个词，英伟达在独立显卡的血战中活了下来。

但黄仁勋和他造的GPU，最初根本不是为AI准备的。它是为了满足游戏玩家对3D画面的极致追求而诞生的。

电脑屏幕上有几百万个像素点，要让这些像素点同时发生变化，靠一个数学家是不行的。于是黄仁勋改变了架构：他在GPU里塞进了几千个极其简单的微型核心。这些核心不懂复杂的逻辑分支，但它们可以同时干活。如果CPU是一个诺贝尔奖得主，那么GPU就是一万个只服从指令的列兵方阵。

历史在这里发生了一个极其魔幻的巧合：游戏画面渲染的底层数学原理，和AI神经网络的矩阵乘法，竟然惊人地一致。渲染一个像素点的计算，和调整神经网络一个权重参数的更新——本质上都是把两个数乘起来再加上一个数。

2012年，辛顿的两个学生——亚历克斯·克里泽夫斯基和伊利亚·苏茨克维——买了两张在任何一个电子城里都买得到的GeForce GTX 580显卡，训练出了AlexNet模型。他们在ImageNet图像识别大赛上把错误率从25%直接压到了15%，碾压了所有CPU阵营的团队。

这两张显卡，跑的是CUDA。

黄仁勋在2006年做了那个被华尔街骂作”精神错乱”的决定：在每一块游戏显卡里强行塞进CUDA的硬件支持。他用游戏玩家掏的钱，供养了一场长达十年的基础设施建设。他把CUDA免费送进斯坦福、MIT、伯克利的实验室，让一整代博士生从入门第一天就用他的语言思考AI架构。

当AlexNet赢下ImageNet的那一刻，CPU阵营的失败不是被一个更好的CPU打败的，而是被一个本来用来画怪兽和爆炸画面的消费级显卡打败的。这不是性能的胜利，这是架构范式的降维打击。AI时代的奇点降临了。GPU成为了AI时代唯一的硬通货，黄仁勋的帝国拔地而起。

但如果你以为GPU就是算力的终局，那你就太低估人类对极致的贪婪了。

当大模型进化到万亿参数的阶段，当马斯克把十万张H100塞进同一个机房时，GPU的物理局限爆发了。GPU毕竟是为图形和通用计算设计的，它的硅片面积里保留了大量为了打游戏、为了适配各种乱七八糟任务的冗余模块。做AI训练时，H100有相当一部分功耗不是花在矩阵乘法上，而是花在了张量核心之外的各种通用逻辑和显存调度上。

用GPU来做AI，就像是让一万个背着平底锅、开瓶器和全套野外生存装备的特种兵，去流水线上拧螺丝。它能拧吗？能。但在大规模并发下，那些多余的装备会极度耗电，会产生能把电网熔断的废热。

巨头们看着手里昂贵的英伟达账单和恐怖的电费，终于意识到：GPU，不过是AI在寻找完美容器过程中的一个过渡态的畸形儿。

◆第三幕：NPU/TPU——脱掉伪装的刺客，与软硬合谋的极致

既然AI需要的只是纯粹的矩阵乘法和张量运算，我们为什么还要花几万美金，去买一块带有图形渲染冗余的GPU？为什么不直接造一块只为AI而生的终极芯片？

于是，算力越狱史的第三阶段——ASIC（专用集成电路）与NPU（神经网络处理器）/TPU（张量处理器）——带着刺客般的冷酷，登场了。

2016年，谷歌的硬件天才诺姆·约皮带队发布了第一代TPU。它毫不留情地剥离了GPU身上所有为了”打游戏”设计的冗余晶体管。TPU的芯片里只有一样东西：脉动阵列——数千个乘加器排列成方阵，数据流进去，像心跳一样有节奏地在矩阵中传递，每一次脉动完成一次乘加运算。同样的面积，同样的功耗，TPU的矩阵乘法密度对GPU形成了降维打击。

这不仅仅是一次硬件的升级，这是整个计算哲学的底层翻转。

过去半个多世纪，计算机工业的运作逻辑是：硬件造出来，算法去适配硬件。英特尔造一块CPU，微软为它写操作系统，应用开发者为操作系统写软件。这条链条自上而下，硬件是神，软件是信徒。

但AI颠覆了这条链条。当Transformer架构在2017年确立了AI算法的终极形态——多头注意力加矩阵乘法——硬件工程师们突然意识到，他们不需要再为”通用计算”保留任何冗余了。他们可以直接根据Transformer的数学结构，把硅片雕刻成算法想要的形状。

这就是软硬合谋——Software-Hardware Co-design。算法确定形态，硅片为之塑形。未来属于TPU、属于昇腾NPU、属于那些只为AI算法量身定制的专用硅片。

而这场从GPU向NPU进化的革命，在大洋彼岸的中国，因为美国的极限封锁，演变成了一场极其悲壮且壮阔的系统级反杀。

2022年10月，美国商务部将A100和H100列入对华禁运清单。随后禁令一路升级。华盛顿以为，切断中国获取顶级GPU的通道，就能锁死中国的AI。但禁令的起草者不懂技术史的残酷铁律：旧架构的封锁，只会加速新架构的普及。

因为买不到最先进的GPU，中国的极客们被迫跳过了继续等待更新的H100的路径依赖，一头扎进NPU和自研架构的深水区。华为的昇腾NPU从达芬奇架构开始，完全就是为了AI大模型的张量计算原生地长出来的——它的指令集、内存层级、互联拓扑，全部围绕Transformer的数学结构设计。寒武纪的思元系列从学术论文起步，专攻AI推理。DeepSeek的算法团队直接下沉到华为芯片的物理底层，把原本只能在CUDA上跑的算子一行行重写，针对昇腾处理器的物理特性重新设计了通信调度框架。

2026年4月，DeepSeek-V4正式宣布同步适配华为昇腾、寒武纪、海光信息等国产AI芯片。全球首个顶级大模型，彻底脱离了CUDA生态，跑在了中国自己的算力底座上。

中国AI被迫在一个与CUDA完全平行的物理宇宙里，走通了软硬件极端耦合的NPU之路。封锁的终极讽刺是：当你要锁住别人时，你自己也站在了旧路尽头的悬崖边上。

◆尾声：即将被重写的硅基版图

看懂了这条从CPU到GPU，再到NPU的算力越狱史，你才能真正看懂今天这牌桌上发生的一切。

为什么微软和亚马逊宁可亏钱，也要疯狂研发自研AI芯片？为什么被切断英伟达供应的中国，反而涌现出了打破CUDA垄断的极致算法？为什么曾经不可一世的英特尔，在今天的科技版图中显得如此落寞？

因为这个世界正在经历一场极其残酷的物理重构。英伟达的GPU是这场革命伟大的第一级助推火箭。但当火箭突破大气层进入深空时，那副笨重的躯壳注定要被抛弃。

从”什么都能干的通用芯片”，走向”极度纯粹的专用AI芯片”——在这个不可逆的物理进化法则中，无论是硅谷的巨头，还是被封锁的中国极客，都在被同样的引力拉扯着向前狂奔。

接下来，《AI通鉴》第二篇章的大幕将正式拉开。我们将深入到这张芯片竞争的牌桌内部，去看看大厂们的自研阳谋、去看看光通信如何绞杀铜线、去看看谷歌的TPU如何用OCS光交换机重塑集群架构——以及，磷化铟这种极其冷门的半导体材料，如何成为算力霸权争夺战中最隐秘的锁喉武器。

欢迎来到硅与光的焦土战。

◆明观四七·独白：设计的极简主义，与硅片的宿命

工业设计界有一句被说烂了、却永远是真理的名言：”Form follows function”——形式追随功能。

如果你去研究人类工具的进化史，会发现一个不可逆的规律：任何一种工具，在它刚诞生、还没想清楚自己终极用途的时候，总是臃肿的、多功能的。就像兜里那把瑞士军刀，能开瓶盖、能锯木头、能拧螺丝——它什么都能干，但干什么都不是最高效的。

早期的CPU是这样，黄仁勋的GPU也是这样。它们为了照顾”通用性”，在硅片上堆满了形形色色的妥协性设计。

但在工业的终局里，真正决定生死效率的，永远是那些极其纯粹的、单任务的专用工具。就像流水线上的重型冲床，它不会开啤酒瓶，它唯一的动作就是以数万吨的压力，在零点几秒内把钢板压成车门。

大模型，就是智能时代的冲床。当AI的数学本质被彻底明确为矩阵乘法的那一刻，GPU这把庞大的瑞士军刀，在物理进化的尺度上，其实就已经过时了。

我们在后视镜里看黄仁勋的帝国，庞大且无敌。但在前沿架构师的眼睛里，未来属于TPU、属于昇腾NPU、属于那些只为AI算法量身定制的专用硅片。

这也是为什么我始终对中国的算力突围抱有信心。美国的禁令，封锁的是我们通向”瑞士军刀”的旧路；但它阴差阳错地，把中国极客直接逼上了通往”纯粹冲床”的新干线。

形式追随功能。当大模型的灵魂确定了它的形状，硅的宿命，就已经被写好了。