乐于分享
好东西不私藏

AI技术暗线史 | 算力暴政:当计算成本决定技术方向

AI技术暗线史 | 算力暴政:当计算成本决定技术方向

一个算法在纸上优雅了三十年无人问津,而它被载入史册的那一刻,只是因为有人终于买得起足够多的游戏显卡?


一、2012年秋天,那场其实不该发生的革命

2012年9月,多伦多大学的一间实验室里,Alex Krizhevsky 正盯着屏幕上的训练曲线。他的卷积神经网络 AlexNet 正在 ImageNet 竞赛数据集上吞噬图片——120万张,1000个类别。两个 NVIDIA GTX 580 游戏显卡在机箱里嘶吼了六天。

最终,错误率:15.3%。第二名是26.2%。差距大到评委怀疑作弊。

但这里有一个被大多数人忽略的诡异细节:AlexNet 在算法层面几乎没有任何原创性突破。

卷积神经网络?Yann LeCun 在1989年就用 LeNet 识别手写邮编了。ReLU 激活函数?Hinton 团队在2010年证明了其在深度模型中的有效性,但那距离2012年也不过两年。Dropout 正则化?也是 Hinton 组2012年刚挂上 arXiv 的。GPU 通用计算?吴恩达团队2009年就在斯坦福做过 GPU 训练的稀疏自编码器。

AlexNet 真正的创新只有一件事:把所有这些已有组件,甩到两块 GPU 上去跑了一个足够大的数据集。

这不是一个算法故事。这是一个算力故事。

算法是火柴,算力是火药桶。火柴划了三十年,直到火药桶足够大

二、「苦涩的教训」:一段所有算法工程师都该读的墓志铭

2019年3月,强化学习先驱 Rich Sutton 写了一篇短文,标题只有两个词:The Bitter Lesson(苦涩的教训)。

他开篇就说:

「从70年的人工智能研究中可以得出的最大教训是:利用算力的通用方法,最终总是击败利用人类知识的专用方法。」

他列举了一系列令人难堪的历史案例:

  • 计算机象棋:1997年深蓝击败卡斯帕罗夫,靠的不是精妙的棋局理解,而是一台使用专门 VLSI 芯片进行每秒数亿步 α-β 剪枝并行搜索的暴力美学机器。人类棋手试图把「棋理」编码进程序,结果被这台极度擅长大规模搜索的并行计算机碾压。
  • 语音识别:1970年代,研究者花了大量精力构建音素、声学模型、语言学的规则体系。结果呢?2000年代,基于 HMM 的统计模型用更少的人类知识、更多的数据和算力,横扫了所有基准。
  • 计算机视觉:SIFT 特征、HOG 描述子、Gabor 滤波器……整个90年代和2000年代,视觉研究者手工设计了成百上千种特征提取器。然后 ImageNet 来了,卷积神经网络来了,端到端学习把所有这些精巧的手工设计扔进了历史的垃圾堆。

Sutton 的结论残忍而诚实:研究者的心智资源是有限的,而算力的增长是指数的。 任何把人类知识硬编码进算法的努力,最终都会被「更通用但更能吃算力」的方法超越。

这不仅仅是技术判断。这是对 AI 研究范式的根本性质疑——我们津津乐道的「算法创新」,有多少只是算力红利到来时的顺势而为?

不是我们选择了深度学习。是算力选择了深度学习

三、Scaling Law:当预言变成教条

2020年,OpenAI 发表了那篇注定改变行业走向的论文——Scaling Laws for Neural Language Models

核心发现可以用一句话概括:模型性能(以交叉熵损失衡量)与模型参数量、数据量、算力投入之间,呈现跨越多个数量级的平滑幂律关系。

用更直白的话说:你花钱越多,效果就越好。而且这个规律不是线性的边缘递减,而是在对数-对数坐标上画出一条漂亮的直线——它似乎没有天花板。

这带来的后果是什么?

它把 AI 竞争从「谁更聪明」变成了「谁更富」。

模型
发布时间
估计训练算力(FLOPs)
估计训练成本
相对于BERT的成本乘数
BERT-Large
2018
~10²⁰
~数千美元
GPT-3
2020
~3×10²³
~数百万美元
~1,000×
GPT-4
2023
~10²⁵(估计)
~数千万至数亿美元
~10,000× – 100,000×
2025
10²⁶+
十亿美元级别
~1,000,000×

从几千美元到十亿美元,不过七年。这不是技术演进,这是军备竞赛。

Scaling Law 从一篇论文变成了某种准宗教信条:你不信 Scaling Law?那是因为你 scaling 得还不够。每一次模型能力的跃升——从 GPT-2 的笨拙到 GPT-4 的惊人——似乎都在为这个教条背书。

但这里有一个微妙的现实:Scaling Law 主要描述了训练损失的平滑下降,而某些高阶能力(如逻辑推理、代码理解)的涌现¹ 并非线性跟随,往往在算力投入超过某个神秘的阈值后,才突然展现。 这并非否定 Scaling Law——损失确实在降,能力也确实在涨——而是揭示了下游任务上的呈现方式远比单纯看 Loss 曲线更复杂、更具戏剧性。我们追逐的是幂律曲线,但真正想要的是阶梯跃迁。两者之间,隔着一段我们尚不理解的黑域。

¹ 学界对「涌现」的具体定义和存在性仍有争论(如 Anthropic 等机构认为某些所谓的「涌现」可能是评估指标选取造成的视觉错觉),此处指模型在特定任务上表现出的、远超预期规模对应的非线性跳跃。

我们沿着一条平滑曲线下注,却在等不连续的奇迹

四、DeepSeek 的反叛与 MoE 的复仇

2025年初,一条消息震动了硅谷:中国团队 DeepSeek 发布的 V3/R1 模型,性能逼近 GPT-4o 和 Claude 3.5 Sonnet,但训练成本据称仅为后者的十分之一甚至更低。

这怎么可能?

答案藏在 Mixture-of-Experts(混合专家) 架构里——一个在1991年就被提出的古老思想。

MoE 的原理可以用一个不精确但直观的比喻来理解:传统的 Dense 模型就像一家万人公司的全员大会——公司有一万名员工,但处理任何一个人的简单查询(比如「你们几点下班?」)时,这一万人都要站起来听一遍、思考一遍。 而 MoE 就像一个智能总机系统:它训练了一个「路由器」(gate),能自动判断来者的问题该分给电子工程师部还是客服部。公司总规模依然可以是一万人(总参数量巨大),但处理每件事时,只需要激活几个相关部门的专家(实际激活参数很少)。这让模型既「大」又「快」——大的是知识容量,快的是推理效率。

2017年,Google 把 MoE 塞进了 Transformer(Sparsely-Gated MoE),但训练不稳定、负载均衡困难——有的「专家部门」被挤爆,有的门可罗雀。2021年,Google 的 Switch Transformer 用更简洁的门控机制一定程度上缓解了这个问题。但真正把 MoE 从实验室搬进战场、并证明其商业可行性的,是 DeepSeek。

DeepSeek 的创新不在「发明」MoE,而在工程化的极致——包括辅助损失函数的精心设计(确保各个「专家部门」被均匀使用)、细粒度的专家切分、以及极致的通信优化。他们用约2048块 H800 GPU(受出口管制的降级版)训练出了对标顶尖水平的模型。

这不仅仅是技术路线的胜利。这是对「算力暴政」的一次正面反抗。

当 OpenAI、Anthropic、Google 在追逐十万卡集群、百万 GPU 数据中心时,DeepSeek 用了一个数量级更少的算力,撬动了相近的能力。这证明 Scaling Law 并不是唯一的游戏规则——效率同样是武器。

资本密度 vs. 算法密度

五、边缘计算:算力暴政下的一纸独立宣言

但反抗算力暴政的,不只有训练阶段。推理阶段同样在发生一场静默的叛乱。

当前的主流范式是「云端大模型」:你的问题被加密传输到数千公里外的数据中心,经过数千亿参数的神经网络推理,再把结果传回来。这个模式的问题显而易见:

  1. 延迟:光线穿过光纤需要时间,GPU 推理需要时间。对于实时交互,每多50毫秒延迟,用户体验就下降一个档次。
  2. 隐私:你的每一次查询、每一段对话,都途经了别人的服务器。
  3. 成本:GPT-4 级别的推理,单次查询成本可能高达数美分。如果日活十亿用户呢?
  4. 网络依赖:飞机上、地下车库、偏远地区——断网即断智。

因此,2024-2025 年,设备端 AI(on-device AI) 成为苹果、高通、联发科、Google 的共同押注方向:

  • 苹果的 Apple Intelligence 在 A17 Pro / M 系列芯片上本地运行约 30 亿参数的语言模型,处理日常任务。十年前的手机跑一个 1B 参数的模型如同天方夜谭,而今天苹果凭借 A17 Pro 的 16 核神经引擎,已将 30 亿参数级别的 LLM 流畅地塞进了口袋——这在十年前是不可想象的成就。
  • 在产品演示中,高通宣称骁龙 8 Gen 3 可以在手机上运行 100 亿参数的量化模型,峰值 token 生成速度可达 20 tokens/秒(具体性能取决于量化方案、上下文长度及运行环境)。
  • Google 的 Gemini Nano 在 Pixel 手机上本地处理短信摘要、键盘智能回复。

这是技术民主化,还是另一种收编?

细想一层:当 AI 能力被塞进芯片,控制算力的人就变成了控制芯片的人。 苹果控制着 iPhone 的神经引擎,高通控制着安卓阵营的 Hexagon NPU,NVIDIA 控制着几乎所有云端推理的 GPU。算力的主权从「谁有更多服务器」悄然转变为「谁定义计算架构」。

控芯者同样拥有巨大权力。但这与「算力暴政」的本质区别在于——至少,它把数据的主权,从遥远的云服务器,第一次真正意义上地交还到了用户的物理设备里。你的消息在你的手机上被摘要,你的照片在你的设备上被分类,你的语音在本地芯片上被转写。云端从未碰过这些数据。这不是暴政的终结,但它至少撕开了云端垄断的一道口子——一条通向另一种算力治理可能的裂隙。

AI的新范式:从云端依赖到端侧智能

我们到底在为什么买单?

回到开头那个问题:AlexNet 凭什么赢?

不是因为它更聪明。是因为两块 GTX 580 让它的浮点算力超过了同时代任何传统视觉系统的数百倍。是因为 ImageNet 数据集让它可以吃进比以往多三个数量级的标注样本。是因为摩尔定律的惯性恰好在那一年,把 GPU 的价格打到了一个博士生也能自费买两块的地步。

我们今天所处的 AI 时代,从某种意义上就是 AlexNet 故事的无限循环重播:

  • Transformer 架构(2017)之所以成为主宰,不是因为它在理论上比 LSTM 更优美,而是因为它天然适合并行化——天然适合吃算力。
  • GPT 系列的成功,不是因为它找到了通往 AGI 的秘径,而是因为它证明了「下一个 token 预测 + 足够多 token」这个极其简单粗暴的配方,在足够大的算力下可以产生令人恐惧的结果。
  • 各家公司争先恐后地建设万卡集群,不是因为确信 Scaling Law 会永远有效,而是因为 「不确定哪条路能通向 AGI,但算力是所有路的共同起点。」

算力从未中立。它一直在悄悄选择赢家。