AI 硬件领域最昂贵的问题,恰恰无人发问

在人工智能与高性能计算（AI/HPC）行业，我参与过每一款芯片产品定义工作，最终都会落到同一页 PPT：制程节点选型决策。而且每次开会，所有人都把这件事视作板上钉钉的定论。理所当然，我们要选用最先进制程；理所当然，制程尺寸越小越好。没人会因为选择更小纳米、埃米级制程而被问责。

过去几十年这套逻辑或许行得通，但如今我愈发确信：这是当下 AI 基础设施领域最昂贵、却从未被深究的惯性思维。尤其对于新一代基础设施建设方而言更是如此 —— 那些不靠云巨头雄厚资产负债表支撑、规模化部署推理与混合专家（MoE）任务的 AI 超级算力工厂。

我用行业近期发生的真实案例来佐证这个观点。

一切始于一套揭穿真相的基准测试工具。去年 10 月，半导体分析机构 SemiAnalysis 推出了开源基准测试套件 InferenceMAX，这款工具的评测思路坦诚得难得。它不再单纯罗列峰值浮点算力（FLOPS），而是每晚对主流芯片开展实测，测算运营商真正在意的核心指标：真实业务负载、既定延迟目标下的每秒生成 token 数、每瓦 token 产出量、每百万 token 运行成本。

测试结果直观印证了英伟达的领先优势：Blackwell 架构推理性能最高可达上代 Hopper 架构的 15 倍。独立框架开发团队给出的测算更为保守：在 Llama 3.3 70B 模型上同等延迟下吞吐量提升约 4 倍，混合专家模型 DeepSeek-R1 同样实现 4 倍提升，该优势在完整延迟 - 吞吐量曲线区间内全程稳定；而对于电力受限的 AI 算力工厂，每兆瓦电能产出 token 数最高提升 10 倍。

这份性能提升堪称惊人。但其中一个关键细节，足以重塑所有产品路线图讨论会的走向：Blackwell 与 Hopper 架构采用同一代制程工艺，二者均为台积电 4nm 工艺芯片。

翻看规格参数表，疑点会进一步放大。H100 芯片 FP8 峰值算力约 4 千万亿次浮点运算，B200 约 9 千万亿次，仅为 2 倍提升，大致符合双芯片封装叠加后的预期。那 4 倍乃至 15 倍的推理性能增幅究竟从何而来？全部源自光刻工艺之外的优化：全新 FP4 数值格式，单个参数传输字节数直接减半；显存带宽从 3.35TB/s 跃升至 8TB/s；NVLink 互联带宽翻倍至 1.8TB/s；采用算力拆分部署方案，将提示词填充与解码阶段分离；专为 MoE 模型设计的专家并行路由机制；再加上 TensorRT-LLM、vLLM、SGLang 等软件历经数月内核级深度优化，同款硬件的性能每周都在迭代精进。

这家史上最成功的芯片企业，在混合专家模型推理场景下实现了算力量级跃升，全程没有缩小任何一颗晶体管尺寸。这绝非边角补充信息，而是一套成熟的核心产品策略。

如果你并非谷歌这类顶级云厂商，这套逻辑的现实意义会更强。有一组扎心的测算数据，却极少出现在方案 PPT 里：2nm 晶圆采购成本大约是 4nm 晶圆的两倍，但晶圆成本尚且不是最大难题，芯片设计开销才是。冲刺极致先进制程，意味着要投入数亿美元用于知识产权授权、电子设计自动化（EDA）工具、光刻掩膜以及多次流片。英伟达可以凭借庞大出货量摊薄这笔巨额固定投入，但中等规模自研芯片厂商根本做不到。在真实量产规模下，2nm 芯片的单位摊薄设计成本甚至会超过芯片本身的硬件制造成本。

而对于 AI 超级算力工厂承载的业务，为先进制程支付高额溢价真的值得吗？推理业务属于显存受限型负载：芯片绝大部分时间都在持续传输模型权重与 KV 缓存，算术运算耗时占比极低。MoE 模型会进一步放大这一特征：海量参数常驻显存，但每生成一个 token 仅激活其中一小部分，真正的瓶颈集中在显存容量、带宽，以及专家子模型之间分发 token 的互联通道。用 2nm 制程优化计算单元，相当于给整条堵车的公路升级其中最快的那辆车，治标不治本。

行业内各大厂商都在悄然达成共识，理性的解决方案已然清晰：仅在能切实产生超额收益的环节使用先进制程。也就是芯粒（Chiplet）架构：出货量足以摊薄成本的计算裸片选用先进制程；IO 接口、模拟电路沿用成熟廉价工艺（制程缩小对此类模块性能提升微乎其微），再通过先进封装技术整合所有模块。

这套方案把押上公司前途的单一制程抉择，转变成多元技术组合布局。设计成本更低、研发风险更小，后续迭代只需单独升级某一颗芯粒，无需重新完整设计整套芯片系统。

但这件事还有一层关键的电力约束，AI 超级算力工厂的存亡完全取决于电力配额。电网接入容量如今已是 AI 基础设施最稀缺的资源；电费不再是无足轻重的运营杂费，而是核心刚性支出，硬件全生命周期内的总电费甚至能追上硬件采购总成本。有人会据此提出质疑：那难道不该冲极致先进制程换取更高能效吗？

我们的确要追求能效优化，但没必要为此承担 2nm 制程的天价成本。Blackwell 架构实现每兆瓦 token 数 10 倍提升，依靠的是数值格式、显存、互联架构、软件调优这些低成本优化手段。中等规模算力运营商还没把这些低成本优化空间挖掘殆尽，资金就会先行耗尽。极致先进制程应当是穷尽所有高性价比能效优化手段之后的备选方案，而推理场景远没走到这一步。

这就是我想在路线图评审会上传递的核心观点：如果你的产品目标是在严苛电力上限下训练前沿大模型，那么继续选用顶级先进制程无可厚非，只是这类场景并不占主流。对于体量持续高速增长的中端市场，优先级排序一目了然，而 InferenceMAX 的实测结果已经给出标准答案：

软件优化与硬件利用率提升放在第一位；显存扩容与高速互联升级排在第二位；先进封装与芯粒架构位列第三；缩小制程纳米尺寸，只能排在最后。

下一代 AI 基础设施赛道的赢家，不会是拥有最小晶体管的厂商，而是能最大限度不浪费晶体管算力的厂商。

（本文作者：安舒尔・萨克塞纳Anshul Saxena）