当AI学会使用工具:黄仁勋解析算力重构与CPU的绝地反击-夜雨聆风

当AI学会使用工具:黄仁勋解析算力重构与CPU的绝地反击

近日，英伟达CEO黄仁勋在GTC大会后，与知名科技分析师Ben Thompson进行了一场深度对谈。这场对话不仅揭示了加速计算作为全栈系统的本质，更首次系统性地阐述了当AI Agent开始调用非结构化工具时，全球算力架构正在发生的剧变。从CPU职能的根本性反转，到收购Groq团队背后的极致算力拆解，再到对Blackwell极端工程挑战的回溯与中国开源生态的审视，黄仁勋为我们展开了一幅AI工业革命的真实全景图。

以下为经过深度梳理与逻辑重构的内容解析：

01 500亿美元AI工厂的全栈系统论

在重塑全球计算格局的今天，英伟达早已不再局限于一家单纯的芯片供应商，而是进化为一家垂直整合的系统级巨头。背后的核心驱动力在于，我们正在跨入一个全新的时代——AI不再仅仅生成文本，而是开始熟练地“使用工具”。

在可见的未来，AI Agent将高频操作Excel、Photoshop，甚至精通逻辑综合工具以及Synopsys和Cadence等专业软件。由于AI的数据处理速度远超人类极限，这意味着全球现有的软件栈和数据库都必须经历一场“超级加速”以消除系统瓶颈。正因如此，英伟达不仅加速了SQL数据库，更与IBM等开创者建立了深度合作，试图从底层重构数据处理的逻辑。

加速计算从诞生之初就是一个全栈问题。为了让原本服务于CPU的旧算法在GPU上焕发新生，英伟达必须深入理解应用场景，重写并重构算法。这种底层重构换来的是50倍、100倍甚至10倍的性能飞跃。

如今，这种全栈能力正被投射到宏大的实体建设中。在全球范围内拔地而起的吉瓦级AI工厂，其复杂程度远超芯片制造本身。

一座吉瓦级工厂的建设成本高达500亿到600亿美元，其中仅土地、电力和厂房等基础设施的投入就占到了150亿到170亿美元。

面对如此惊人的资本押注，客户需要的是绝对的成功确定性。英伟达的价值在于，不仅提供计算、网络和存储设备，更深入到AI工厂内部的冷却管理、电气系统和冗余设计中。通过提供统筹全局的软件系统，打破各供应商之间因缺乏沟通而导致的“过度设计”，从而在现有的电力约束下榨取更高的吞吐量，为客户节省巨额资金。

02 突破架构极限

随着AI开始接管SQL等底层业务数据库，算力架构的演进也来到了十字路口。尽管Transformer在生成式AI中大放异彩，但其注意力机制呈二次方扩展的物理特性，使其在处理超长记忆时显得力不从心。如何在一场漫长的对话后，保证KV缓存不沦为垃圾信息，并精准检索到最关键的参考内容，成为了新的技术高地。

为了突破这一瓶颈，英伟达祭出了多种新一代架构。首当其冲的是将Transformer与状态空间模型（State Space Model）深度融合的混合架构，这正是Nemotron 3模型能够兼顾超强智能与极高运行效率的秘密武器。与此同时，真实世界并非只有统计学规律，还充满了物理对称性。为此，英伟达推出了具备几何感知能力的cuEquivariance技术，确保模型生成的内容符合物理世界的客观规律。更进一步说，AI不仅需要像吐出Token一样生成离散的文本信息，还需要在执行动作时理解连续性信息。面对这种跨模态的复杂需求，单纯依赖Transformer显然已经不够，底层架构的百花齐放已成必然。

03 代码模态与确定性经济价值

在过去的一年里，AI模型的推理能力迎来了质的飞跃，这直接促成了AI从“概率性生成”向“确定性执行”的跨越。生成式技术虽然惊艳，但随时可能产生的幻觉让其难以直接落地。只有通过推理、反思、检索和搜索的闭环，AI才能真正与现实世界的事实建立映射，进而将复杂问题拆解为可执行的任务。

在这个跨越期，编码成为了AI产生真正经济价值的奇点。代码与自然语言是截然不同的模态，它包含了严苛的空格、缩进和符号规范，且必须能够完美编译和运行。换句话说，代码的执行结果是绝对可验证的，容不得半点概率性的猜测。掌握了代码模态，意味着AI真正拥有了生产力。如今，英伟达内部的软件工程师已经100%使用编码Agent，他们从繁重的代码编写中解放出来，转而用更高层、更抽象的规范来定义软件架构。

这种基于确定性的反思能力，正向更广泛的领域蔓延。就像木匠在AI Agent的辅助下可以胜任建筑师的工作一样，AI可以通过对比代码或审美结果的质量，自主意识到偏差并进行迭代。事实证明，在越是具备概率性、审美性和主观性的设计领域，拥有反思能力的AI反而表现得越发卓越。

04 CPU在AI时代的绝地反击

随着摩尔定律的终结，单纯依靠增加晶体管来提升通用计算性能的时代已经落幕。然而，这并不意味着CPU将退出历史舞台。恰恰相反，在加速计算的生态中，CPU的地位不降反升，其核心使命转变为——誓死保卫价值数百万美元的GPU算力。

在AI工厂里，最可怕的浪费不是CPU的闲置，而是昂贵的GPU因为等待数据而停摆。过去十年，云服务商为了最大化出租收益，倾向于采购拥有三四百个核心但单核性能孱弱的CPU。然而，当AI Agent开始调用工具时，这种架构成为了致命瓶颈。AI调用的工具分为两类：一类是数据中心里的结构化工具（如SQL、API）；另一类则是为人类设计的非结构化PC应用（如浏览网页、点击按钮）。后者要求AI具备极强的多模态能力和瞬时响应速度。

如果让GPU去等待一颗单核性能羸弱的CPU处理这些任务，将是巨大的经济灾难。为此，英伟达专门研制了Grace和Vera CPU。Vera CPU的单核带宽和整片带宽比传统CPU狂飙了三倍，提供了极其强悍的单线程计算性能和卓越的I/O能力，确保GPU永远处于满载状态。与此同时，Vera机架与GPU机架采用了极其灵活的解耦式架构（Disaggregated architecture），而面对企业级市场难以迁移的技术栈，英伟达依然保持着对x86架构的深度支持。

05 重塑极致速率

在追求吞吐量与高价值智能Token的平衡木上，英伟达展现出了对极致效率的狂热。高质量的智能Token意味着极高的商业价值，尤其是当编码AI Agent与人类开发者协同工作时。如果像Anthropic的Claude Code这样的工具能将开发效率提升10倍，企业绝对愿意为此支付高昂的溢价。

为了在庞大的高吞吐系统中实现极高的Token生成速率和极低延迟，英伟达果断收购了Groq的核心团队并获得技术授权，将其低延迟系统与Vera Rubin架构深度融合。这背后隐藏着一个酝酿了三四年的终极武器——解构式推理（Disaggregated Inference）。

这是一种将软件栈“大卸八块”的极限操作。英伟达将推理过程中的预填充、解码阶段的高浮点运算部分，以及注意力机制进行了架构级的专项拆解，并部署到最合适的硬件节点上。这与当年将计算栈融入Mellanox网络技术栈，从而成就今天NVLink规模的逻辑如出一辙。英伟达本质上是一家通过软件拆解并部署算力的加速计算公司，只要能加速应用，计算发生在哪里并不重要。

06 能源约束、开源生态与监管隐忧

展望未来，算力产业正处于各项资源的“紧平衡”状态。尽管英伟达凭借数百个长期合作伙伴稳住了芯片供应链，但土地审批、电力配套和厂房建设的速度，依然是悬在行业头顶的达摩克利斯之剑。

在全球技术版图中，中国开源力量的崛起是一股不可忽视的洪流。

全球50%的AI研究人员来自中国，DeepSeek、Kimi和Qwen等模型在架构和技术栈上做出了极其出色的独特贡献，而华为等本土芯片企业也创下了历史性的业绩。

面对这一现状，黄仁勋的战略判断异常清晰：美国必须在全球推广其技术栈。因为当这些优秀的开源技术从中国扩散至全球时，只要底层依然是美国的技术底座，美国就能顺理成章地吸收这些创新成果。

然而，华盛顿决策层弥漫的“末日论”氛围却令人担忧。AI是一个包含电力、芯片、基础设施、模型和应用的五层架构。试图将这五层强行自上而下地捆绑监管，只会让整个国家的竞争力受限于最薄弱的一环。更危险的是，这种科幻式的恐惧营销正在导致美国民众对AI的认可度下降。如果因为恐惧而拒绝让技术全面普及，美国极有可能重演欧洲在上一次工业革命中的悲剧——发明了技术，却因为没有充分利用而被时代抛弃。

07 英伟达的组织进化论

无论是在自动驾驶还是AI Agent工具领域，英伟达始终恪守着一条独特的商业准则：

在垂直方向上构建最顶尖的全栈能力，然后水平地向全行业开放源代码。

英伟达提供技术栈，但绝不亲自下场成为最终的方案商或服务提供商。这种“造好武器但不参与战争”的定位，让其生态得以无限繁荣。

即便在开源前沿模型领域，英伟达也认为市场迫切需要一个顶级的开源标杆，而他们恰好具备这个能力。在构建模型的过程中，英伟达对计算底层的理解也愈发深刻。这种对极致性能的追求，在Blackwell架构的研发中体现得淋漓尽致。NVLink 72的研发过程被形容为一场“极其艰巨的苦差事”，但最终交付的惊艳性能证明了这种工程折磨的价值。

支撑这台庞大机器高速运转的，是英伟达内部极其清晰的“统一理论”：一手抓CUDA-X软件平台，一手抓极致协同设计的计算系统。如今，数据中心和AI工厂本身已经成为了这个统一平台。在这个清晰的坐标系下，英伟达正以创业公司般的速度，继续着这场算力革命的狂飙。

喜欢本文，别忘了点击

文末右下角“推荐”

并转发给更多人看哦~

— END —