乐于分享
好东西不私藏

当AI学会使用工具:黄仁勋解析算力重构与CPU的绝地反击

当AI学会使用工具:黄仁勋解析算力重构与CPU的绝地反击

近日,英伟达CEO黄仁勋在GTC大会后,与知名科技分析师Ben Thompson进行了一场深度对谈。这场对话不仅揭示了加速计算作为全栈系统的本质,更首次系统性地阐述了当AI Agent开始调用非结构化工具时,全球算力架构正在发生的剧变。从CPU职能的根本性反转,到收购Groq团队背后的极致算力拆解,再到对Blackwell极端工程挑战的回溯与中国开源生态的审视,黄仁勋为我们展开了一幅AI工业革命的真实全景图。

以下为经过深度梳理与逻辑重构的内容解析:

01 500亿美元AI工厂的全栈系统论

在重塑全球计算格局的今天,英伟达早已不再局限于一家单纯的芯片供应商,而是进化为一家垂直整合的系统级巨头。背后的核心驱动力在于,我们正在跨入一个全新的时代——AI不再仅仅生成文本,而是开始熟练地“使用工具”。

在可见的未来,AI Agent将高频操作Excel、Photoshop,甚至精通逻辑综合工具以及Synopsys和Cadence等专业软件。由于AI的数据处理速度远超人类极限,这意味着全球现有的软件栈和数据库都必须经历一场“超级加速”以消除系统瓶颈。正因如此,英伟达不仅加速了SQL数据库,更与IBM等开创者建立了深度合作,试图从底层重构数据处理的逻辑。

加速计算从诞生之初就是一个全栈问题。为了让原本服务于CPU的旧算法在GPU上焕发新生,英伟达必须深入理解应用场景,重写并重构算法。这种底层重构换来的是50倍、100倍甚至10倍的性能飞跃

如今,这种全栈能力正被投射到宏大的实体建设中。在全球范围内拔地而起的吉瓦级AI工厂,其复杂程度远超芯片制造本身。

一座吉瓦级工厂的建设成本高达500亿到600亿美元,其中仅土地、电力和厂房等基础设施的投入就占到了150亿到170亿美元。

面对如此惊人的资本押注,客户需要的是绝对的成功确定性。英伟达的价值在于,不仅提供计算、网络和存储设备,更深入到AI工厂内部的冷却管理、电气系统和冗余设计中。通过提供统筹全局的软件系统,打破各供应商之间因缺乏沟通而导致的“过度设计”,从而在现有的电力约束下榨取更高的吞吐量,为客户节省巨额资金。

02 突破架构极限

随着AI开始接管SQL等底层业务数据库,算力架构的演进也来到了十字路口。尽管Transformer在生成式AI中大放异彩,但其注意力机制呈二次方扩展的物理特性,使其在处理超长记忆时显得力不从心。如何在一场漫长的对话后,保证KV缓存不沦为垃圾信息,并精准检索到最关键的参考内容,成为了新的技术高地。

为了突破这一瓶颈,英伟达祭出了多种新一代架构。首当其冲的是将Transformer与状态空间模型(State Space Model)深度融合的混合架构,这正是Nemotron 3模型能够兼顾超强智能与极高运行效率的秘密武器。与此同时,真实世界并非只有统计学规律,还充满了物理对称性。为此,英伟达推出了具备几何感知能力的cuEquivariance技术,确保模型生成的内容符合物理世界的客观规律。更进一步说,AI不仅需要像吐出Token一样生成离散的文本信息,还需要在执行动作时理解连续性信息。面对这种跨模态的复杂需求,单纯依赖Transformer显然已经不够,底层架构的百花齐放已成必然。

03 代码模态与确定性经济价值

在过去的一年里,AI模型的推理能力迎来了质的飞跃,这直接促成了AI从“概率性生成”向“确定性执行”的跨越。生成式技术虽然惊艳,但随时可能产生的幻觉让其难以直接落地。只有通过推理、反思、检索和搜索的闭环,AI才能真正与现实世界的事实建立映射,进而将复杂问题拆解为可执行的任务。

在这个跨越期,编码成为了AI产生真正经济价值的奇点。代码与自然语言是截然不同的模态,它包含了严苛的空格、缩进和符号规范,且必须能够完美编译和运行。换句话说,代码的执行结果是绝对可验证的,容不得半点概率性的猜测。掌握了代码模态,意味着AI真正拥有了生产力。如今,英伟达内部的软件工程师已经100%使用编码Agent,他们从繁重的代码编写中解放出来,转而用更高层、更抽象的规范来定义软件架构。

这种基于确定性的反思能力,正向更广泛的领域蔓延。就像木匠在AI Agent的辅助下可以胜任建筑师的工作一样,AI可以通过对比代码或审美结果的质量,自主意识到偏差并进行迭代。事实证明,在越是具备概率性、审美性和主观性的设计领域,拥有反思能力的AI反而表现得越发卓越。

04 CPU在AI时代的绝地反击

随着摩尔定律的终结,单纯依靠增加晶体管来提升通用计算性能的时代已经落幕。然而,这并不意味着CPU将退出历史舞台。恰恰相反,在加速计算的生态中,CPU的地位不降反升,其核心使命转变为——誓死保卫价值数百万美元的GPU算力

在AI工厂里,最可怕的浪费不是CPU的闲置,而是昂贵的GPU因为等待数据而停摆。过去十年,云服务商为了最大化出租收益,倾向于采购拥有三四百个核心但单核性能孱弱的CPU。然而,当AI Agent开始调用工具时,这种架构成为了致命瓶颈。AI调用的工具分为两类:一类是数据中心里的结构化工具(如SQL、API);另一类则是为人类设计的非结构化PC应用(如浏览网页、点击按钮)。后者要求AI具备极强的多模态能力和瞬时响应速度。

如果让GPU去等待一颗单核性能羸弱的CPU处理这些任务,将是巨大的经济灾难。为此,英伟达专门研制了Grace和Vera CPU。Vera CPU的单核带宽和整片带宽比传统CPU狂飙了三倍,提供了极其强悍的单线程计算性能和卓越的I/O能力,确保GPU永远处于满载状态。与此同时,Vera机架与GPU机架采用了极其灵活的解耦式架构(Disaggregated architecture),而面对企业级市场难以迁移的技术栈,英伟达依然保持着对x86架构的深度支持。

05 重塑极致速率

在追求吞吐量与高价值智能Token的平衡木上,英伟达展现出了对极致效率的狂热。高质量的智能Token意味着极高的商业价值,尤其是当编码AI Agent与人类开发者协同工作时。如果像Anthropic的Claude Code这样的工具能将开发效率提升10倍,企业绝对愿意为此支付高昂的溢价。

为了在庞大的高吞吐系统中实现极高的Token生成速率和极低延迟,英伟达果断收购了Groq的核心团队并获得技术授权,将其低延迟系统与Vera Rubin架构深度融合。这背后隐藏着一个酝酿了三四年的终极武器——解构式推理(Disaggregated Inference)

这是一种将软件栈“大卸八块”的极限操作。英伟达将推理过程中的预填充、解码阶段的高浮点运算部分,以及注意力机制进行了架构级的专项拆解,并部署到最合适的硬件节点上。这与当年将计算栈融入Mellanox网络技术栈,从而成就今天NVLink规模的逻辑如出一辙。英伟达本质上是一家通过软件拆解并部署算力的加速计算公司,只要能加速应用,计算发生在哪里并不重要。

06 能源约束、开源生态与监管隐忧

展望未来,算力产业正处于各项资源的“紧平衡”状态。尽管英伟达凭借数百个长期合作伙伴稳住了芯片供应链,但土地审批、电力配套和厂房建设的速度,依然是悬在行业头顶的达摩克利斯之剑。

在全球技术版图中,中国开源力量的崛起是一股不可忽视的洪流。

全球50%的AI研究人员来自中国,DeepSeek、Kimi和Qwen等模型在架构和技术栈上做出了极其出色的独特贡献,而华为等本土芯片企业也创下了历史性的业绩。

面对这一现状,黄仁勋的战略判断异常清晰:美国必须在全球推广其技术栈。因为当这些优秀的开源技术从中国扩散至全球时,只要底层依然是美国的技术底座,美国就能顺理成章地吸收这些创新成果。

然而,华盛顿决策层弥漫的“末日论”氛围却令人担忧。AI是一个包含电力、芯片、基础设施、模型和应用的五层架构。试图将这五层强行自上而下地捆绑监管,只会让整个国家的竞争力受限于最薄弱的一环。更危险的是,这种科幻式的恐惧营销正在导致美国民众对AI的认可度下降。如果因为恐惧而拒绝让技术全面普及,美国极有可能重演欧洲在上一次工业革命中的悲剧——发明了技术,却因为没有充分利用而被时代抛弃。

07 英伟达的组织进化论

无论是在自动驾驶还是AI Agent工具领域,英伟达始终恪守着一条独特的商业准则:

在垂直方向上构建最顶尖的全栈能力,然后水平地向全行业开放源代码。

英伟达提供技术栈,但绝不亲自下场成为最终的方案商或服务提供商。这种“造好武器但不参与战争”的定位,让其生态得以无限繁荣。

即便在开源前沿模型领域,英伟达也认为市场迫切需要一个顶级的开源标杆,而他们恰好具备这个能力。在构建模型的过程中,英伟达对计算底层的理解也愈发深刻。这种对极致性能的追求,在Blackwell架构的研发中体现得淋漓尽致。NVLink 72的研发过程被形容为一场“极其艰巨的苦差事”,但最终交付的惊艳性能证明了这种工程折磨的价值。

支撑这台庞大机器高速运转的,是英伟达内部极其清晰的“统一理论”:一手抓CUDA-X软件平台,一手抓极致协同设计的计算系统。如今,数据中心和AI工厂本身已经成为了这个统一平台。在这个清晰的坐标系下,英伟达正以创业公司般的速度,继续着这场算力革命的狂飙。

喜欢本文,别忘了点击

文末右下角“推荐”

并转发给更多人看哦~

— END —