AI Agent 的下个瓶颈 | 谷歌云CEO对话实录-夜雨聆风

AI Agent 的下个瓶颈 | 谷歌云CEO对话实录

近日，谷歌云CEO Thomas Kurian 在谷歌云园区接受了Matthew Berman的深度访谈。本次对话系统性拆解了谷歌在AI 浪潮中的底层商业逻辑与基础设施布局，并探讨了谷歌如何利用TPU在算力受限时代保持弹性，Scaling Law 是否放缓、数据中心建设范式转移、AIAgent时代的硬件瓶颈以及谷歌在面对 Anthropic 和苹果等合作伙伴时的竞合策略等热点话题。

Thomas Kurian指出，谷歌并非单纯的技术分销商，而是拥有全栈自主知识产权的平台。他强调，TPU 长达 11 年的研发积累了深厚的系统级优势，不仅是单颗芯片的竞争，更是带宽、内存与软件栈的协同。这使得谷歌在资源供不应求的未来 10 年能保持极高的单位经济效益，并通过对外提供算力作为现金流杠杆，支撑万亿级的持续技术投入。

针对 Scaling Law的放缓传闻，Thomas 明确表示，从芯片设计、系统架构及算力容量等维度来看，预训练阶段完全没有看到放缓迹象。他认为，AI 的演进正处于从搜索式交互向 AI Agent 执行任务转化的阶段，这要求底层架构在内存驻留、虚拟机激活成本等方面进行深度工程优化。

关于算力分配的竞争逻辑，Thomas 认为谷歌作为平台型公司，向竞争对手提供算力是获取现金流、支撑大规模技术投入的重要杠杆，自主芯片主权确保了谷歌在资源受限环境下的单位经济效益。Thomas Kurian指出，数据中心的建设正在从“建筑业”转向“制造业”，通过工厂化预组装提升部署速度；AI Agent 的长时运行特性将彻底改变芯片的内存管理逻辑（如 KV 缓存优化）。

他预测，AI 的终极形态是将世界视作一台计算机，通过 AI Agent 实现与万物软件抽象层的互联。他透露，目前 Gemini 企业版的 Token 消耗量正在爆发式增长，而谷歌内部已通过 Jet Ski 等工具实现了从智能体化编码、代码审计到云端故障自动修复的全面闭环。

谷歌芯片研发的核心差异

目前，Anthropic 和 OpenAI 等前沿 AI 实验室普遍面临算力受限的问题，但谷歌却表现出极强的容量韧性。作为一家不仅拥有自主芯片，还同时支撑自有业务、对外销售推理服务及芯片，并允许竞争对手在平台上构建应用的全栈巨头，谷歌是如何提前布局以确保物理资源不受限的？在数据中心建设模式和芯片研发周期上，有哪些核心差异？

Thomas Kurian:从商业化角度来看，我们在不同领域有不同的变现方式。在某些场景下，我们通过Token 和芯片共同获利。在另一些场景下，即便客户使用他人的模型，底层运行的也是我们的芯片。这源于我们多年前就开始的长期规划。当预感到 AI 浪潮来临时，我们从多个维度确保物理资源不受限。我们实现了能源来源的多样化，提前锁定地产以建造数据中心，甚至改变了数据中心的建设模式。我们不再采用传统的现场施工，而是更多地转向工厂化制造，因为制造的速度远快于建筑施工，这极大地缩短了机器部署的周期。

此外，在芯片研发方面，我们虽然一直与英伟达保持合作伙伴关系，但也坚持自主研发，至今已进入第 11 或 12 个年头。在即将举行的活动中，我们将发布第八代 TPU。这种持续迭代并保持领先优势的能力，已经成为我们的一种专业积淀。有趣的是，现在的需求不仅来自 AI 实验室，还来自其他领域。例如，对冲基金巨头城堡证券（Citadel Securities）正在谈论他们如何使用我们的 TPU。美国能源部和高性能计算客户也在使用它。TPU 正在演变成一种更通用的基础设施，而不仅仅局限于 AI 算法。

谷歌如何利用芯片自主权在供应链中获得优势

在算力资源分配的多种途径中，包括直接销售TPU 算力、支持合作伙伴进行模型推理，以及支撑自有的 Gemini 模型，这几者的商业效益如何衡量？面对多样化的市场需求，谷歌如何利用芯片自主权在供应链中获得优势？

Thomas Kurian:我们在这些领域平衡投资。由于我们拥有自主知识产权（IP），无论采用哪种销售方式，都能保持理想的利润水平。我们并非单纯的分销商，这有效提升了我们的营收和营业利润率。

我们还在拓展 TPU 的应用场景。以资本市场为例，过去算法交易主要依赖受摩尔定律限制的传统数值计算，其性能提升已趋于缓慢。现在，许多顶尖公司发现转向推理（Inference）可以获得巨大的性能跨越。相比使用传统数值技术，转向推理可以利用技术进步带来的红利。这些客户希望将我们的机器部署在离交易所更近的地方，因此我们开始将 TPU 部署到客户指定的数据中心，这是一种全新的业务模式。

从宏观上看，需求的多样化推动了产品的改进，而变现模式的多样化则助力了增长。在面对供应链供应商时，由于我们的芯片需求涵盖了自身及外部市场，更大的采购规模让我们在谈判中能获得更优厚的条款。

Gemini 团队是否面临资源稀缺的挑战？

既然算力需求近乎无限，且AGI 被视为终极目标，谷歌为何不将所有算力留给自家的 Gemini 模型，而是选择分给 Anthropic 等竞争对手？在算力成本飙升的背景下，谷歌如何平衡内部研发与外部客户的需求，Gemini 团队是否面临资源稀缺的挑战？

Thomas Kurian:所有的技术投入都需要资金支持。谷歌的盈利能力很强，但我们需要持续的现金流来支撑这种量级的投入，对外提供算力是我们产生现金流的重要杠杆。分配给外部的比例始终在自身需求与资本支出之间保持平衡。无论哪个实验室，风险投资都不可能提供无限期的资助。随着算力成本飙升，如果业务长期亏损，且推理收入无法覆盖训练成本，融资渠道就会变窄。

（关于资源分配）需求永远存在。我认为未来 10 年都会处于供不应求的状态，对于拥有自主芯片的公司来说，这是一个很好的处境。如果没有自主芯片，就只能转售他人的产品。在容量受限的环境中，单位经济效益会变得更高。由于我们控制着芯片，能够保持极具竞争力的单位经济效益。拥有芯片自主权是我们的核心优势。

（关于支出比例）粗略地说，云业务约占谷歌母公司 Alphabet 资本支出的半数，且由于增长较快，这一比例仍在上升。其中，很大一部分增长动力来自 Gemini 和我们的模型，这可以作为一个大致的参考。

数据中心建设的革新与社会责任

数据中心建设模式正在从传统的现场建筑施工转向工厂化制造，这种革新具体是如何提升部署效率的？同时，面对部分地区对数据中心能耗和就业贡献的负面情绪，以及大众对AI 取代工作的焦虑，谷歌采取了哪些具体对策？

Thomas Kurian:这关乎部署容量的基本单元。过去可能是在数据中心组装一台台机柜，现在我们可以预先组装并测试好整排机器，在中心位置完成预调试。这种更高粒度的部署模式让现场交付速度大幅提升。

（关于能源与就业）民众的担忧主要集中在两点，一是能源成本是否会上升，二是能否带动当地就业。我们的对策包括投资表后（Behind-the-meter）能源技术，不从公共电网取电，甚至在电网短缺时反哺电力。此外，我们注重电能利用效率（PUE），谷歌在该指标上处于行业领先地位。这意味着我们要以极低的额外能耗来驱动海量算力。我们还采取分布式部署策略，避免给单一地区的资源造成沉重负担。当我们访问这些乡村地区的数据中心时，看到我们为当地教育和经济带来的发展，我深感这是企业责任的一部分。

（关于 AI 替代就业）这需要一个过程，重点在于展示技术如何造福社会。例如，德国最大的健康险公司 Signal 部署了基于 Gemini Enterprise 的 AI Agent。起初员工很焦虑，但实际上并没有人因此失业。相反，他们回复客户咨询的时间从 23 分钟缩短到了几秒钟，极大地提升了效率和客户满意度。我们还与美国临床肿瘤学会（ASCO）合作，AI 帮助医生在面对复杂的癌症合并案例时，能够准确遵循极其复杂的护理指南。再比如花旗集团正在开发的理财顾问，它利用 Gemini 的推理和任务管理能力，让普通人也能享受到高质量的专业投资建议。当社会看到这些实质性益处时，这种观念失衡会逐渐得到改善。

在自动化提升生产力的背景下，谷歌云内部的招聘计划是否发生了变化？面对像Block 这样因 AI 裁员的公司，谷歌的策略有何不同？此外，在网络安全领域，谷歌如何平衡 AI 可能带来的漏洞风险？

Thomas Kurian:我们仍在大量招聘。尤其是在市场拓展、产品研发和前置部署工程师岗位，在构建新产品的地方，我们都在持续增加人力。

（关于策略差异）每家公司都会根据自身产品的市场需求做出决策。在谷歌，我们看到了强劲的需求增长，因此我们选择持续投资。

（关于 AI 安全潜力）很多人没意识到 AI 在安全领域的潜力。虽然模型可能被用来寻找代码漏洞，但我们很久以前就决定利用 Gemini 来自动检测并修复代码。我们通过收购安全公司 Wiz 加强了持续红队测试能力。我们将推出三种 AI Agent，一种负责模拟攻击以寻找漏洞，一种负责评估问题优先级，第三种则协助开发者进行修复。

谷歌 TPU的优势

英伟达CEO 黄仁勋认为其架构在单 Token 成本和总体拥有成本（TCO）上最具性价比，归功于 CUDA 和 NVLink 的协同。您认同这个评估吗？谷歌 TPU 系统的核心卖点是否仅在于速度，还是有其他决定性的系统级优势？

Thomas Kurian:我们有很多客户都反馈说，谷歌云才拥有最优的总体拥有成本。现实情况是，如果你经营一家AI 实验室，你一定会选择性能最强的平台。不仅仅是我们内部团队在用，其他 AI 实验室对 TPU 的需求也远超我们的供应能力。我想说的是，如果我们的成本远高于竞争对手，这些实验室也就不会主动要求使用 TPU 了。

（关于系统级优势）质量固然重要，但我认为这是三个核心要素的结合，胜出的不只是芯片，而是整个系统。以 TPU 系统为例，8T 拥有 9,600 颗芯片，8i 大约有 1,152 颗，它们都连接在同一个光学环形网络上。在整个集群的所有芯片之间，带宽极高且延迟表现极度可控。这让我们在数据存取和处理上的效率高得惊人。以训练芯片 8T 为例，单个系统就能承载 2 PB 内存。2 PB 是什么概念，它相当于美国国会图书馆所有数字化馆藏的 100 倍。得益于这种超低延迟网络，从内存到芯片本身的吞吐量极其迅速。

第三，从编程栈的角度看，谷歌构建并向业界贡献了大量编译器优化工具。比如 Jax，我们还在 PyTorch、XLA、Pathways 等项目上做了大量工作，这些都是谷歌的核心技术。当你把这些技术整合在一起，甚至在推理端的 vLLM 等技术上做深度优化，整个技术栈才造就了 TPU 系统如此强大的性能和效率。我们用有效吞吐量来衡量这种表现，也就是用户实际能获得的有效产出。我们在几年前就做出了一些前瞻性的决策。例如三四年前，我们预见到电力供应将变得紧张，因此将研发重心放在了优化每瓦成本或单瓦 Token 产出上。这也是现在很多客户非常看重的要素。

第八代 TPU 与未来工作负载的演进

谷歌第八代TPU 首次拆分为 8T（训练）和 8i（推理/混合），这种决策背后反映了工作负载怎样的趋势变化？未来五年，AI 应用的形态将如何从简单的搜索对话进化到终极的“AI Agent”模式，这又如何反过来影响芯片设计？

Thomas Kurian:Ironwood 是一款混合芯片，兼顾训练和推理。用户在运行推理任务时存在明显的昼夜规律。白天大家醒来后会进行大量对话询问，而到了深夜，当大部分人入睡时，很多人会利用竞价实例来运行推理。比如后训练阶段，很多用户选择在深夜通过竞价实例完成，所以它需要是一款通用芯片。而 8T 主要专注于训练，虽然也有人考虑将其用于推理，8i 则主攻推理，尽管一些模型规模较小的用户也会用它来做训练。

（关于工作负载趋势）这种趋势在 Gemini 模型和底层硅片上都有体现。回顾 Gemini 的发展，我们经历了三个阶段。第一阶段，用户向模型提问，模型给出回答，这本质上还是类似搜索聊天机器人的体验。第二阶段，用户开始使用扩散模型生成图像、音频和视频，内容生成类应用呈现爆发式增长。随后，模型在处理真实世界的抽象方面变得炉火纯青。在企业环境中，模型必须与各种系统联动，比如对接 CRM 系统或供应链系统。当模型擅长处理这些任务时，终极的抽象就是将世界视作一台计算机。如果你能与计算机顺畅交谈，你就拥有了与万物互联的能力，因为所有软件本质上都是计算机与之交互的抽象层。

（关于 AI Agent 与架构）这便引出了 AI Agent 的概念。AI Agent 是一个可以被委派任务的模块，它拥有一套技能集，知道如何操作工具，并代表你执行任务。回想第一阶段的搜索式提问，输入 Token 往往远多于输出 Token。但到了内容生成阶段，输出 Token 量激增。AI Agent 的出现更从多个维度影响了芯片设计。首先是内存驻留时间，比如需要什么样的 KV 缓存（KV Cache），因为 AI Agent 任务可能持续运行 6 到 12 小时。你不能像处理普通 Token 那样频繁地将数据移入移出，那样成本太高了。其次，系统需要操作传统的经典计算机。

我们不仅与英特尔合作，还开发了自己的 ARM 芯片（Axion），因为我们预见到这些工具会产生大量通用计算需求。当 AI Agent 执行多步推理任务时，如何将对象固定在内存中以提升效率，对于优化推理成本至关重要。此外，由于推理需要就近管理延迟，我们的 8i 设计为支持非水冷模式，以便部署在更多以风冷为主的传统数据中心。

攻克 AI Agent 的存储与连接瓶颈

针对AI Agent 频繁的读写需求以及多步推理任务，谷歌在 TPU 技术栈中进行了哪些最新的系统级优化？针对 AI Agent 频繁的读写需求，你们在 TPU 栈中最新的优化是什么，下一个瓶颈会在哪里？

Thomas Kurian:我们始终以系统全局观来看待问题。下周我们将发布两个新的存储方案。一个是托管Lustre 存储方案，吞吐量提升至每秒 10 TB，专为大规模训练设计。它能与超大集群交叉互联，将海量数据集高效读入训练机群。

（关于推理存储）第二件事是名为 Rapid Storage 的超低延迟推理存储系统。其核心理念是用户可以将数据集中存储在云端，但在推理芯片运行的地方进行近端挂载。从推理处理器到 Rapid Storage 的抓取速度高达每秒 15 TB，实现了极低延迟。同时，我们还引入了名为 Virgo 的新型网络架构，为超大集群提供极速连接。所有这些层面的协同设计都是为了给 AI Agent 运行提供最优的成本结构。

（关于下一个瓶颈）至于下一个瓶颈，我认为主要集中在消费者端的虚拟机（VM）使用成本上。假设一个消费者构建了一个安排旅行的 AI Agent，它需要去查询多个旅游网站。对普通人来说，让虚拟机永远在线是极其昂贵的。因此，我们需要在任务执行时快速激活或停用虚拟机。由于这些工具需要本地存储，虚拟机需要支持超额认购，并具备极高效率本地磁盘读写能力。这将是一个关键瓶颈，直接决定了这项技术能否大规模普及。企业或许负担得起，但要推向大众，必须在成本结构上进行深度的 Harness 工程设计。只有具备从 AI Agent 到 Gemini，再到底层存储和计算系统的全栈协同设计能力，我们才能真正攻克这些挑战。

为何支撑竞争对手并向苹果提供算力

Anthropic 既是谷歌云的核心客户，也是 Gemini 在企业市场最直接的竞争对手。谷歌为何选择为竞争对手提供算力支撑，这背后的平台运作逻辑是什么？如果未来 TPU 资源面临极端受限，您会如何在 Gemini 内部研发、Anthropic 以及苹果等合作伙伴之间进行抉择？

Thomas Kurian:谷歌是一家平台型公司。作为平台型公司，业务的不同板块会与市场上的不同对手产生竞争。你可能在某些领域供应他们，而在另一些领域与他们对抗。我们致力于在模型领域做到顶尖，并且对Gemini 以及围绕其构建的企业级工具链感到非常自豪。与此同时，部分客户需要我们的 TPU，Anthropic 就是其中的典型。这就是平台型公司运作的常态。就像人们常问，你们为苹果的模型做了多少优化？如你所知，苹果已经与我们签署了合作协议。人们会质疑这是否在与你们的安卓平台和生态系统竞争。答案是肯定的，但这正是平台型公司的必经之路。

（关于资源决策）我们有由桑达尔（Sundar Pichai）领导的高管团队专门讨论这些问题。作为一家成熟的公司，我们每天都要做出类似的艰难抉择。我们的需求并不只来自 Anthropic。即使我们为 Gemini 预留了固定资源，为外部也预留了固定资源，如何分配这些外部资源依然是个难题。是给 Anthropic，还是给其他成百上千家向我们提出请求的实验室和客户？这类决策非常复杂。但我可以肯定的是，拥有自主研发的芯片并面临供不应求的局面，总好过没有自己的芯片。

预训练完全没有放缓迹象

关于传闻中的10 万亿参数模型（Mythos），谷歌目前处于什么阶段？从 TPU 业务监管的角度看，实现这种超大规模模型的全球服务是否可行？此外，业内近期出现了“预训练放缓”的讨论，您是否认同 Scaling Law 正在减速？

Thomas Kurian:关于Gemini 的最新动态，我们将在 Next 大会及之后不久公布。对于 Gemini 目前的能力，我们非常自豪，它长期处于行业顶尖水平。新版本的 Gemini 即将发布，从目前的基准测试结果来看，我们充满信心。

（关于服务可行性）我们很早就具备了解耦式推理服务能力，这让我们能够极好地扩展超大型稠密模型。我们绝不会设计一个无法提供服务的模型，因此我们确信 TPU 完全有能力支持全球最大的模型。最重要的是，我们的解耦式服务技术栈在 TPU 上的效率是业内所有模型提供商中最高的。因此我们非常有信心能够服务最大的模型，特别是体量最大的 Gemini 模型。

（关于 Scaling Law）从芯片设计、系统架构、容量或任何相关方面来看，我们完全没有看到（Scaling Law）放缓的迹象。

（关于底层数据）确实如此（合成数据更有效）。以往喂给模型的数据大多是文本、音频、视频和文件等非结构化数据，这些数据仍在增长。但在企业语境下，有很多元素使得处理这些数据其实非常简单。当你向一个 AI Agent 提问并要求提供引用来源时，如果答案在文档中，直接显示该文档的链接即可。但想象一下，你问模型：“为了满足该产品的需求，我们需要多少库存？”这会转化为对 SAP 系统或某种供应链系统的查询，涉及对一组表的动态分析。要准确地将该查询分解为具体的表格并提供证明答案正确的引用来源，是一个复杂得多的问题。得益于我们在企业级市场的积累，我们可以将 Gemini 投入到更密集的循环中，利用带有结构化数据和复杂字段的轨迹优化 Harness 工程。企业级应用可能包含上千个字段和下拉列表，其复杂性是消费级应用无法比拟的。这让我们能够教导 Gemini 处理这些复杂逻辑，并将其整合进 Harness 工程中。

软件工程生产力的重塑

有观点认为谷歌在智能体化编码方面并非最前沿，您对此如何回应？谷歌内部是如何应用这一技术的？随着AI 自动生成、审查和调试代码，人类工程师是否会逐渐失去对系统底层的掌控？

Thomas Kurian:目前我们有大量工程师在使用内部编码Harness 工程，也就是 Jet Ski。这些反馈直接进入 DeepMind 的强化学习循环中，每天都在提升 Gemini 的编程质量。我的团队中也有很多人在重度使用它。

（关于代码质量）我们对软件工程生产力的理解与外界稍有不同。在谷歌这样开发产品的公司，资深工程师的代码通常比初级工程师更精炼。因此，我们不以代码行数作为衡量标准，因为水平较低的工程师为了完成同样的任务通常会写更多的代码。重点在于我们增加了多少功能。谷歌一直有代码同行评审的传统，以前高级经理往往成为评审的瓶颈。现在我们引入了 Gemini 来协助这一流程，例如在云业务中，我们使用它来扫描代码中的安全漏洞。它不仅用于生成代码，更用于代码审查。这为资深工程师分担了大量的预备工作，让他们在介入评审前就已经有了很好的基础。此外，从长期来看，工程师最耗时的环节往往是调试。我们构建了一个版本的 Gemini，下周我们将展示一项新技术。云是世界上最复杂的计算机，比个人电脑复杂得多。我们已经把云端的所有基础设施作为工具暴露给模型，利用 Gemini 自动排除故障。这不仅提升了效率，也反过来优化了模型本身的质量。

（关于底层掌控感）这是整个行业需要共同面对的风险。有人认为有了提示词生成代码，就不再需要理解底层逻辑，因为你理解提示词即可。但在复杂系统中，提示词无法涵盖所有潜在行为，比如如何处理异常。过去有人说不再需要这么多软件工程师，但随后模型就发现了海量的安全漏洞。现实是，我们比以往任何时候都更需要软件工程师来驾驭这些工具。比如我们正在推出一个专门修复漏洞的模型版本，但这仍需要人类去引导和关注。有时行业会过度反应，认为不再需要人力。我们对此持长期眼光，不断研究是否需要一个监督模型以不同的视角来审查代码。我们坚持同行评审，并辅助资深工程师使用工具提升效率。未来的挑战在于，如果工具生成了代码，它是否具备足够的自我意识去发现其中的模式缺陷。目前在我的团队中，每天有数千人开着多个窗口工作，分别进行写代码、编译、部署测试以及后台审计任务。Jet Ski 等工具已经融入了我们的工作流演进。

谷歌模型安全底线的动态博弈

由于安全风险考虑，部分实验室选择不公开顶尖模型。谷歌对于Gemini 的公开发布是否存在明确的红线或基准？面对开源模型可能被对手利用来扫描漏洞的风险，谷歌作为开源深度贡献者，如何平衡透明度与安全性？

Thomas Kurian:我们正在研究这条底线。但核心问题在于，如果一个顶尖模型能发现某些漏洞，那么开源模型能发现其中的多少？无论如何保护闭源模型，开源模型最终都会具备强大的分析能力，且不可避免地会被对手利用。既然其中一部分攻击模式迟早会被检测到，我们应该如何应对？

（关于应对策略）我们的独特优势在于，我们同时拥有超大规模云平台、模型能力以及 Mandiant 和 Wiz 等顶级安全团队。我们的应对策略有三点。第一，既然对手用模型找漏洞，我们就必须用模型更快速地修复漏洞。第二，针对模型辅助的大规模攻击，传统的每月一次红队测试已不足够，必须引入能进行持续红队测试和自动修补部署的 AI Agent。第三，针对海量存量代码，我们构建了工具来帮助开发者识别并排定修复的优先级。

（关于开源立场）谷歌是开源的深度参与者和贡献者。我们会利用工具帮助开源社区修复这些漏洞。现实情况是，对手一定会首先攻击流行的开源库，因为其受众面最广。我们正与全行业共同应对这一挑战。

作为谷歌云的掌舵人，在当前这种技术爆炸的阶段，最令您感到担忧或彻夜难眠的问题是什么？

Thomas Kurian:我们正在平衡多项极具挑战的任务。首先是长期的资本基础设施规划，包括数据中心、网络以及充足的TPU 供应。其次，我们是否在不断攻克最关键的领域问题？三年前我们就预见到 AI 对安全的影响，因此才决定发起对 Wiz 的收购。从数据来看，今年 1 月以来，Gemini 企业版的 Token 消耗量已从每分钟 100 亿增长至 160 亿，企业用户数环比增长了 40%。我们的焦点始终在于是否为客户解决了正确的问题。技术演进极快，我们必须在问题发生前就准备好方案。我为我们的团队感到自豪。

| 文章来源：数字开物