【光洞见100家值得被看见的光子企业】
从晶体管到 ChatGPT 输出的每一个 token,OpenAI 与 Broadcom 正在共同设计一套面向 AI 推理时代的全栈基础设施。
OpenAI Podcast 来源:
https://www.youtube.com/watch?v=qqAbVTFnfk8&t=1729s

OpenAI 与 Broadcom 博通的这次合作,不只是“买芯片”或“定制一颗 AI 加速器”,而是一次更深层的产业信号:当 AI 模型走向智能体、实时推理和长期任务,真正的瓶颈正在从“有没有模型能力”,转向“有没有足够便宜、足够高效、足够大规模的算力”。

在这期 OpenAI Podcast 中来自,
OpenAI:Sam Altman、Greg Brockman 与
博通Broadcom: Hock Tan、Charlie Kawwas
共同解释了这次合作背后的逻辑:
OpenAI 过去 18 个月已经与 Broadcom 共同设计定制 AI 芯片,并进一步扩展到整套系统级基础设施。从芯片、机架、网络、内存、调度,到最终用户在 ChatGPT 中看到的 token,OpenAI 想要把模型公司对工作负载的理解,直接写进硬件。

这意味着,AI 基础设施正在进入一个新阶段:
模型公司不再只训练模型、发布产品,也开始重新定义底层算力系统。
因为只有让每瓦电、每颗芯片、每个数据中心都服务于同一个目标,AI 才可能真正从“稀缺资源”走向“公共基础设施”。
以下为访谈顺序整理,保留主持人的提问、嘉宾的核心回复与原话表达。
01
OpenAI 与 Broadcom 宣布战略合作:从定制芯片走向定制系统

这是 OpenAI 面向 AI 推理时代的基础设施布局
——用AI设计芯片,再去跑AI
主持人:
今天我们要讨论什么?是什么引发了这次合作?
Sam Altman回复:
今天,我们宣布 Broadcom 与 OpenAI 达成战略合作。过去约 18 个月里,双方一直在共同设计全新的定制 AI 芯片。最近,合作进一步扩展到整套定制系统的研发。这些技术已复杂到需要从整体系统层面进行设计。
预计从明年下半年开始,OpenAI 将开始部署数十个搭载该芯片的机架系统。这套规模庞大的计算基础设施,将为全球提供满足先进智能需求的服务。
“
OpenAI 的判断是:
随着 AI 产品从聊天工具变成智能体,从单次响应走向持续运行,对推理算力的需求会急剧放大。
于是,OpenAI 开始思考:是否能为这类特定工作负载,打造一款专门的芯片?
显然,Broadcom 是全球范围内最理想的合作伙伴。”
更让 OpenAI 意外的是,Broadcom 不只是能做芯片,也能参与系统设计。
“令我们大为惊讶的是,随着我们意识到确实需要整个系统来支持这一目标,并且随着事情变得越来越复杂,事实证明 Broadcom 在协助设计系统方面同样表现出色。”
【光洞见提炼】
嘉宾在访谈中强调,这已经不只是芯片项目,而是一套从芯片到系统的基础设施工程:
“这些技术已复杂到需要从整体系统层面进行设计。”
02
为什么是 博通Broadcom:
AI 模型的尽头,是半导体和系统工程

前沿模型越先进,越需要最前沿的计算能力
——从产品、模型,一直做到芯片
主持人:
这是如何发生的?你们最初是什么时候开始讨论合作推进这项工作的?
Hock Tan / Broadcom 回复:
Sam Altman 和 Greg Brockman 是非常好的合作伙伴,这与 OpenAI 的定位天然契合。OpenAI 一直在研发和推出生成式人工智能领域最先进、最前沿的模型。在迈向更先进的前沿模型和 AGI 的过程中,OpenAI 始终需要计算能力,而且是最优质、最前沿的计算能力。
“你们始终需要计算能力,最优质、最前沿的计算能力。而计算正是关键所在,这最终取决于半导体技术。”
Hock Tan 进一步指出,这次合作不只是半导体层面的合作。AI 对 Broadcom 来说,是一个极其重要的机会,因为它要求芯片、系统、网络等多个层面共同突破。
“这不仅仅是芯片层面的合作,它将扩展到 1.0 级别的规模,其完整影响范围甚至让我难以估量。”

03
垂直整合:从晶体管到 ChatGPT 输出 token,重新设计整个系统

AI 基础设施的价值,不是一颗芯片,而是全栈优化
——从产品、模型,一直做到芯片,再设计整个系统
主持人:
当谈到 1.0 版本时,这究竟意味着什么?为什么你们反复强调“这不仅仅是芯片”?
Sam Altman / OpenAI 回复:
这次合作的核心,是垂直整合。OpenAI 可以从最底层的晶体管开始,一直思考到用户向 ChatGPT 提问时最终输出的 token,并据此设计整个系统。
“我们能够从晶体管一路思考到当你向 ChatGPT 提问时输出的 token,并设计整个系统。”
这包括芯片的所有细节、机架如何设计、机架之间如何联网、算法如何适配推理芯片本身,以及最终产品体验。
Sam 认为,这正是他兴奋的原因:当整个技术栈都可以围绕同一个目标被优化,效率提升会非常巨大。
“通过能够优化整个技术栈,我们可以实现巨大的效率提升。这将带来更好的性能、更快的模型、更便宜的模型,以及所有相关的优势。”
OpenAI 过去反复看到一个现象:当模型能力提升、成本下降,需求不是线性增长,而是指数级增长。
“过去我们总想着‘优化 10 倍就能解决所有问题’,但当我们真的实现 10 倍优化时,市场需求往往激增 20 倍。”
这也是为什么 OpenAI 认为,再大的算力增量都会被世界迅速吸收。只要高质量智能能以更快速度、更低成本交付,人类就会发明出更多新用法。
04
AI 参与芯片设计:
OpenAI 把模型能力反向写入硬件

模型不只生成文本,也开始参与芯片优化
——AI 帮着设计芯片,9个月就造好了
主持人:
回顾历史,当人们开发芯片或硬件来适配主流计算应用时,你们参考了哪些历史案例?是什么在启发你们?
Greg Brockman / OpenAI 回复:
Greg 首先强调,OpenAI 无法独自完成所有事情。正是 Broadcom 对半导体和系统工程的理解,与 OpenAI 对 AI 工作负载的理解结合在一起,才让这件事成为可能。
“若没有与 Hock Tan、Charlie Kawwas 以及 Broadcom 的合作,我们根本不可能从零开始为自身特定负载打造专用芯片。”
但更有意思的是,OpenAI 已经把自己的 AI 模型用于芯片设计过程。
“我们成功运用自研模型参与了这款芯片的设计过程。”
“你可以拿人类已经优化过的组件,直接投入大量算力,模型就能自行提出优化方案。”
不过他也坦率指出,目前模型提出的优化方案,并不是人类设计师完全想不到的东西。区别在于速度和规模:很多优化点可能本来就在专家的待办清单上,但模型可以更快找出来。
“通常,我们的专家事后查看时会说:‘是的,这个在我的待办清单上。’”
Greg 的判断是,AI 将帮助人类实现原本很难取得的新突破,而要支撑这种突破,人类需要尽可能多的计算能力。
05
从 ChatGPT 到 Pulse:智能体时代最大的瓶颈,是推理算力

每个人都应该有一个 7x24 小时运行的智能代理
——也将带来推理算力需求的爆炸式增长
主持人:
这种算力和系统能力,具体会带来什么样的产品变化?
Sam Altman / OpenAI 回复:
Sam 用 ChatGPT 的变化举例:ChatGPT 正在从一种交互式对话工具,转变成一个能在幕后为你完成工作的助手。例如 Pulse 功能,会在每天早晨为用户提供个性化、与兴趣相关的内容。但由于现有计算资源有限,目前只能向 Pro 用户开放。
“我们的目标是将 ChatGPT 打造成能帮助你实现目标的工具。”
Sam 进一步说,理想状态下,每个人都应该拥有一个全天候在幕后运行的智能代理。
“每个人都应该拥有一个全天候在幕后运行的智能代理,协助他们达成目标。”
这句话背后,是推理算力需求的爆炸式增长。全球有数十亿用户,如果每个人都拥有持续运行的个性化智能体,就意味着每个人背后都需要持续运行的生成器和计算资源。
“全球有 100 亿人口,我们离制造出 100 亿枚芯片的目标还非常遥远。”
这也是 OpenAI 为什么必须把推理系统做得更高效、更便宜、更大规模。

06
Broadcom 看到的机会:
为特定工作负载定制全球最佳平台

网络、标准化和开放化,将成为 AI 扩展的关键
——优化晶体管和互连的RC延迟
主持人:
Charlie,你作为资深技术专家,与 OpenAI 合作、与 Greg 共事是怎样的体验?
Charlie Kawwas / Broadcom 回复:
Charlie 认为,这次合作最美妙之处,在于双方可以共同专注于特定工作负载。原话整理:
“我们共同完成的工作之美,在于专注于特定的工作负载。”
Broadcom 最初从 IP 和 AI 加速器角度切入,但很快意识到,真正的机会是一路深入到 OpenAI 的工作负载层面,为其模型和应用定制平台。
“我们如何能够共同协作,根据您的工作负载定制该平台,从而打造出全球最佳的平台。”
Charlie 还特别强调,问题并不只是 CPU 或 GPU。随着 AI 系统规模扩大,网络才是实现横向扩展、纵向扩展和跨域扩展的关键。
“问题不仅在于 CPU 或 GPU,实际上网络才是实现横向扩展、纵向扩展及跨域扩展的关键。”
他认为,这次合作甚至可能推动下一阶段的标准化与开放化,不只让 OpenAI 和 Broadcom 受益,也加速整个生成式 AI 生态走向 AGI。
07
AI 基础设施是人类历史级工程:像高速公路,也像新的公共事业

未来的 AI 算力,将服务全球每一个人
——优化晶体管和互连的RC延迟
主持人:
这种基础设施的规模如此庞大,你会把它与历史上的什么工程相比?
Sam Altman / OpenAI 回复:
Sam 认为,当前 AI 基础设施的建设规模,可能是人类历史上最宏大的工业项目之一。
“从许多方面来看,当前人工智能基础设施的建设规模,堪称人类历史上最宏大的工业项目。”
这需要企业、国家、行业之间协同合作,许多环节必须同步推进。Sam 提到,哪怕走进一个数据中心,观察其中的运作规模,也像走进一座微缩城市。
“随便走进一个数据中心,哪怕只是其中一个,观察其运作的规模,都宛如一座微缩城市。”

Hock Tan / Broadcom 回复:
Hock Tan 则把 AI 基础设施类比为国家高速公路项目。人们常常只关注芯片本身,但真正重要的不是钢铁或水泥,而是道路建成后能够实现什么。他认为,AI 基础设施正在逐渐演变成关键公共事业。
“随着时间的推移,这正逐渐演变为关键基础设施或关键公共事业。”
而这种公共事业最终不只是服务一千家企业,而是服务全球数十亿人。
“长远来看,这是全球 80 亿人都离不开的关键公共事业。”
08
为什么 OpenAI 现在必须设计芯片:只影响别人的路线图已经不够了

从 2017 年开始,OpenAI 发现规模化是通向智能的关键
——寻找服务不足的应用场景,用解决方案
主持人:
你们手头已经有很多事情要处理了,为什么现在还要设计芯片?
Greg Brockman / OpenAI 回复:
Greg 说,这个项目已经进行了大约 18 个月,OpenAI 招募了非常优秀的人才,也发现自己对工作负载有深刻理解。OpenAI 一直在寻找市场上“服务不足”的具体应用场景,并思考如何构建能够加速未来可能性的解决方案。
“我们一直在寻找那些我们认为存在服务空白的具体应用场景,如何构建能够加速实现可能性的解决方案?”
Greg 回顾了 OpenAI 早期对 AGI 路径的认知变化。OpenAI 创立之初,并没有把计算资源作为核心关注点。他们原本以为,通向 AGI 的道路主要关乎理念、算法和正确概念模块的组合。
但到 2017 年左右,OpenAI 发现最显著的进展来自规模化。
“大约在 2017 年,也就是项目开展两年后,我们发现最显著的成果来自于规模化实践。”
最初的证据来自 Dota 2 强化学习项目:当训练规模扩大,智能体能力也随之明显提升。
“当你将规模扩大 2 倍时,你的智能体突然就变强了 2 倍。”
从那时起,OpenAI 开始向芯片生态中的公司提供大量反馈,告诉他们未来模型和工作负载会走向哪里。但 Greg 坦言,这个过程令人沮丧,因为仅仅影响别人的技术路线图,并不能真正推动变革。
“你明明在说‘我们看到了未来应该前进的方向’,却除了试图影响他人的技术路线图外,完全没有能力真正推动变革。”
于是,OpenAI 决定把部分研发环节内部化。
“通过将部分研发环节内部化,我们感觉自己终于能真正实现那个愿景。”
09
真正的目标:从每单位能源中获得最大智能

AI时代的芯片竞争,
本质是“每瓦智能”的竞争
AI 时代的芯片竞争,本质是“每瓦智能”的竞争
主持人:
如果用更宏观的方式描述,你们到底在优化什么?
Sam Altman / OpenAI 回复:
Sam 用一句很有画面感的话解释了 AI 硬件的本质:把沙子变成芯片,让电流穿过它,就能从另一端得到智能。他的真正目标,是从每单位能源中获取最大智能。
“我们能从每单位能源中获取的最大智能,因为那终将成为瓶颈所在。”
这就是 OpenAI 做芯片的底层逻辑:不是为了拥有一颗芯片,而是为了从模型、芯片到机架的整个流程中,尽可能提高每瓦电带来的智能产出。
“我们将有能力从每瓦特中榨取远超以往的智能。”
Sam 也承认,今天的 AI 基础设施已经非常惊人,并且 OpenAI 仍会继续需要大量现有 GPU 和合作伙伴支持。但随着他们对未来工作负载越来越有信心,专门优化的系统会让每瓦功耗产生更多输出。
10
推理靠近用户:AI 产品规模越大,定制芯片越重要

从 Codex 看需求:模型越强,使用量越大
——优化晶体管和互连的RC延迟
主持人:
当你们开始思考 AI 使用规模时,这个边界在哪里?我们是否会不断发现新的算力需求?
Sam Altman / OpenAI 回复:
Sam 回顾说,OpenAI 早期的集群规模非常小,从两块 GPU 开始,后来到 20 块、200 块,再到今天的巨大规模。即便如此,真实需求仍然远超他的预期。
他举 Codex 为例:早期 GPT 只能写一点代码时,用户也会费力地粘贴代码、等待回答、再贴回去。后来模型能力变强,用户体验改善,Codex 出现,需求开始以惊人速度增长。
“当 GPT 能写一点点代码时,人们确实用它来做这件事。”
“Codex 正在以惊人的速度增长,现在可以完成大约几个小时的工作量。”
Sam 进一步想象,下一代 Codex 如果能以顶尖工程师水平完成数天工作,需求会变得多大?再把这种模式推广到每一个知识型行业,算力需求几乎没有上限。
“智能是根本驱动力。”
“我们正在通过人工智能所做的,实际上是引入更多智能并加以放大。”
11
硬件的责任:
让更便宜、更强的智能惠及更多人

芯片制造能力,决定AI是否能真正普及
两纳米及更小制程到新技术路径是个振奋时代
主持人:
每次创造新的效率提升,就能让更多人使用 AI,这是否成为你们的动力来源?
Sam Altman / OpenAI 回复:
Sam 的回答非常直接:“是的,绝对如此。毫无疑问。完全正确。”
他认为,从硬件角度来看,计算能力在某种程度上决定了这项技术能否真正落地。
Broadcom 方面也强调,半导体技术仍在持续向前推进。从两纳米及更小制程,到更多新技术路径,这是硬件与半导体产业极其振奋的时代。
OpenAI 也承认,过去像 OpenAI 这样的公司,想研发具有竞争力的芯片几乎不现实。
“过去,像我们这样的公司想要研发具有竞争力的芯片是极其困难的。事实上,难度大到我们根本不会去尝试。”
而 Broadcom 的能力,让这种针对特定工作负载的定制化芯片和系统成为可能。
12
下一步:首批芯片样品、机架部署,以及“算力充裕”的世界

OpenAI 想要的不是更多算力配额,而是每个人都能获得创造所需的计算能力
——优化晶体管和互连的RC延迟
主持人:
我们何时能首次看到这段合作关系带来的成果?是明年年底吗?之后会在接下来的三年里迅速部署吗?
Greg Brockman / OpenAI 回复:
Greg 表示,他和 Sam 每周至少讨论一次这个问题。项目进展顺利,团队也期待很快拿到首批芯片样品。但他也强调,这件事并不容易。设计一款全新芯片并将其大规模交付,同时确保整个系统端到端顺畅运行,工作量非常惊人。
“当你审视实际设计一款全新芯片并将其大规模交付所需的工作量,确保整个系统端到端顺畅运行,这其中的工作量堪称惊人。”
OpenAI 对这件事的严肃性,来自它的使命:确保 AGI 惠及全人类。
“我们的使命是确保通用人工智能惠及全人类,我们对此极为重视。”
Sam 认为,如果不主动改变,世界默认会走向“计算资源稀缺”的方向。OpenAI 内部已经能清楚感受到这一点:不同团队的产出,直接取决于能获得多少计算资源。
“OpenAI 内部各团队的产出,直接取决于他们能获得多少计算资源。围绕计算资源分配的竞争激烈程度,已经到了白热化的地步。”
而 OpenAI 真正想要的未来,是每个有想法的人都能获得计算能力支持。
“我们真正期待的世界应该是:只要你有想要创造和构建的想法,就能获得相应的计算能力支持。”
13
光洞见结语

OpenAI 与 Broadcom 的合作,真正值得关注的不是“OpenAI 也要造芯片了”这一件事,而是它背后的产业结构变化:
AI 公司正在从模型层下沉到基础设施层。
未来的大模型竞争,不只发生在参数、数据、算法和产品体验上,也会发生在芯片架构、内存系统、网络、调度、数据中心和能源效率上。
14
光洞见介绍
光洞见实验室介绍
光产业会员社区
光洞见作为聚焦光子前沿科技与产业趋势的专业观察平台,长期深耕光子芯片、光通信、光学计算等赛道,以海外归国光学博士 + 数十年光学产业资深专家的核心研究视角,为创业者、投资人、科技从业者输出可量化、可落地的硬核科技洞察。
👇加入「光洞见产业链接星球」,获取光产业行业研报与同行交流。
https://docs.qq.com/space/DU291em5RSHRSZ2pL?resourceId=SrQyddoXCxDP&mode=ai_mode
(会员专享解读见「光智库」,申请权限备注星球名字)

资料预览:


加入光洞见社区,跟半导体同行交流。

夜雨聆风