OpenAI 首款自研芯片 Jalapeño 深度解析
9个月极速流片、推理成本直降50%、脉动阵列架构——AI 巨头正式进军芯片领域
OpenAI CEO Sam Altman(左)与 Broadcom CEO Hock Tan(右)共同展示 Jalapeño 芯片晶圆
核心速览
2026年6月24日,OpenAI 与博通(Broadcom)联合发布首款自研 AI 推理芯片 Jalapeño(哈拉贝诺辣椒)。这是 OpenAI 从纯模型公司向全栈 AI 基础设施提供商转型的里程碑事件。
关键数据一览:
| 项目 | 规格 |
|---|---|
| 芯片名称 | Jalapeño(墨西哥辣椒) |
| 定位 | 专用 AI 推理芯片(ASIC) |
| 工艺制程 | 台积电 3nm(N3) |
| 核心架构 | 脉动阵列(Systolic Array) |
| 内存配置 | HBM3E / HBM4 高带宽内存 |
| 配套 CPU | Arm 定制架构 |
| 网络互联 | Broadcom Tomahawk 交换芯片 |
| 开发周期 | 9个月(设计到流片) |
| 成本降幅 | 推理成本降低约 50% |
| 部署时间 | 2026年底开始千兆瓦级部署 |
为什么是 Jalapeño?
从训练到推理:成本结构的变化
AI 产业的底层逻辑正在发生深刻变迁。
过去,业界目光聚焦于模型训练的算力军备竞赛。GPT-5、Claude 4 等新一代大模型的训练集群动辄消耗数亿美元,占用数万张高性能 GPU。
然而,随着 ChatGPT 日活用户突破数亿,以及 Codex、Operator 等智能体产品的规模化落地,推理侧的计算负载呈现指数级增长。
据行业估算,OpenAI 的推理算力成本已占据其总算力支出的 60% 以上。推理算力正式超越训练算力,成为 AI 基础设施中最昂贵的成本项。
GPU 的结构性错配
通用 GPU(如 NVIDIA H100/B200)为训练场景设计,拥有大量的张量核心和极高的峰值计算能力。但在纯推理场景中,这些资源往往处于闲置状态。
这就像用波音 747 的引擎驱动家用轿车——动力过剩却效率低下。
此外,对单一供应商的过度依赖带来了严重的供应链风险。NVIDIA 在定价权、产能(如 CoWoS 封装)以及 HBM 内存供应上的垄断地位,使得 OpenAI 的算力扩张计划受制于人。
正是在这种推理成本指数级增长与供应链脆弱性的双重压力下,自研 Jalapeño 芯片成为了 OpenAI 关乎生存的必然战略选择。
技术架构深度解析
白纸设计:专为推理而生
Jalapeño 是一款采用台积电 3nm(N3)工艺制造的专用集成电路(ASIC),其核心设计理念被 OpenAI 硬件负责人 Richard Ho 概括为:
"blank-slate design for modern LLM inference"
——即针对现代大语言模型推理从零开始的全新设计。
这款芯片搭载了 Arm 定制 CPU,采用博通的 Tomahawk 交换芯片 进行网络互联,并配备了 HBM3E/HBM4 高带宽内存。
三大核心设计思路
① 大幅减少数据搬运
在 LLM 推理中,权重矩阵与激活向量的反复乘累加(MAC)是主要计算任务,但数据从 HBM 搬运至计算单元的能耗和延迟远超计算本身。
Jalapeño 通过以下方式优化:
多级片上缓存分级 脉动阵列的数据流架构优化 智能权重预取
通过脉动阵列的流水线特性,数据在计算单元间以"邻接传递"方式流动,避免了重复搬运。
② 精确平衡算力、内存与网络
传统 GPU 往往追求极致计算吞吐量,导致在推理场景中算力过剩而内存带宽不足。Jalapeño 通过精确计算,确保计算单元规模与内存带宽完美匹配,使每个时钟周期的计算单元都能获得充足的数据供给。
同时,网络互联带宽与机架内通信需求对齐,避免了节点间通信成为系统瓶颈。
③ 提升实际利用率
通过定制推理内核、利用 LLM 推理计算图的确定性特性进行精确流水线调度,以及硬件与 OpenAI 推理引擎的深度协同优化,Jalapeño 的实际算力利用率逼近理论峰值。
脉动阵列:高效计算的奥秘
Jalapeño 计算核心的关键在于其采用的**脉动阵列(Systolic Array)**架构。
与 GPU 中通用的 CUDA 核心不同,脉动阵列是一种高度专用化的计算单元网格,数据在阵列中以"脉动"方式逐级传递。这种架构在处理矩阵乘法时具有极高的数据局部性和计算密度。
与 GPU 的核心差异
| 特性 | 通用 GPU | Jalapeño 脉动阵列 |
|---|---|---|
| 计算模式 | 并行执行 | 流水线传递 |
| 数据流动 | 频繁读写 HBM | 片上 PE 间流动 |
| 内存访问 | 高能耗、高延迟 | 数据局部性优化 |
| 专用程度 | 通用性强 | 专为矩阵乘法优化 |
| 能效比 | 中等 | 显著优于 GPU |
注意力机制的融合优化
在传统 GPU 上,多头注意力机制(Multi-Head Attention)的 QK^T、Softmax 和 SV 计算步骤涉及多次 HBM 读写。
而 Jalapeño 可以通过脉动阵列将这些步骤融合在单个流水线中,中间结果直接保留在片上,进一步提升了效率。
9个月流片:AI 设计 AI 硬件
史上最速 ASIC 开发
Jalapeño 从初始设计到制造流片仅用了 9 个月,创下了高性能 ASIC 开发速度的纪录。
通常情况下,从零开始设计一块 ASIC 芯片需要 1.5 到 2 年的时间。这一速度之所以得以实现,很大程度上要归功于 OpenAI 自家的 AI 模型——ChatGPT 在芯片的设计过程中发挥了辅助作用,加速了工程迭代与验证。
OpenAI 将此称为 "AI 辅助造芯"。
"如果 AI 能帮助工程师更快地设计出更好的芯片,就可以降低整个行业的计算成本,帮助普及先进 AI 的使用权限。"
—— OpenAI 官方公告
AI 参与的芯片设计流程
传统芯片设计依赖工程师手动优化晶体管布局、逻辑门连接,周期长且容错率低。而在 Jalapeño 的开发中,生成式 AI 模型被用于:
辅助电路布局 时序收敛验证 功耗优化
这种范式转变的意义深远:
极大地缩短了研发周期 AI 能够发现人类工程师难以察觉的微观优化空间 在有限的面积内实现更高的性能和能效比
性能表现与成本优势
实验室验证数据
虽然 OpenAI 官方新闻稿中针对 Jalapeño 带来的成本节约的表述相当保守,仅透露其"每瓦性能大幅优于当前最先进水平",未给出具体百分比。
但据彭博社报道,博通 CEO 陈福阳(Hock Tan)透露,早期内部测试显示,相较于当前主流 AI GPU,Jalapeño 可实现约 50% 的推理成本节省,能耗降低约 37%。
对于每天处理数亿次 API 调用和 ChatGPT 请求的 OpenAI 而言,即使推理成本的边际下降也会显著改善盈利模型。
已成功运行的模型
在实验室中,Jalapeño 工程样品已以目标频率和功耗成功运行以下模型:
GPT-5.3-Codex-Spark(OpenAI 2月发布的代码模型) 各类强化学习任务
详细的性能技术白皮书将在未来数月内发布。
产业生态与竞争格局
三方分工协作
| 参与方 | 职责 |
|---|---|
| OpenAI | 芯片架构设计、内核优化、Serving 系统 |
| Broadcom | 硅实现、网络技术(含 Tomahawk 网络芯片)、芯片制造落地 |
| Celestica | 板卡、机架、系统集成 |
Celestica 是一家加拿大的电子制造服务商,也是 Google TPU 的首选制造合作伙伴。
"去英伟达化"加速
业内人士普遍认为,Jalapeño 的发布是科技巨头集体挑战英伟达市场主导地位的又一注脚:
Google 有 TPU 系列 Amazon 有 Trainium / Inferentia 微软 正在开发 Maia 芯片 Meta 也在追求定制化推理芯片(MTIA)
如今 OpenAI 正式入局——定制 AI 加速器的阵营空前壮大。
OpenAI 的四线并行策略
OpenAI 并非要完全"抛弃"英伟达,而是采取多元化策略:
| 合作方 | 合作内容 | 时间 |
|---|---|---|
| NVIDIA | 最高 1000 亿美元投资,至少 10GW 数据中心系统 | 2025年10月 |
| AMD | 6GW 芯片供应协议(含至多 10% 股权期权) | 2025年10月 |
| Cerebras | 750MW 推理算力协议 | 2026年6月 |
| Broadcom | Jalapeño 自研芯片 + 10GW 千兆瓦级数据中心 | 2025年10月启动 |
OpenAI 总裁 Greg Brockman 坦言:"我们根本无法足够快地获得算力。"
Jalapeño 是对其爆炸性算力需求的结构性补充,而非替代。
部署路线图
2026年底:初始部署
Jalapeño 计划于 2026年底 开始与微软和其他合作伙伴一起部署在千兆瓦级数据中心。
Broadcom CEO Hock Tan 表示:"这只是多代路线图的起点。"
多代芯片规划
Jalapeño 是多代计算平台的第一步。据报道:
第一代:Jalapeño(墨西哥辣椒)—— 台积电 3nm 工艺 第二代:Serrano(塞拉诺辣椒)—— 据传将采用台积电更先进的 A16 工艺节点
10GW(吉瓦)大约相当于整个北京市的居民用电量。OpenAI 与博通的目标是共同建设这一规模的算力集群。
Project Nexus 背景
今年 5 月,The Information 报道过整个自研芯片计划的融资背景:
项目代号:Project Nexus 第一期建设成本:约 180 亿美元 Broadcom 要求微软承诺购买约 40% 的芯片产能才肯出资
而在 6 月 24 日的官宣中,Hock Tan 已明确将微软列为合作伙伴,表明投资协议已达成。
战略意义:全栈竞争的开启
从模型到芯片的垂直整合
Jalapeño 的亮相标志着 AI 产业的竞争维度正在发生根本性跃迁——从单一的模型能力比拼,升级为 "模型 + 芯片 + 系统 + 网络" 的全栈基础设施竞赛。
OpenAI 在公告中明确表达了这一雄心:
"OpenAI 不仅在开发前沿模型或构建其上的产品;更重要的是,我们正在设计它们之下的基础设施——包括芯片架构、内核、内存系统、网络、调度、部署系统乃至产品体验。"
"因为 OpenAI 贯穿整个技术栈,每一层都可以围绕同一个目标进行优化:让我们的模型对用户而言更快、更稳定、更实惠。"
飞轮效应
Jalapeño 强化了 OpenAI 进步的飞轮:
更好的基础设施 → 更高的计算效率
↓
更好的训练和推理能力 → 更强大的 AI 模型
↓
更好的产品 → 更多用户和客户 → 更多收入
↓
再投资于下一代基础设施
随着时间推移,这个循环有助于让 AI 对每个人来说都更强大、更可靠、更便宜。
总结:AI 芯片战争的新篇章
Jalapeño 的发布不仅仅是一款新芯片的亮相,更是 AI 产业格局重塑的重要信号:
① 速度纪录: 9 个月流片证明 AI 辅助设计可以大幅缩短芯片研发周期
② 成本革命: 50% 推理成本降幅将显著改善 OpenAI 的盈利模型
③ 架构创新: 脉动阵列 + HBM + 定制网络的全栈优化,实现理论峰值利用率
④ 产业趋势: 谷歌 TPU、亚马逊 Trainium、微软 Maia、Meta MTIA、OpenAI Jalapeño——科技巨头纷纷自研芯片,英伟达的垄断地位正面临挑战
⑤ 竞争升维: 从模型能力比拼,升级为"模型 + 芯片 + 系统 + 网络"的全栈竞争
当 OpenAI 从 GPT-5 的开发者变身为 Jalapeño 的设计者,当 9 个月成为芯片研发的新速度基准,当"AI 辅助设计 AI 芯片"从概念走向量产——这场芯片战争才刚刚拉开序幕。
参考链接
OpenAI 官方公告:https://openai.com/index/openai-broadcom-jalapeno-inference-chip/[1] OpenAI X/Twitter 公告:https://x.com/OpenAI/status/2069770172802773292[2] 博通公司公告:https://investors.broadcom.com/news-releases[3]
夜雨聆风