OpenAI 首款自研芯片 Jalapeño 深度解析:9个月流片,推理成本直降50%

OpenAI 首款自研芯片 Jalapeño 深度解析

9个月极速流片、推理成本直降50%、脉动阵列架构——AI 巨头正式进军芯片领域

OpenAI CEO Sam Altman（左）与 Broadcom CEO Hock Tan（右）共同展示 Jalapeño 芯片晶圆

核心速览

2026年6月24日，OpenAI 与博通（Broadcom）联合发布首款自研 AI 推理芯片 Jalapeño（哈拉贝诺辣椒）。这是 OpenAI 从纯模型公司向全栈 AI 基础设施提供商转型的里程碑事件。

关键数据一览：

项目	规格
芯片名称	Jalapeño（墨西哥辣椒）
定位	专用 AI 推理芯片（ASIC）
工艺制程	台积电 3nm（N3）
核心架构	脉动阵列（Systolic Array）
内存配置	HBM3E / HBM4 高带宽内存
配套 CPU	Arm 定制架构
网络互联	Broadcom Tomahawk 交换芯片
开发周期	9个月（设计到流片）
成本降幅	推理成本降低约 50%
部署时间	2026年底开始千兆瓦级部署

为什么是 Jalapeño？

从训练到推理：成本结构的变化

AI 产业的底层逻辑正在发生深刻变迁。

过去，业界目光聚焦于模型训练的算力军备竞赛。GPT-5、Claude 4 等新一代大模型的训练集群动辄消耗数亿美元，占用数万张高性能 GPU。

然而，随着 ChatGPT 日活用户突破数亿，以及 Codex、Operator 等智能体产品的规模化落地，推理侧的计算负载呈现指数级增长。

据行业估算，OpenAI 的推理算力成本已占据其总算力支出的 60% 以上。推理算力正式超越训练算力，成为 AI 基础设施中最昂贵的成本项。

GPU 的结构性错配

通用 GPU（如 NVIDIA H100/B200）为训练场景设计，拥有大量的张量核心和极高的峰值计算能力。但在纯推理场景中，这些资源往往处于闲置状态。

这就像用波音 747 的引擎驱动家用轿车——动力过剩却效率低下。

此外，对单一供应商的过度依赖带来了严重的供应链风险。NVIDIA 在定价权、产能（如 CoWoS 封装）以及 HBM 内存供应上的垄断地位，使得 OpenAI 的算力扩张计划受制于人。

正是在这种推理成本指数级增长与供应链脆弱性的双重压力下，自研 Jalapeño 芯片成为了 OpenAI 关乎生存的必然战略选择。

技术架构深度解析

白纸设计：专为推理而生

Jalapeño 是一款采用台积电 3nm（N3）工艺制造的专用集成电路（ASIC），其核心设计理念被 OpenAI 硬件负责人 Richard Ho 概括为：

"blank-slate design for modern LLM inference"

——即针对现代大语言模型推理从零开始的全新设计。

这款芯片搭载了 Arm 定制 CPU，采用博通的 Tomahawk 交换芯片 进行网络互联，并配备了 HBM3E/HBM4 高带宽内存。

三大核心设计思路

① 大幅减少数据搬运

在 LLM 推理中，权重矩阵与激活向量的反复乘累加（MAC）是主要计算任务，但数据从 HBM 搬运至计算单元的能耗和延迟远超计算本身。

Jalapeño 通过以下方式优化：

多级片上缓存分级
脉动阵列的数据流架构优化
智能权重预取

通过脉动阵列的流水线特性，数据在计算单元间以"邻接传递"方式流动，避免了重复搬运。

② 精确平衡算力、内存与网络

传统 GPU 往往追求极致计算吞吐量，导致在推理场景中算力过剩而内存带宽不足。Jalapeño 通过精确计算，确保计算单元规模与内存带宽完美匹配，使每个时钟周期的计算单元都能获得充足的数据供给。

同时，网络互联带宽与机架内通信需求对齐，避免了节点间通信成为系统瓶颈。

③ 提升实际利用率

通过定制推理内核、利用 LLM 推理计算图的确定性特性进行精确流水线调度，以及硬件与 OpenAI 推理引擎的深度协同优化，Jalapeño 的实际算力利用率逼近理论峰值。

脉动阵列：高效计算的奥秘

Jalapeño 计算核心的关键在于其采用的**脉动阵列（Systolic Array）**架构。

与 GPU 中通用的 CUDA 核心不同，脉动阵列是一种高度专用化的计算单元网格，数据在阵列中以"脉动"方式逐级传递。这种架构在处理矩阵乘法时具有极高的数据局部性和计算密度。

与 GPU 的核心差异

特性	通用 GPU	Jalapeño 脉动阵列
计算模式	并行执行	流水线传递
数据流动	频繁读写 HBM	片上 PE 间流动
内存访问	高能耗、高延迟	数据局部性优化
专用程度	通用性强	专为矩阵乘法优化
能效比	中等	显著优于 GPU

注意力机制的融合优化

在传统 GPU 上，多头注意力机制（Multi-Head Attention）的 QK^T、Softmax 和 SV 计算步骤涉及多次 HBM 读写。

而 Jalapeño 可以通过脉动阵列将这些步骤融合在单个流水线中，中间结果直接保留在片上，进一步提升了效率。

9个月流片：AI 设计 AI 硬件

史上最速 ASIC 开发

Jalapeño 从初始设计到制造流片仅用了 9 个月，创下了高性能 ASIC 开发速度的纪录。

通常情况下，从零开始设计一块 ASIC 芯片需要 1.5 到 2 年的时间。这一速度之所以得以实现，很大程度上要归功于 OpenAI 自家的 AI 模型——ChatGPT 在芯片的设计过程中发挥了辅助作用，加速了工程迭代与验证。

OpenAI 将此称为 "AI 辅助造芯"。

"如果 AI 能帮助工程师更快地设计出更好的芯片，就可以降低整个行业的计算成本，帮助普及先进 AI 的使用权限。"

—— OpenAI 官方公告

AI 参与的芯片设计流程

传统芯片设计依赖工程师手动优化晶体管布局、逻辑门连接，周期长且容错率低。而在 Jalapeño 的开发中，生成式 AI 模型被用于：

辅助电路布局
时序收敛验证
功耗优化

这种范式转变的意义深远：

极大地缩短了研发周期
AI 能够发现人类工程师难以察觉的微观优化空间
在有限的面积内实现更高的性能和能效比

性能表现与成本优势

实验室验证数据

虽然 OpenAI 官方新闻稿中针对 Jalapeño 带来的成本节约的表述相当保守，仅透露其"每瓦性能大幅优于当前最先进水平"，未给出具体百分比。

但据彭博社报道，博通 CEO 陈福阳（Hock Tan）透露，早期内部测试显示，相较于当前主流 AI GPU，Jalapeño 可实现约 50% 的推理成本节省，能耗降低约 37%。

对于每天处理数亿次 API 调用和 ChatGPT 请求的 OpenAI 而言，即使推理成本的边际下降也会显著改善盈利模型。

已成功运行的模型

在实验室中，Jalapeño 工程样品已以目标频率和功耗成功运行以下模型：

GPT-5.3-Codex-Spark（OpenAI 2月发布的代码模型）
各类强化学习任务

详细的性能技术白皮书将在未来数月内发布。

产业生态与竞争格局

三方分工协作

参与方	职责
OpenAI	芯片架构设计、内核优化、Serving 系统
Broadcom	硅实现、网络技术（含 Tomahawk 网络芯片）、芯片制造落地
Celestica	板卡、机架、系统集成

Celestica 是一家加拿大的电子制造服务商，也是 Google TPU 的首选制造合作伙伴。

"去英伟达化"加速

业内人士普遍认为，Jalapeño 的发布是科技巨头集体挑战英伟达市场主导地位的又一注脚：

Google 有 TPU 系列
Amazon 有 Trainium / Inferentia
微软正在开发 Maia 芯片
Meta 也在追求定制化推理芯片（MTIA）

如今 OpenAI 正式入局——定制 AI 加速器的阵营空前壮大。

OpenAI 的四线并行策略

OpenAI 并非要完全"抛弃"英伟达，而是采取多元化策略：

合作方	合作内容	时间
NVIDIA	最高 1000 亿美元投资，至少 10GW 数据中心系统	2025年10月
AMD	6GW 芯片供应协议（含至多 10% 股权期权）	2025年10月
Cerebras	750MW 推理算力协议	2026年6月
Broadcom	Jalapeño 自研芯片 + 10GW 千兆瓦级数据中心	2025年10月启动

OpenAI 总裁 Greg Brockman 坦言："我们根本无法足够快地获得算力。"

Jalapeño 是对其爆炸性算力需求的结构性补充，而非替代。

部署路线图

2026年底：初始部署

Jalapeño 计划于 2026年底 开始与微软和其他合作伙伴一起部署在千兆瓦级数据中心。

Broadcom CEO Hock Tan 表示："这只是多代路线图的起点。"

多代芯片规划

Jalapeño 是多代计算平台的第一步。据报道：

第一代：Jalapeño（墨西哥辣椒）—— 台积电 3nm 工艺
第二代：Serrano（塞拉诺辣椒）—— 据传将采用台积电更先进的 A16 工艺节点

10GW（吉瓦）大约相当于整个北京市的居民用电量。OpenAI 与博通的目标是共同建设这一规模的算力集群。

Project Nexus 背景

今年 5 月，The Information 报道过整个自研芯片计划的融资背景：

项目代号：Project Nexus
第一期建设成本：约 180 亿美元
Broadcom 要求微软承诺购买约 40% 的芯片产能才肯出资

而在 6 月 24 日的官宣中，Hock Tan 已明确将微软列为合作伙伴，表明投资协议已达成。

战略意义：全栈竞争的开启

从模型到芯片的垂直整合

Jalapeño 的亮相标志着 AI 产业的竞争维度正在发生根本性跃迁——从单一的模型能力比拼，升级为 "模型 + 芯片 + 系统 + 网络" 的全栈基础设施竞赛。

OpenAI 在公告中明确表达了这一雄心：

"OpenAI 不仅在开发前沿模型或构建其上的产品；更重要的是，我们正在设计它们之下的基础设施——包括芯片架构、内核、内存系统、网络、调度、部署系统乃至产品体验。"

"因为 OpenAI 贯穿整个技术栈，每一层都可以围绕同一个目标进行优化：让我们的模型对用户而言更快、更稳定、更实惠。"

飞轮效应

Jalapeño 强化了 OpenAI 进步的飞轮：

更好的基础设施 → 更高的计算效率
      ↓
更好的训练和推理能力 → 更强大的 AI 模型
      ↓
更好的产品 → 更多用户和客户 → 更多收入
      ↓
再投资于下一代基础设施

随着时间推移，这个循环有助于让 AI 对每个人来说都更强大、更可靠、更便宜。

总结：AI 芯片战争的新篇章

Jalapeño 的发布不仅仅是一款新芯片的亮相，更是 AI 产业格局重塑的重要信号：

① 速度纪录： 9 个月流片证明 AI 辅助设计可以大幅缩短芯片研发周期

② 成本革命： 50% 推理成本降幅将显著改善 OpenAI 的盈利模型

③ 架构创新： 脉动阵列 + HBM + 定制网络的全栈优化，实现理论峰值利用率

④ 产业趋势： 谷歌 TPU、亚马逊 Trainium、微软 Maia、Meta MTIA、OpenAI Jalapeño——科技巨头纷纷自研芯片，英伟达的垄断地位正面临挑战

⑤ 竞争升维： 从模型能力比拼，升级为"模型 + 芯片 + 系统 + 网络"的全栈竞争

当 OpenAI 从 GPT-5 的开发者变身为 Jalapeño 的设计者，当 9 个月成为芯片研发的新速度基准，当"AI 辅助设计 AI 芯片"从概念走向量产——这场芯片战争才刚刚拉开序幕。

参考链接

OpenAI 官方公告：https://openai.com/index/openai-broadcom-jalapeno-inference-chip/^[1]
OpenAI X/Twitter 公告：https://x.com/OpenAI/status/2069770172802773292^[2]
博通公司公告：https://investors.broadcom.com/news-releases^[3]