AMD真正杀招不是硬件,是软件:CUDA壁垒正在被攻破

今天 AMD 在上海办 AI 日，大多数人盯着 MI350 的硬件参数看。但真正值得关注的，是 AMD 发布的那个软件插件——它的名字叫 vLLM-ATOM，目标是解决一个问题：如何让中国的大模型，无痛地从英伟达迁移到 AMD。

硬件只是表面，软件才是真正的护城河

先说 MI350 系列的硬件。

AMD Instinct MI350X：288GB HBM3E 显存、8TB/s 带宽、CDNA 4 架构、台积电 3nm 工艺。MI350P（PCIe 版本）：144GB HBM3E、4TB/s 带宽、600W 功耗、约 $30,000-$40,000 定价。

对比 H200 NVL：MI350P 在 FP16 和 FP8 理论算力上领先约 40%。这个数字不夸张，是真实的。

但真正的问题是：算力领先，不等于客户会买。

AI 芯片市场有一个极高的隐性壁垒，叫 CUDA。

CUDA 是英伟达2006年推出的计算平台。过去近20年，全球所有 AI 研究者、工程师、开发者，学的是 CUDA，写的代码是 CUDA 的，优化的模型是 CUDA 的。英伟达不只是卖芯片，它卖的是整个生态。

换芯片容易，换生态难。这才是 AMD 在 AI 时代真正要翻越的大山。

AMD 的应对策略是 ROCm——一个开放软件生态平台，目标是让 CUDA 代码能在 AMD 芯片上跑起来。

ROCm 7.0 是这次 AMD AI 日的核心。

几个关键数据：

• 原生支持 PyTorch 2.7/2.8、TensorFlow 2.19.1、JAX 0.6.x——主流 AI 框架全覆盖

• Docker 镜像优化，部署门槛大幅降低

• 兼容 CUDA 代码——不需要从零重写，直接迁移

AMD 每年在 ROCm 上投入数亿美元，雇佣编译器工程师、跟 Meta 和微软合作优化热门模型。这些投入的效果正在显现。

DeepSeek R1 在 AMD MI 系列上的吞吐量，比优化前提升超过 100%。这不是芯片的功劳，是 ROCm 生态的功劳。

这次 AMD AI 日真正值得注意的发布，是 vLLM-ATOM 插件。

它的目标用户非常精准：中国大模型厂商。

具体数据：

• 支持模型：DeepSeek-R1、Kimi-K2 等国产头部大模型

• 推理性能提升：30%-35%

• 核心价值：降低国产大模型从英伟达迁移到 AMD 的技术门槛

为什么这对 AMD 重要？因为中国市场太大了。

英伟达自己曾预警：若无法进入中国市场，每年可能损失超过 500 亿美元的 AI 加速器市场。这个数字，在美国芯片出口禁令的背景下，正在变成 AMD 的机会。

但 AMD 能不能吃下这部分市场，关键不在硬件，在软件——vLLM-ATOM 就是 AMD 在软件上的答案。

这里有一个技术细节值得解释：美国芯片禁令限制的是英伟达 H100、A100 这类"专为 AI 训练设计"的高端 GPU。AMD 的 MI350 系列，采用的是 CDNA 4 架构（专为 HPC 和 AI 设计，但不在禁令明确覆盖的型号列表内），恰好在规则的缝隙里。

这是一个监管套利的机会窗口。AMD 显然在主动利用这个窗口。

但这个窗口不是永久的——如果 AMD MI350 在中国市场卖得太好，下一轮禁令扩展名单只是时间问题。中国的 AI 厂商心里也清楚这一点，所以他们在选择 AMD 的时候会谨慎：迁移有成本，如果明年 AMD 也要被禁，损失谁来承担？

AMD 上海 AI 日背后，是更大的叙事：AI 芯片的"英伟达一超"格局正在松动。

过去十年，全球 AI 训练市场英伟达占有率超过 80%。CUDA 生态壁垒高耸，每家 AI 公司都在用英伟达，每位 AI 工程师都在写 CUDA 代码。

但禁令打破了这一切。

当英伟达 H100 进不了中国，华为昇腾站起来了，AMD MI 系列找到了缝隙，Cerebras 在晶圆级芯片上另辟蹊径——AI 芯片市场正在从"一超"走向"多极竞争"。

对整个 AI 行业来说，这不是坏事。竞争加剧意味着价格下降，意味着供应商不会轻易断供，意味着 AI 发展的算力成本会逐步回归合理区间。

对中国 AI 行业来说，AMD 的出现是一个宝贵的选项——但要不要押注它，是一个需要认真评估的商业决策。

毕竟，在地缘政治的棋盘上，没有谁是真正安全的供应商。