今天 AMD 在上海办 AI 日,大多数人盯着 MI350 的硬件参数看。但真正值得关注的,是 AMD 发布的那个软件插件——它的名字叫 vLLM-ATOM,目标是解决一个问题:如何让中国的大模型,无痛地从英伟达迁移到 AMD。
硬件只是表面,软件才是真正的护城河
先说 MI350 系列的硬件。
AMD Instinct MI350X:288GB HBM3E 显存、8TB/s 带宽、CDNA 4 架构、台积电 3nm 工艺。MI350P(PCIe 版本):144GB HBM3E、4TB/s 带宽、600W 功耗、约 $30,000-$40,000 定价。
对比 H200 NVL:MI350P 在 FP16 和 FP8 理论算力上领先约 40%。这个数字不夸张,是真实的。
但真正的问题是:算力领先,不等于客户会买。
AI 芯片市场有一个极高的隐性壁垒,叫 CUDA。
CUDA 是英伟达2006年推出的计算平台。过去近20年,全球所有 AI 研究者、工程师、开发者,学的是 CUDA,写的代码是 CUDA 的,优化的模型是 CUDA 的。英伟达不只是卖芯片,它卖的是整个生态。
换芯片容易,换生态难。这才是 AMD 在 AI 时代真正要翻越的大山。
ROCm 7.0:AMD 的"安卓时刻"来了
AMD 的应对策略是 ROCm——一个开放软件生态平台,目标是让 CUDA 代码能在 AMD 芯片上跑起来。
ROCm 7.0 是这次 AMD AI 日的核心。
几个关键数据:
• 原生支持 PyTorch 2.7/2.8、TensorFlow 2.19.1、JAX 0.6.x——主流 AI 框架全覆盖
• Docker 镜像优化,部署门槛大幅降低
• 兼容 CUDA 代码——不需要从零重写,直接迁移
AMD 每年在 ROCm 上投入数亿美元,雇佣编译器工程师、跟 Meta 和微软合作优化热门模型。这些投入的效果正在显现。
DeepSeek R1 在 AMD MI 系列上的吞吐量,比优化前提升超过 100%。这不是芯片的功劳,是 ROCm 生态的功劳。
vLLM-ATOM:中国市场的精准切入
这次 AMD AI 日真正值得注意的发布,是 vLLM-ATOM 插件。
它的目标用户非常精准:中国大模型厂商。
具体数据:
• 支持模型:DeepSeek-R1、Kimi-K2 等国产头部大模型
• 推理性能提升:30%-35%
• 核心价值:降低国产大模型从英伟达迁移到 AMD 的技术门槛
为什么这对 AMD 重要?因为中国市场太大了。
英伟达自己曾预警:若无法进入中国市场,每年可能损失超过 500 亿美元的 AI 加速器市场。这个数字,在美国芯片出口禁令的背景下,正在变成 AMD 的机会。
但 AMD 能不能吃下这部分市场,关键不在硬件,在软件——vLLM-ATOM 就是 AMD 在软件上的答案。
禁令的缝隙:AMD 为什么没有被封
这里有一个技术细节值得解释:美国芯片禁令限制的是英伟达 H100、A100 这类"专为 AI 训练设计"的高端 GPU。AMD 的 MI350 系列,采用的是 CDNA 4 架构(专为 HPC 和 AI 设计,但不在禁令明确覆盖的型号列表内),恰好在规则的缝隙里。
这是一个监管套利的机会窗口。AMD 显然在主动利用这个窗口。
但这个窗口不是永久的——如果 AMD MI350 在中国市场卖得太好,下一轮禁令扩展名单只是时间问题。中国的 AI 厂商心里也清楚这一点,所以他们在选择 AMD 的时候会谨慎:迁移有成本,如果明年 AMD 也要被禁,损失谁来承担?
AI 芯片多极竞争时代正在到来
AMD 上海 AI 日背后,是更大的叙事:AI 芯片的"英伟达一超"格局正在松动。
过去十年,全球 AI 训练市场英伟达占有率超过 80%。CUDA 生态壁垒高耸,每家 AI 公司都在用英伟达,每位 AI 工程师都在写 CUDA 代码。
但禁令打破了这一切。
当英伟达 H100 进不了中国,华为昇腾站起来了,AMD MI 系列找到了缝隙,Cerebras 在晶圆级芯片上另辟蹊径——AI 芯片市场正在从"一超"走向"多极竞争"。
对整个 AI 行业来说,这不是坏事。竞争加剧意味着价格下降,意味着供应商不会轻易断供,意味着 AI 发展的算力成本会逐步回归合理区间。
对中国 AI 行业来说,AMD 的出现是一个宝贵的选项——但要不要押注它,是一个需要认真评估的商业决策。
毕竟,在地缘政治的棋盘上,没有谁是真正安全的供应商。
夜雨聆风