聊聊当前中美AI的差距

中美 AI 差距：聊聊我们到底差在哪，又赢在哪

开始之前，我希望大家都有一个共识，那就是 AI 的牌桌上只有两个人在玩，那就是中美两家，再无他人。

这是一个我一直在琢磨的问题，中美之间的 AI 模型，差距到底有多大？

你说差距大吧，上年年初DeepSeek 用 560 万美元训出来的模型干翻了一众硅谷巨头的股价；你说没差距吧，打开 Claude、GPT 和国产模型对比着用一圈，体感上你又骗不了自己。

一、先说劣势：差距在哪，得认

1. 硬伤中的硬伤——算力

算力决定了一个模型能训多大、能跑多快、能记多长。 训练阶段，算力决定你的参数能堆多高、数据能吃多少；推理阶段，算力决定响应速度和并发能力。算力就是 AI 的地基。

拉回到 2025 年 1 月。DeepSeek R1 发布，英伟达单日市值蒸发近 6000 亿美元。R1 在数学推理、代码能力等基准测试上，打平甚至超过了 OpenAI 当时的推理模型 o1。

但看参数规模：DeepSeek R1 总参数 6710 亿，用了 MoE（混合专家架构），每次实际激活 370 亿。同期的 GPT-4，业内估计总参数在 1.76 万亿 左右。R1 用不到 GPT-4 四成的参数量做到了接近的效果——确实牛，但差距摆在那里。

参数量意味着什么？可以理解为是 AI 的脑容量。AI 行业对模型的参数量有一个可以称之为信仰的理论：Scaling Law（缩放定律），简单来说该理论指出参数量的大小很大程度上决定了 AI 是不是聪明。

（由Gemini生成的演示Scaling Law的示意图：参数量越大，模型损失越小）

快进到现在。

今年 3 月，Anthropic 泄露了 Claude Mythos 模型，马斯克说参数量在 10 万亿 级别。当然，老马说的并不一定是真的，毕竟现在Mythos模型还很神秘。那就聊 Opus4.6 吧，业界普遍推测其参数量为1.7万亿到 5万亿。

我们这边呢？智谱 AI 3 月底发布了 GLM-5.1，总参数 7440 亿，激活 400 亿。7440 亿 vs 1.7 万亿，差距过大。当前国内的模型参数量普遍在1万亿级别。

GLM-5.1 有个值得说的点——完全在 10 万块华为昇腾 910B 芯片 上训练，没用一块英伟达 GPU。这是里程碑式的突破，也从侧面说明了现实：芯片被卡脖子，得靠国产替代硬扛。

（昇腾开发者社区发布的消息）

2. 训练数据这个暗坑

参数量是脑子大不大的问题，训练数据是这个脑子吃过多少见过多少的问题。

用 Seedance 2.0 的例子来说。

今年 2 月 12 号，字节发布视频生成模型 Seedance 2.0。这个模型的实力想必大家都是知道的，从它出来之后，你刷视频估计没少刷到用它做出来的视频，论质量，Seedance 2.0就是现在最强的视频模型。

Seedance 2.0 为什么这么强？因为字节背后站着抖音。

抖音每天产生的视频量是天文数字级别——各种风格、场景、光影、运镜，这就是训练视频模型最好的教材。它「看」过足够多的好内容，所以才能「拍」出好内容。训练数据的质量和广度，直接决定了模型的能力上限。

回到语言模型，问题就来了。英文互联网的高质量内容体量是中文的好几倍——学术论文、技术文档、Wikipedia，这些都是「黄金语料」。中文互联网呢？百家号、营销软文、洗稿文章占了太大比例。字节在视频领域有抖音这个数据金矿，但在文本领域，中文的高质量训练语料落后很大。

3. 钱的差距，大到离谱

巧妇难为无米之炊，而恰巧AI大模型又是最烧钱的东西，现在大模型厂商几乎都是亏钱的状态。

但看看他们那边呢？你就会发现，他们的融资规模难以想象。

OpenAI：今年 2 月融了 1100 亿美元，人类史上最大一笔私募融资。亚马逊 500 亿、英伟达 300 亿、软银 300 亿。4 月又加码到 1220 亿，估值 8520 亿。

（今年2月，OpenAI CEO在网络上宣布融资成功）

Anthropic：2 月融了 300 亿，估值 3800 亿。4 月中旬已有投资人开出 8000 亿 估值。年化收入从 2024 年底的 10 亿飙到现在 300 亿。

Google：2025 年 AI 基础设施资本支出超 3000 亿。不是融资，是自己砸。

国内呢？DeepSeek 没有外部融资。月之暗面 累计融了约 27 亿美元。智谱 AI 约 14 亿。

国外头部 AI 公司一轮融的钱比国内头部 AI 公司加起来的估值都高。不是一个量级的游戏。

二、再说优势：被逼出来的本事

1. 成本碾压 + 算法突围

先看一组数据。

2026 年 4 月主流旗舰模型 API 定价（每百万 token 输出价格）。

美国那边的模型价格：

•Claude Opus 4.6 — $25.00•GPT-5.4 — $15.00•Gemini 3.1 Pro — $12.00而中国这边的定价是：

•GLM-5 — $3.20•Kimi K2.5 — $2.80•DeepSeek V3.2 — $0.42

最贵和最便宜之间差了将近 60 倍。

再看能力（SWE-bench Verified 编程基准测试）：

•Claude Opus 4.6 — 80.8%•GPT-5.4 — 约 80%•GLM-5.1 — 77.8%•Kimi K2.5 — 76.8%•DeepSeek V3.2 — 72%-74%

价格差了几十倍，能力差距在 3 到 8 个百分点。GLM-5.1 达到 Claude Opus 编程能力的 96.3%，价格只有它 八分之一。这就是成本上的胜利。

（一家权威模型测评机构LMArena上编程领域的排名：GLM5.1排名第三）

为什么？

这背后是国内团队被硬件限制逼出来的算法创新。举两个例子。

DeepSeek 的 mHC（流形约束超连接）——去年 12 月底发布，创始人梁文锋亲自参与。简单说，它解决的是「模型参数量往万亿走的时候，训练会崩」的问题。

大家现在看DeepSeek，可能会觉得它掉队了，传言的V4版本迟迟不出。但实际上，你经常关注的话会发现 DeepSeek 每发一次论文，AI圈反响都很大。因为他们的技术产出质量足够高。

Kimi 团队的注意力残差（Attention Residuals）——今年 3 月发布，它要解决的问题是：Transformer 模型越深，底层信息就越容易被稀释丢失。

这篇论文的传播路径很有意思。马斯克在网络上转发了这篇论文并评价 「Impressive work（令人印象深刻的工作）」。

（马斯克对Kimi论文的回复）

这两篇论文说明什么？国内团队不是在硬拼参数量，而是在怎么让每个参数发挥最大价值这件事上持续突破。

2. 开源生态

阿里的 Qwen 系列，累计下载突破 10 亿次，衍生模型超 20 万个，Hugging Face（AI 模型领域的GitHub）全球第一。单月下载超 1.5 亿次，是第二到第九名加起来的两倍多。

DeepSeek 的 V3/R1 是 MIT 开源，GLM-5 也是 MIT 开源。

这意味着什么？当全世界开发者都在你的模型上做二次开发，你提供的就不只是一个模型，而是一整套生态。Airbnb （一个全球知名的在线租房平台）的 CEO Brian Chesky 公开说他们重度依赖 Qwen：「非常好，快，便宜」。多提一嘴，这个CEO 跟 OpenAI 的 CEO 是朋友，但照样选了中国的开源模型。

你开源了，全世界在你的基础上造东西，你就成了事实标准，同时，开源也意味着更容易被广泛应用，而当下 AI 的发展，缺的就是被广泛应用。很多人不知道现在的 AI 能干吗，干的多好。

（英伟达CEO黄仁勋的五层蛋糕理论，AI 行业的最顶层蛋糕是“应用”）

三、未来的竞争会是什么样子

短期内，硬件和资金差距不会消失。Claude Mythos 如果真是 10 万亿参数，发布后可能会重新拉开差距。

但竞争的维度变了。

从「谁的模型最强」变成「谁的模型最有用」——用得起吗？生态大吗？开发者多吗？部署灵活吗？这恰恰是国内模型正在建立优势的地方。

如果说 Claude 模型、GPT 模型是顶配法拉利，国内的模型就是调教极好的性价比车。法拉利确实更快，但国内模型能让 100 倍的人开上智能汽车。

不要因为差距存在就悲观，也不要因为几个亮点就盲目乐观。这场 AI 竞赛才跑完前几圈，终局远着呢。但有一件事我越来越确信——在 AI 这件事上，中国不是追随者。我们有真实的短板，也有真实的优势。

关注我，持续带你看清 AI 行业的真实面貌，只聊干货。

人与人之间最大的鸿沟，不再是传统技能的强弱，而是对新事物的认知视差。