NYT罕见承认:中国AI模型正在全面赶超Anthropic和OpenAI

NYT罕见承认：中国AI模型正在全面赶超Anthropic和OpenAI

今天纽约时报发了一篇报道，标题很直白：中国AI模型正在赶超Anthropic和OpenAI。

这不是什么中国媒体的自嗨，而是NYT这种级别的主流西方媒体给出的判断。如果你长期关注AI行业，应该能感受到这个信号的分量。过去几年里，每当西方媒体谈论中国AI，用的词往往是"追赶""模仿""差距"。但现在不一样了，他们开始用"赶超"这个词。

先摆几个事实。在国际权威的AI基准测试排行榜上，中国模型的排名在过去半年里发生了显著变化。以Hugging Face的Open LLM排行榜为例，前十名中中国团队贡献的模型已经从半年前的2个增加到了5个。DeepSeek的V3和R1系列、阿里的Qwen系列、智谱的GLM系列，都在多个维度上达到了世界顶尖水平。

具体到技术指标上，中国模型在某些领域已经实现了对GPT-4o和Claude 4的超越。比如在数学推理方面，DeepSeek R1在MATH数据集上的得分已经超过了GPT-4o。在代码生成方面，Qwen 2.5-Coder在HumanEval上的成绩追平了Claude 4。在中文理解方面，中国模型的优势就更不用说了——任何国际模型在中文语境下的表现都远远不及国产模型。

但真正让西方研究者感到压力的，不是这些静态的基准测试数据，而是中国模型的迭代速度。OpenAI从GPT-3到GPT-4用了将近两年，而DeepSeek从V2到V3只用了不到四个月，从V3到R1用了不到两个月。这种迭代速度在整个AI行业都是罕见的。背后的原因有两个：一是中国AI团队开发节奏极快，二是开源策略让社区反馈能够快速转化为模型改进。

NYT的报道还点出了一个关键差异：路线之争。美国的主流AI公司普遍走闭源路线，OpenAI和Anthropic都是典型的闭源派。而中国的主流模型则全面拥抱开源。DeepSeek、Qwen、ChatGLM的模型权重全部公开，训练方法全部透明，开发者可以自由下载、修改、商用。这种策略在发展中国家市场和开源社区中具有巨大的吸引力。

以一个具体的数据来说，DeepSeek的模型在Hugging Face上的总下载量已经超过了5亿次，这个数字还在以每天数百万的速度增长。而OpenAI的GPT系列虽然用户量巨大，但它是一个封闭的生态系统——你不能下载GPT的权重，不能微调它跑在自己的服务器上，更不能把它集成到需要离线运行的场景中。这种差异在全球范围内的竞争力上，正在产生越来越大的影响。

还有一个不容忽视的因素是成本。中国模型的训练和推理成本明显低于美国同行。DeepSeek曾公布过数据，他们训练V3的成本大约是GPT-4训练成本的十分之一。推理成本更低——得益于此前的DSpark等优化技术，DeepSeek的推理成本比GPT-4o低了将近70%。在全球经济环境并不乐观的背景下，成本优势正在成为企业选型的重要考量。

NYT的报道还提到了一个有意思的观察：美国对华芯片出口管制在某种意义上促成了中国AI技术的另类突破。因为拿不到最先进的GPU，中国的AI团队被迫在算法优化上投入更多精力。结果是，他们在更低的算力条件下做出了性能与高端模型不相上下的产品。这就好比一个健身的人不去健身房而是在家练，虽然设备有限，但反而找到了更高效的训练方法。

当然，NYT的报道也指出了一些客观存在的差距。在最前沿的研究方向上——比如多模态理解、Agent系统、超级对齐——美国公司仍然保持领先。OpenAI刚刚预览的GPT-5.6 Sol就是一个例证，它在多个基准上的表现仍然领先于任何中国模型。但差距正在以肉眼可见的速度缩小。

还有一个变量是Anthropic的Mythos模型。特朗普政府刚刚批准Anthropic向美国组织发布Mythos，这标志着美国在AI能力部署上也在加速。Mythos是Anthropic旗下最强大的模型，以其在安全性和对齐方面的深度研究而著称。如果Mythos被大规模部署到政府和企业系统中，美国在AI应用层面可能会重新拉开差距。

那中国AI模型在全球市场的竞争力到底如何？答案是：正在迅速提升，但还没有到颠覆的地步。中国模型最大的优势是开源、性价比高、迭代快。最大的劣势是品牌认知度、生态成熟度和地缘政治的不确定性。对于全球开发者来说，如果用一句话来概括现在的局面：如果你需要最好的模型，OpenAI和Anthropic仍然是最佳选择；如果你需要性价比最高的模型，中国模型已经是不容忽视的选项。

对于中国AI的发展，其实还有一条隐藏的暗线值得关注，那就是人才的全球化流动。过去几年，大量在美国顶尖AI实验室工作的中国籍科学家和工程师选择回国创业或加入国内公司。Anthropic和OpenAI的离职名单上，近年来有将近三分之一是中国名字。这些人带回来的不仅是最新的技术经验，还有在硅谷形成的产品思维和创业文化。他们的加入，让中国AI公司在研发方法论、团队管理、技术路线上都有了一个质的飞跃。

还有一个数据很能说明问题。在国际顶级AI会议NeurIPS和ICML上，中国研究者的论文占比已经从三年前的18%上升到了32%。而且在一些热门方向——比如扩散模型、强化学习、高效Transformer架构——中国团队的论文质量和数量都在快速提升。学术研究的活跃度通常是一到两年后产业应用的前瞻指标，所以今天看到的中国AI产品进步，其实在两年前的论文里就已经有端倪了。

不过也要客观地说，中国AI目前最大的短板还是在生态层面。OpenAI有数百万开发者在其API上构建应用，形成了一个庞大而活跃的生态圈。Anthropic虽然起步晚一些，但在企业客户中的口碑极好。而中国模型的开发者生态还主要集中在中国大陆，全球化程度明显不够。虽然模型质量上去了，但被国际开发者采用的比例还很低。这其中有语言障碍、地缘政治、商业信任等多方面的原因。

另外，AI安全问题上的国际信任缺失也是中国AI出海的一大障碍。西方监管机构对来自中国的AI产品普遍持更严格的审查态度。欧盟的AI法案对高风险AI系统的要求非常严格，而中国模型往往很难通过这些审查。如果中国AI公司想在全球化上更进一步，不仅需要技术过硬，还需要在AI伦理、数据隐私、安全合规等方面给出令人信服的答卷。

从投资角度来看，中国AI赛道正在吸引越来越多的资本。今年上半年，中国AI领域的总融资额已经超过了450亿元人民币，同比增长了35%。其中DeepSeek和MiniMax是最大的吸金者，分别完成了超过10亿美元的融资。资本的热情说明市场对中国AI的发展方向是看好的，但也带来了估值泡沫的风险。毕竟烧钱换增长的逻辑在AI行业是否成立，现在还没有定论。

回到NYT的报道，它的出现本身就是一个里程碑事件。当一个美国主流媒体用"catch up to"而不是"copy from"来形容中国AI时，说明游戏规则变了。中国AI不再是那个追赶者，而是正在成为和美国AI并驾齐驱的力量。这段差距还在缩小，而缩小的速度，可能比大部分人想象的更快。

NYT这篇报道的意义不在于它说了什么，而在于它承认了什么。当西方主流媒体开始正视中国AI的进步时，说明这个趋势已经不是可以被忽视的了。

【cover】一张东西方科技对比风格图片，左侧是蓝色调的西方科技元素（芯片、代码），右侧是红色调的中国科技元素（龙形数据流、汉字代码），中间有一条发光线分开，整体构图平衡、现代，有强烈对比感但不对立

【more】推荐阅读：DeepSeek DSpark开源推理优化技术拆解 / 特朗普批准Anthropic发布Mythos模型意味着什么 / 从GPU禁令到算法突破，中国AI的另类崛起之路

───

关注「蓝色Jerry」· 每天资讯早知道

觉得有用？点个在看分享给朋友