
NYT罕见承认:中国AI模型正在全面赶超Anthropic和OpenAI
今天纽约时报发了一篇报道,标题很直白:中国AI模型正在赶超Anthropic和OpenAI。
这不是什么中国媒体的自嗨,而是NYT这种级别的主流西方媒体给出的判断。如果你长期关注AI行业,应该能感受到这个信号的分量。过去几年里,每当西方媒体谈论中国AI,用的词往往是"追赶""模仿""差距"。但现在不一样了,他们开始用"赶超"这个词。
先摆几个事实。在国际权威的AI基准测试排行榜上,中国模型的排名在过去半年里发生了显著变化。以Hugging Face的Open LLM排行榜为例,前十名中中国团队贡献的模型已经从半年前的2个增加到了5个。DeepSeek的V3和R1系列、阿里的Qwen系列、智谱的GLM系列,都在多个维度上达到了世界顶尖水平。
具体到技术指标上,中国模型在某些领域已经实现了对GPT-4o和Claude 4的超越。比如在数学推理方面,DeepSeek R1在MATH数据集上的得分已经超过了GPT-4o。在代码生成方面,Qwen 2.5-Coder在HumanEval上的成绩追平了Claude 4。在中文理解方面,中国模型的优势就更不用说了——任何国际模型在中文语境下的表现都远远不及国产模型。
但真正让西方研究者感到压力的,不是这些静态的基准测试数据,而是中国模型的迭代速度。OpenAI从GPT-3到GPT-4用了将近两年,而DeepSeek从V2到V3只用了不到四个月,从V3到R1用了不到两个月。这种迭代速度在整个AI行业都是罕见的。背后的原因有两个:一是中国AI团队开发节奏极快,二是开源策略让社区反馈能够快速转化为模型改进。
NYT的报道还点出了一个关键差异:路线之争。美国的主流AI公司普遍走闭源路线,OpenAI和Anthropic都是典型的闭源派。而中国的主流模型则全面拥抱开源。DeepSeek、Qwen、ChatGLM的模型权重全部公开,训练方法全部透明,开发者可以自由下载、修改、商用。这种策略在发展中国家市场和开源社区中具有巨大的吸引力。
以一个具体的数据来说,DeepSeek的模型在Hugging Face上的总下载量已经超过了5亿次,这个数字还在以每天数百万的速度增长。而OpenAI的GPT系列虽然用户量巨大,但它是一个封闭的生态系统——你不能下载GPT的权重,不能微调它跑在自己的服务器上,更不能把它集成到需要离线运行的场景中。这种差异在全球范围内的竞争力上,正在产生越来越大的影响。
还有一个不容忽视的因素是成本。中国模型的训练和推理成本明显低于美国同行。DeepSeek曾公布过数据,他们训练V3的成本大约是GPT-4训练成本的十分之一。推理成本更低——得益于此前的DSpark等优化技术,DeepSeek的推理成本比GPT-4o低了将近70%。在全球经济环境并不乐观的背景下,成本优势正在成为企业选型的重要考量。
NYT的报道还提到了一个有意思的观察:美国对华芯片出口管制在某种意义上促成了中国AI技术的另类突破。因为拿不到最先进的GPU,中国的AI团队被迫在算法优化上投入更多精力。结果是,他们在更低的算力条件下做出了性能与高端模型不相上下的产品。这就好比一个健身的人不去健身房而是在家练,虽然设备有限,但反而找到了更高效的训练方法。
当然,NYT的报道也指出了一些客观存在的差距。在最前沿的研究方向上——比如多模态理解、Agent系统、超级对齐——美国公司仍然保持领先。OpenAI刚刚预览的GPT-5.6 Sol就是一个例证,它在多个基准上的表现仍然领先于任何中国模型。但差距正在以肉眼可见的速度缩小。
还有一个变量是Anthropic的Mythos模型。特朗普政府刚刚批准Anthropic向美国组织发布Mythos,这标志着美国在AI能力部署上也在加速。Mythos是Anthropic旗下最强大的模型,以其在安全性和对齐方面的深度研究而著称。如果Mythos被大规模部署到政府和企业系统中,美国在AI应用层面可能会重新拉开差距。
那中国AI模型在全球市场的竞争力到底如何?答案是:正在迅速提升,但还没有到颠覆的地步。中国模型最大的优势是开源、性价比高、迭代快。最大的劣势是品牌认知度、生态成熟度和地缘政治的不确定性。对于全球开发者来说,如果用一句话来概括现在的局面:如果你需要最好的模型,OpenAI和Anthropic仍然是最佳选择;如果你需要性价比最高的模型,中国模型已经是不容忽视的选项。
对于中国AI的发展,其实还有一条隐藏的暗线值得关注,那就是人才的全球化流动。过去几年,大量在美国顶尖AI实验室工作的中国籍科学家和工程师选择回国创业或加入国内公司。Anthropic和OpenAI的离职名单上,近年来有将近三分之一是中国名字。这些人带回来的不仅是最新的技术经验,还有在硅谷形成的产品思维和创业文化。他们的加入,让中国AI公司在研发方法论、团队管理、技术路线上都有了一个质的飞跃。
还有一个数据很能说明问题。在国际顶级AI会议NeurIPS和ICML上,中国研究者的论文占比已经从三年前的18%上升到了32%。而且在一些热门方向——比如扩散模型、强化学习、高效Transformer架构——中国团队的论文质量和数量都在快速提升。学术研究的活跃度通常是一到两年后产业应用的前瞻指标,所以今天看到的中国AI产品进步,其实在两年前的论文里就已经有端倪了。
不过也要客观地说,中国AI目前最大的短板还是在生态层面。OpenAI有数百万开发者在其API上构建应用,形成了一个庞大而活跃的生态圈。Anthropic虽然起步晚一些,但在企业客户中的口碑极好。而中国模型的开发者生态还主要集中在中国大陆,全球化程度明显不够。虽然模型质量上去了,但被国际开发者采用的比例还很低。这其中有语言障碍、地缘政治、商业信任等多方面的原因。
另外,AI安全问题上的国际信任缺失也是中国AI出海的一大障碍。西方监管机构对来自中国的AI产品普遍持更严格的审查态度。欧盟的AI法案对高风险AI系统的要求非常严格,而中国模型往往很难通过这些审查。如果中国AI公司想在全球化上更进一步,不仅需要技术过硬,还需要在AI伦理、数据隐私、安全合规等方面给出令人信服的答卷。
从投资角度来看,中国AI赛道正在吸引越来越多的资本。今年上半年,中国AI领域的总融资额已经超过了450亿元人民币,同比增长了35%。其中DeepSeek和MiniMax是最大的吸金者,分别完成了超过10亿美元的融资。资本的热情说明市场对中国AI的发展方向是看好的,但也带来了估值泡沫的风险。毕竟烧钱换增长的逻辑在AI行业是否成立,现在还没有定论。
回到NYT的报道,它的出现本身就是一个里程碑事件。当一个美国主流媒体用"catch up to"而不是"copy from"来形容中国AI时,说明游戏规则变了。中国AI不再是那个追赶者,而是正在成为和美国AI并驾齐驱的力量。这段差距还在缩小,而缩小的速度,可能比大部分人想象的更快。
NYT这篇报道的意义不在于它说了什么,而在于它承认了什么。当西方主流媒体开始正视中国AI的进步时,说明这个趋势已经不是可以被忽视的了。
【cover】一张东西方科技对比风格图片,左侧是蓝色调的西方科技元素(芯片、代码),右侧是红色调的中国科技元素(龙形数据流、汉字代码),中间有一条发光线分开,整体构图平衡、现代,有强烈对比感但不对立
【more】推荐阅读:DeepSeek DSpark开源推理优化技术拆解 / 特朗普批准Anthropic发布Mythos模型意味着什么 / 从GPU禁令到算法突破,中国AI的另类崛起之路
───
关注「蓝色Jerry」· 每天资讯早知道
觉得有用?点个 在看 分享给朋友
夜雨聆风