中美AI差距只剩2.7%?真正的危机才刚刚开始

作者 | 常棣

编辑 | 葛覃

2026年4月13日，斯坦福大学以人为本人工智能研究所（Stanford HAI）发布了《2026年人工智能指数报告》。这份长达423页的年度报告，被业界视为全球AI产业的"体检报告"。

如果你只记住一个数字，那应该是2.7%。

这是当前美国和中国在最顶尖AI模型性能上的差距。一年前，这个差距还在两位数；两年前，它超过300分。如今，中美AI已经进入了"贴脸肉搏"的时代。

但这不是故事的全部。在这份报告的海量数据背后，隐藏着三个更值得警惕的信号：钱在加速涌入，人在快速流走，而年轻人的饭碗正在被精准切掉。

中美贴脸：从"追赶"到"互换王座"

让我们把时间倒回2023年5月。那时，OpenAI的GPT-4以1320分的Arena评分领跑全球，而中国最强的ChatGLM-6B还落后300多分。那是一个"仰望"的时代。

2025年2月，DeepSeek-R1第一次与美国头部模型短暂打平。那一刻，很多人以为只是偶然。

到了2026年3月，美国的Claude Opus 4.6拿到1503分，中国的Dola-Seed-2.0-Preview拿到1464分。差距缩小到39分，换算成百分比，就是2.7%。

更重要的是换位频率。从2025年初开始，两国头部模型在Arena榜单上你来我往，已经换了好几次位置。

数量上同样接近五五开。2025年，美国发布了50个"显著模型"，中国发布了30个。在全球TOP 5阵营里，OpenAI、谷歌、阿里、Anthropic、xAI同台站位，中美各占两席半。再往下看TOP 10，中国机构占了四席：阿里、DeepSeek、清华、字节。

价格层面是另一条战线。海外开发者在X上算过一笔账：Seed 2.0 Pro的输出价格大约只有Claude Opus 4.6的十分之一。性能贴脸，价格只要十分之一——这件事的连锁反应才刚刚开始。

如果只看论文、专利和工业机器人装机量，中国已经全面领先。报告显示，中国AI论文数量是美国的3倍，占全球总量的37%；AI专利数量全球第一；累计建成85台公共AI超算，是北美的两倍以上。

但美国仍然握有两张王牌：一是资本，二是生态。

5817亿美元砸向AI，但人才水龙头正在拧紧

2025年，全球企业AI投资达到5817亿美元，同比增长130%。其中私募投资3447亿美元，同比增长127.5%。两条曲线都几乎翻倍。

国别上，美国一骑绝尘。2025年美国私募AI投资2859亿美元，一年新增1953家AI创业公司，是排名第二的国家的10倍以上。

钱在加速涌向美国。但美国的另一项核心资源——人才，正在反向流动。

报告里有一组数字让人愣了一下：从2017年到现在，进入美国的AI研究人员和开发者数量下降了89%。更关键的是，这个下降在加速——仅仅过去一年，下降幅度就达到80%。

美国仍然是全球AI研究人员密度最高的国家，但流入的水龙头正在拧紧。签证政策收紧、生活成本飙升、地缘政治紧张……多重因素叠加，让"美国梦"对全球AI人才的吸引力大幅下降。

钱和人这两条曲线开始反向。这是过去十年没出现过的局面。

与此同时，中国职场AI使用率超过80%，远超全球58%的平均水平。这种"自上而下"的普及速度，让中国在应用层面积累了巨大的数据优势和场景优势。

锯齿前沿：AI能拿IMO金牌，却看不懂时钟

AI的能力在狂飙，但这种狂飙是不均匀的。研究者把这种现象命名为"锯齿前沿"（jagged frontier）。

最猛的曲线是编程。SWE-bench Verified这个真实修Bug的基准，一年时间从60%涨到接近100%。不是涨了几个点，是基本封顶。Terminal-Bench测试Agent处理真实终端任务的能力，从去年的20%涨到77.3%。网络安全Agent解决问题的成功率，从15%涨到93%。

Gemini Deep Think在国际数学奥林匹克（IMO）拿到金牌。PhD级科学问答（GPQA Diamond）、竞赛数学（AIME）、多模态推理（MMMU）这些原本被认为"人类不可超越"的硬骨头，全部被前沿模型啃了下来。

最能说明问题的是Humanity's Last Exam。这是一个专门被设计来"难倒AI、偏袒人类专家"的测试，题目由各个领域的顶尖专家提供。去年OpenAI的o1拿到8.8%，前沿模型在一年时间里把分数往上又推了30个百分点，目前Claude Opus 4.6和Gemini 3.1 Pro已经双双过了50%。

但同一份报告甩出了另一组数字：最强模型在"读模拟时钟"这个任务上的正确率，是50.1%。

机器人在实验室仿真环境（RLBench）里的操作成功率已经达到89.4%。但搬到真实家庭场景里完成洗碗、叠衣服这类家务，成功率立刻掉到12%。实验室和厨房之间，差了77个百分点。

在智能体任务中，OSWorld测试显示前沿AI实力（66.3%）正逼近人类基线。然而，在专门评估科研逻辑的PaperArena测试中，最强AI加持的Agent，得分仅39%，只有博士生一半的功力。

AI能在数学奥赛拿金牌，但只有一半的概率能看懂模拟时钟。AI在加速，但加速的不是同一个方向。

这种"偏科"现象揭示了一个残酷现实：我们引以为傲的"通用智能"，可能只是一个幻觉。AI在某些领域已经超越人类，在另一些领域却连三岁小孩都不如。

22-25岁开发者的就业被切掉20%

AI抢饭碗这事儿已经从预测变成了现实，而且最先遭殃的就是当代年轻"打工人"。

报告显示，自2024年起，22-25岁软件开发者的就业率下滑了20%。入门岗位被精准切掉。

这不是因为年轻人不够优秀，而是因为AI已经把"初级程序员"的工作做得足够好。代码生成、Bug修复、单元测试、文档编写……这些曾经是新人练手的任务，现在AI可以在几秒钟内完成，而且质量更高。

企业对AI的采用率达到88%。九成的公司已经把AI接进了某个工作流。这意味着，未来招聘一个新员工时，雇主会问："你能做AI做不了的事吗？"

这个问题的答案，对很多刚毕业的年轻人来说，并不乐观。

与此同时，AI相关事故记录从2024年的233起涨到362起。深度伪造、隐私泄露、算法歧视……技术跑得越快，留下的坑就越多。

央视最近曝光了一条AI"造黄"灰色产业链：9.9元就能买到教程，用主流生成式AI批量生成擦边视频。平台内容审核机制形同虚设，用户仅需几句经过隐晦处理的提示词就能绕过限制。

这个案例说明：当技术能力远超治理能力时，滥用几乎是必然的。

学术界退场，产业界封神

去年发布的95个最具代表性的模型里，超过九成都来自产业界，不是学术机构，也不是政府实验室。

光是2026年2月一个月，就有Gemini 3.1 Pro、Claude Opus 4.6、GPT-5.3 Codex、Grok 4.20、Qwen 3.5、Seed 2.0 Pro、MiniMax M2.5、GLM-5等八九个旗舰模型同月入场。

封神周期从"年"变成了"月"。这种加速的背后，是算力的指数级增长。从2021年到2024年，全球AI算力增长了30倍。英伟达独占60%的市场份额，几乎所有高端芯片都出自台积电一家之手。

算力命门集中在少数几家公司手里，这让整个AI产业变得异常脆弱。一旦供应链出现波动，或者地缘政治风险升级，整个行业都可能停摆。

好消息是，自研芯片正在打破垄断。Google TPU v5e、微软Maia 100、Meta MTIA v2等自研芯片正在分流市场需求。预计到2026年底，四大云厂商的自研芯片将占AI训练市场的35%。

黑箱化：95个模型里80个没有公开训练代码

最强模型越来越黑箱，在95个代表性模型里，80个没有公开训练代码。

这与开源生态的繁荣形成了鲜明对比。DeepSeek、Qwen、GLM、MiniMax、Kimi一路把开源权重的能力曲线往前推，开源vs闭源的差距从8%缩小到1.7%。

但"开源权重"不等于"开源训练"。你可以拿到模型参数，可以微调，可以部署，但你不知道它是怎么被训练出来的。这种"半透明"状态，让AI的可解释性和安全性变得更加难以保障。

英国央行、金融行为监管局和财政部最近为Claude Mythos Preview模型召开了紧急会议。各大银行、保险公司和交易所代表在两周内听取风险介绍。这是全球主要金融监管机构首次对单一AI模型召开此类会议。

一个AI模型能让英国央行级别的监管机构这么紧张，说明AI的能力已经引起了系统性风险的警觉。监管介入的速度可能会比预想的快。

我们该如何面对这个加速的世界？

回到开篇那个2.7%的数字。

中美AI差距缩小到2.7%，这既是中国科技崛起的证明，也是全球竞争白热化的信号。但比竞争更紧迫的，是我们如何在一个AI能力远超人类治理能力的时代，找到平衡点。

报告给出了一条核心结论：AI的本事涨得飞快，但人类衡量和管好它的能力，却没怎么跟上步伐。

当AI能在数学奥赛拿金牌，却看不懂模拟时钟；当它能写出完美代码，却让22岁的年轻人找不到工作；当它能生成逼真视频，却被用来制造色情内容——我们不得不承认：技术进步并不自动带来社会进步。

日本在斯坦福的另一份报告中呈现出一种不同的态度。在"AI是否是人类威胁"的问题上，仅有24.3%的日本人表示认同，44.3%明确否认。对于"自己的工作是否会被AI取代"，超过半数的人给出了否定的回答。

日本人不焦虑，不是因为他们技术落后，而是因为他们选择了一种"体面转型"的模式。瑞穗金融计划削减5000个岗位，但不直接裁员，而是重新培训并调配到个人客户销售岗位。NTT预计五年后AI可完成半数业务，同样承诺通过再培训安置员工。

这种策略在效率叙事中常被讥为"低效"，但它体现的是一种不同的时间观：技术变革的速度，不应该超越人的适应速度。

当一个社会积累了用安全网接住跌落者的经验，民众对技术冲击的恐惧自然会降低。

中国的兴奋度全球最高，担忧度全球最低，这种"乐观主义"既是动力，也可能是盲点。我们在AI论文数量、专利申请、算力建设上遥遥领先，但在AI立法和治理方面，全球排名几乎是倒数。

2026年的斯坦福AI指数报告，更像是一份警示录。它告诉我们，AI已经是"当下的现实"。这个现实既充满机遇，也布满陷阱。真正的挑战不在于AI能做什么，而在于我们想让它做什么，以及我们准备好为它的后果承担什么责任。

这个问题，没有标准答案。但每一个身处其中的人，都必须给出自己的回答。

The End