斯坦福 2026 AI 指数报告:中美差距 2.7%,年轻人就业跌 20%,但还是不会叠衣服

4 月 13 日，斯坦福大学人文 AI 中心（HAI）放出了 2026 年度 AI 指数报告。423 页，数据量巨大。我花了一天时间啃完了关键章节，下面说几个我觉得真正值得关注的发现。

这篇不是对报告的全面解读，而是挑了三个我最感兴趣的角度：中美到底谁在赢、AI 为什么"偏科"这么严重、以及年轻人是不是最先被替代的。

一、2.7%：中美差距到底怎么算的

先说最抓眼球的数字。

斯坦福报告引用的是 LMSYS Arena Leaderboard 的 Elo 评分。截至 2026 年 3 月，美国最强的 AI 模型（Anthropic 的 Claude Opus 4.6）得分 1503，中国最强的模型（字节的 Dola-Seed-2.0 Preview）得分 1464，差距 39 个 Elo 点，换算成百分比是 2.7%。

但这个数字有几个上下文需要说清楚：

• 差距在反复翻转。 2025 年 2 月 DeepSeek-R1 出来的时候，中国模型一度追平了美国最强模型。之后双方你来我往，交替领先。斯坦福自己的说法是"effectively closed"——实质上已经追平。

• 这只是在 Arena Leaderboard 上的差距。 这是最被引用的评测之一，但不是全部。不同基准测试结果会有差异。

• 模型性能 ≠ 综合实力。 美国在其他维度优势明显：2025 年私人 AI 投资 2859 亿美元，是中国 124 亿美元的 23 倍；美国有 5427 个数据中心，全球最多；2025 年产出的顶级模型 40 个，中国 15 个。

• 中国也不是没有优势。 中国在 AI 论文发表量（全球占比 23.2%）、专利授权量（全球占比 69.7%）、工业机器人安装量上都领先。只不过，论文数量和专利数量不等于质量。

所以"差距只剩 2.7%"这句话本身没问题，但如果你只看这一个数字做判断，那肯定是不完整的。

我的理解是：在模型性能这个维度，中美确实已经基本追平。但在投资规模、基础设施、生态体系这些维度，美国仍然有比较大的优势。而中国在论文产出、专利、机器人应用等维度有自己的强项。

更有意思的一个趋势是：阿里和智谱最近开始把新模型闭源了。DeepSeek V4 的消息也变少了。之前靠开源打天下的中国实验室，正在悄悄关上那扇门。这比 2.7% 的差距本身更值得关注。

二、AI 能拿奥数金牌，但看不懂时钟

这是我觉得报告中"最好玩"也最能说明问题的一个发现。

Google 的 Gemini Deep Think 在 2025 年国际数学奥林匹克（IMO）上拿了 35 分，金牌水平，在 4.5 小时内用自然语言完成了全部推理。同一时期，最顶尖的 AI 模型在 ClockBench（读模拟时钟）上的正确率是多少？50.1%。

人类是 90.1%。

斯坦福管这个叫 "jagged intelligence"（锯齿状智能）——AI 的能力分布极不均衡，有些维度远超人类，有些维度连小学生都不如。

这个"偏科"现象在好几个层面都出现了：

场景	AI 表现
SWE-bench Verified（代码修复）	一年内从 60% 飙到接近 100%
网络安全漏洞发现	从 2024 年的 15% 飙升到 93%
AI Agent 真实任务（Terminal-Bench）	从 20% 飙升到 77.3%
OSWorld（跨操作系统任务）	从 12% 涨到 66.3%，接近人类水平
读模拟时钟	50.1%（人类 90.1%）
机器人做家务	成功率只有 12%
天体物理学论文复现（ReplicationBench）	低于 20%

说白了，AI 在那些规则明确、数据丰富、可以大量训练的领域进步神速——代码、数学、网络安全。但到了需要物理直觉、多步骤常识推理、面对不可预测环境的场景，就露馅了。

机器人是个特别好的例子。在仿真环境 RLBench 里，机械臂操作成功率 89.4%。但放到真实家庭里，叠衣服、洗碗这些事，成功率只有 12%。实验室到客厅的距离，比我们想象的远得多。

所以下次有人说"AI 马上要取代一切"或者"AI 就是个噱头"，你可以把这个表甩给他。事实是两个都对了，也两个都错了。

三、22-25 岁开发者就业降 20%，AI 是不是凶手

这可能是报告中最"扎心"的数据。

斯坦福引用了一项基于 ADP（美国最大薪酬处理公司）2500 万劳动者数据的研究。到 2025 年 7 月，22-25 岁软件开发者的就业人数，比 2022 年底的峰值下降了将近 20%。

而同一时期，26 岁以上的开发者就业基本稳定甚至还在增长。

这个时间点很微妙——2022 年底，正是 ChatGPT 发布的时候。更早之前，年轻开发者和年长开发者的就业趋势是同步的。

但要说全是 AI 的锅，也不准确。报告自己加了好几个限定条件：

• 研究者明确说了"其他因素可能也在驱动这一变化"

• 2022-2025 年间科技行业整体经历了一波裁员潮，不完全是因为 AI

• 但数据确实显示，下降集中在AI 最容易自动化的岗位——初级编码、客户服务这类工作

• 而 AI 用来增强人类能力的岗位，就业反而增长了

有个细节很值得玩味：薪水没降。就业人数少了，但留下来的年轻人工资没变。这说明市场不是不需要开发者了，而是入门门槛提高了。那些过去交给新人的"练手活"——写简单函数、做基础测试、处理重复逻辑——现在 AI 干了。

这对正在学编程的人来说不是好消息，但也不是世界末日。更准确的说法是：光会写代码不够了，你得理解问题、会沟通、能在模糊的需求中找到方向。这些恰恰是 AI 目前最不擅长的事。

四、几个快速补充

专家和公众的认知撕裂

73% 的美国 AI 专家认为 AI 对就业有积极影响，但普通公众只有 23%。50 个百分点的差距。类似分歧在经济和医疗领域也存在。

这不能简单说谁对谁错。专家看到的是效率提升和产业升级，普通人担心的是"下一个被裁的是不是我"。两种焦虑都是真实的。

AI 公司越来越不透明

斯坦福的 Foundation Model Transparency Index 显示，AI 公司透明度平均分从 2024 年的 58 分跌到了 2025 年的 40 分。Meta 的得分直接腰斩（60→31），Mistral 更狠（55→18）。训练数据来源、计算资源、部署后的影响评估——这些关键信息越来越难看到。

能力越强，越不透明。这组合挺让人不安的。

投资依然疯狂

全球企业 AI 投资达到 5817 亿美元，同比增长 130%。美国私人 AI 投资 2859 亿，是中国的 23 倍。但报告也提醒了：单纯看私人投资数据可能低估了中国的实际 AI 投入，因为中国政府通过政府引导基金大量注资。2000 到 2023 年间，这类基金规模估计达到 9120 亿美元。

最后说几句

读完这份报告，我的感受是：AI 的发展速度确实在加快，但加速的方式很不均匀。有些领域像坐了火箭（代码、数学、网络安全），有些领域像在爬（物理操作、常识推理、家务劳动）。这种"偏科"短期内不会消失。

中美的 AI 竞争进入了一个新阶段——模型性能的差距已经不是主要矛盾，真正的竞争转向了成本、可靠性、实际应用效果。中国在开源策略上的调整、美国在人才吸引力上的下滑（AI 研究者流入美国的人数比 2017 年下降了 89%），这些暗线可能比 Elo 评分更值得跟踪。

至于"我的工作会不会被取代"这个问题——报告给不了简单的答案。但如果你是 22-25 岁，做的工作主要是写简单代码或者回答标准问题，那你确实应该认真想想下一步了。不是恐慌，而是务实。