4 月 13 日,斯坦福大学人文 AI 中心(HAI)放出了 2026 年度 AI 指数报告。423 页,数据量巨大。我花了一天时间啃完了关键章节,下面说几个我觉得真正值得关注的发现。
这篇不是对报告的全面解读,而是挑了三个我最感兴趣的角度:中美到底谁在赢、AI 为什么"偏科"这么严重、以及年轻人是不是最先被替代的。
一、2.7%:中美差距到底怎么算的
先说最抓眼球的数字。
斯坦福报告引用的是 LMSYS Arena Leaderboard 的 Elo 评分。截至 2026 年 3 月,美国最强的 AI 模型(Anthropic 的 Claude Opus 4.6)得分 1503,中国最强的模型(字节的 Dola-Seed-2.0 Preview)得分 1464,差距 39 个 Elo 点,换算成百分比是 2.7%。

但这个数字有几个上下文需要说清楚:
• 差距在反复翻转。 2025 年 2 月 DeepSeek-R1 出来的时候,中国模型一度追平了美国最强模型。之后双方你来我往,交替领先。斯坦福自己的说法是"effectively closed"——实质上已经追平。
• 这只是在 Arena Leaderboard 上的差距。 这是最被引用的评测之一,但不是全部。不同基准测试结果会有差异。
• 模型性能 ≠ 综合实力。 美国在其他维度优势明显:2025 年私人 AI 投资 2859 亿美元,是中国 124 亿美元的 23 倍;美国有 5427 个数据中心,全球最多;2025 年产出的顶级模型 40 个,中国 15 个。
• 中国也不是没有优势。 中国在 AI 论文发表量(全球占比 23.2%)、专利授权量(全球占比 69.7%)、工业机器人安装量上都领先。只不过,论文数量和专利数量不等于质量。

所以"差距只剩 2.7%"这句话本身没问题,但如果你只看这一个数字做判断,那肯定是不完整的。
我的理解是:在模型性能这个维度,中美确实已经基本追平。但在投资规模、基础设施、生态体系这些维度,美国仍然有比较大的优势。而中国在论文产出、专利、机器人应用等维度有自己的强项。
更有意思的一个趋势是:阿里和智谱最近开始把新模型闭源了。DeepSeek V4 的消息也变少了。之前靠开源打天下的中国实验室,正在悄悄关上那扇门。这比 2.7% 的差距本身更值得关注。
二、AI 能拿奥数金牌,但看不懂时钟
这是我觉得报告中"最好玩"也最能说明问题的一个发现。

Google 的 Gemini Deep Think 在 2025 年国际数学奥林匹克(IMO)上拿了 35 分,金牌水平,在 4.5 小时内用自然语言完成了全部推理。同一时期,最顶尖的 AI 模型在 ClockBench(读模拟时钟)上的正确率是多少?50.1%。

人类是 90.1%。
斯坦福管这个叫 "jagged intelligence"(锯齿状智能)——AI 的能力分布极不均衡,有些维度远超人类,有些维度连小学生都不如。
这个"偏科"现象在好几个层面都出现了:
说白了,AI 在那些规则明确、数据丰富、可以大量训练的领域进步神速——代码、数学、网络安全。但到了需要物理直觉、多步骤常识推理、面对不可预测环境的场景,就露馅了。
机器人是个特别好的例子。在仿真环境 RLBench 里,机械臂操作成功率 89.4%。但放到真实家庭里,叠衣服、洗碗这些事,成功率只有 12%。实验室到客厅的距离,比我们想象的远得多。
所以下次有人说"AI 马上要取代一切"或者"AI 就是个噱头",你可以把这个表甩给他。事实是两个都对了,也两个都错了。
三、22-25 岁开发者就业降 20%,AI 是不是凶手
这可能是报告中最"扎心"的数据。
斯坦福引用了一项基于 ADP(美国最大薪酬处理公司)2500 万劳动者数据的研究。到 2025 年 7 月,22-25 岁软件开发者的就业人数,比 2022 年底的峰值下降了将近 20%。
而同一时期,26 岁以上的开发者就业基本稳定甚至还在增长。
这个时间点很微妙——2022 年底,正是 ChatGPT 发布的时候。更早之前,年轻开发者和年长开发者的就业趋势是同步的。
但要说全是 AI 的锅,也不准确。报告自己加了好几个限定条件:
• 研究者明确说了"其他因素可能也在驱动这一变化"
• 2022-2025 年间科技行业整体经历了一波裁员潮,不完全是因为 AI
• 但数据确实显示,下降集中在AI 最容易自动化的岗位——初级编码、客户服务这类工作
• 而 AI 用来增强人类能力的岗位,就业反而增长了
有个细节很值得玩味:薪水没降。就业人数少了,但留下来的年轻人工资没变。这说明市场不是不需要开发者了,而是入门门槛提高了。那些过去交给新人的"练手活"——写简单函数、做基础测试、处理重复逻辑——现在 AI 干了。
这对正在学编程的人来说不是好消息,但也不是世界末日。更准确的说法是:光会写代码不够了,你得理解问题、会沟通、能在模糊的需求中找到方向。这些恰恰是 AI 目前最不擅长的事。
四、几个快速补充
专家和公众的认知撕裂
73% 的美国 AI 专家认为 AI 对就业有积极影响,但普通公众只有 23%。50 个百分点的差距。类似分歧在经济和医疗领域也存在。
这不能简单说谁对谁错。专家看到的是效率提升和产业升级,普通人担心的是"下一个被裁的是不是我"。两种焦虑都是真实的。
AI 公司越来越不透明
斯坦福的 Foundation Model Transparency Index 显示,AI 公司透明度平均分从 2024 年的 58 分跌到了 2025 年的 40 分。Meta 的得分直接腰斩(60→31),Mistral 更狠(55→18)。训练数据来源、计算资源、部署后的影响评估——这些关键信息越来越难看到。
能力越强,越不透明。这组合挺让人不安的。
投资依然疯狂
全球企业 AI 投资达到 5817 亿美元,同比增长 130%。美国私人 AI 投资 2859 亿,是中国的 23 倍。但报告也提醒了:单纯看私人投资数据可能低估了中国的实际 AI 投入,因为中国政府通过政府引导基金大量注资。2000 到 2023 年间,这类基金规模估计达到 9120 亿美元。
最后说几句
读完这份报告,我的感受是:AI 的发展速度确实在加快,但加速的方式很不均匀。有些领域像坐了火箭(代码、数学、网络安全),有些领域像在爬(物理操作、常识推理、家务劳动)。这种"偏科"短期内不会消失。
中美的 AI 竞争进入了一个新阶段——模型性能的差距已经不是主要矛盾,真正的竞争转向了成本、可靠性、实际应用效果。中国在开源策略上的调整、美国在人才吸引力上的下滑(AI 研究者流入美国的人数比 2017 年下降了 89%),这些暗线可能比 Elo 评分更值得跟踪。
至于"我的工作会不会被取代"这个问题——报告给不了简单的答案。但如果你是 22-25 岁,做的工作主要是写简单代码或者回答标准问题,那你确实应该认真想想下一步了。不是恐慌,而是务实。
夜雨聆风