这是AI行业目前信息密度最高、来源最独立的年度报告,每年由斯坦福以人为本AI研究所发布,今年是第九版,全文423页。
结论先说:AI能力的曲线在飞,但人类衡量和管理AI的能力没有跟上。

中美模型差距,从300分压到39分
斯坦福在报告中把2023年5月以来Arena榜单上的美国第一和中国第一画在同一张图上。2023年5月,GPT-4领跑1320分,中国这边还是chatglm-6b,差距300多分。2025年2月,DeepSeek-R1第一次短暂追平美国头部模型。到2026年3月,美国的Claude Opus 4.6拿到1503分,中国dola-seed-2.0-preview拿到1464分,差距仅剩39分,换算成百分比是2.7%。
更值得关注的是这一年里两国模型在榜单上的换位频率——从2025年初开始,中美头部模型已经多次你追我赶,交替领先。
背后的投入不对等更让这组数字显得有意义:美国私人AI投资达2859亿美元,中国仅124亿美元,相差23倍。中国靠极致工程化、开源策略和MoE架构,用五分之一的钱把差距压到了发丝之细。
AI Agent能力两年内完成质变
报告追踪了AI Agent处理真实计算机任务的成功率变化。18个月前这个数字还是12%,到2026年3月已经跳升至66%,距离人类表现仅差6个百分点。在网络安全任务上,AI代理解决问题的成功率从2024年的15%飙升到93%。代码能力上,SWE-bench评分在一年内从60%飙升至近100%。
但AI能力的分布并不均匀,研究者称之为"锯齿前沿"。
Gemini Deep Think能在国际数学奥赛拿到金牌,但最强模型识别模拟时钟的准确率只有50.1%。机器人在仿真环境中完成操作任务的成功率高达89.4%,但一进真实家庭环境做家务,成功率骤降至12%。AI在加速,但加速的不是同一个方向。
25岁以下程序员就业下降近20%
报告关注了AI对就业的影响,并给出了一个让行业警醒的数字。
在软件开发领域,AI带来了约26%的生产力提升。但与此同时,美国22至25岁软件开发者的就业人数自2024年以来下降了近20%,而年长开发者的数量仍在增长。报告未直接作出因果判断,但特别将其列为需要关注的信号。
更让人担心的是调查中的企业预期——受访高管表示,未来的裁员幅度预计会比过去几个月还要大。
报告用了一句话概括这个困境:这不是宏观失业率的事,是入口岗位被精准切掉的事。第一份工作没了,整个职业阶梯就断了一格。这件事的长期影响,现在没人能算清。
专家和公众的认知鸿沟正在扩大
报告最后一个令人深思的发现是专家和普通大众之间的认知落差。在AI对就业影响的判断上,73%的专家持积极态度,而公众中持此观点的只有23%,差距达50个百分点。经济影响差距48个百分点,医疗影响差距40个百分点。
另外,美国公众对本国政府监管AI的信任度在调查覆盖国中排名最低,仅为31%。全球平均水平是54%,新加坡最高81%。
这意味着AI行业在能力上的加速,和社会对它的理解和接受之间,正在产生一道越来越宽的裂缝。
数据来源
斯坦福HAI,2026年4月,《2026年人工智能指数报告》(423页) 智源社区,2026年4月16日,《斯坦福AI指数2026:中美模型差距缩至2.7%》 36氪·新智元,2026年4月,《斯坦福423页AI报告出炉!中美差距仅2.7%》 IT之家,2026年4月,《斯坦福423页AI报告出炉!清华DeepSeek冲进全球前十》 虎嗅,2026年4月,《美国砸2859亿,中国仅用124亿,却把AI差距压到2.7%》
关注锐眼视界行业志,用真实数据看懂行业趋势,不焦虑、不盲从,洞察看得见的变革。
夜雨聆风