斯坦福大学刚刚发布《2026年人工智能指数报告》,423页,覆盖能力、投资、就业、治理等9大领域。这是AI圈每年最权威的"体检报告"。今年的结论让所有人都应该认真看一眼:AI正在加速,但我们理解和治理它的能力,正在落后。
1. 中美差距,只剩2.7%了
这是今年报告最受关注的数字。
截至2026年3月,美国顶尖模型(Claude Opus 4.6)Elo评分1503,中国顶尖模型紧追其后,差距仅有2.7%。
去年这个数字还是两位数。自2025年初以来,中美模型已多次交替登顶性能榜单——2025年2月,DeepSeek-R1曾短暂追平美国最佳模型。在论文发表量、引用量、专利总数和工业机器人安装量上,中国均已领先。
美国仍在顶尖模型数量、高影响力专利、数据中心规模(5427个,是其他任何国家的10倍以上)上保持优势。但"美国必然领跑"这个判断,已经失效了。
2. AI能力在狂奔,但跑得很奇怪
报告用了一个词形容AI的能力边界:"锯齿状前沿"。
强的地方很强:
AI智能体处理现实世界计算机任务的成功率,从18个月前的12%跃升至66%,距人类仅差6个百分点 网络安全任务成功率从2024年的15%飙升至93% 博士级科学问题、竞赛数学:已达到或超越人类水平 关键编码基准SWE-bench Verified:一年内从60%提升到接近100%
弱的地方,弱得出人意料:
谷歌Gemini Deep Think能在国际数学奥林匹克竞赛中获得金牌,但顶级模型读取模拟时钟的正确率仅有50.1%。
AI不会看钟,但能解奥数。这就是2026年AI能力的真实写照。
3. 机器人:实验室高手,家里菜鸟
机器人在软件模拟环境中的成功率:89.4%。在真实家庭任务(叠衣服、洗碗)中:12.4%。
这个数字落差大得令人震惊。
在整洁的实验室里,机器人几乎无所不能。但换成你家凌乱的厨房,换成各种形状的碗、各种姿势乱堆的衣服,成功率断崖式跌落。
数字世界和物理世界之间,隔着一道目前AI还跨不过去的鸿沟。
4. 22-25岁的程序员,就业下降了20%
这是报告里最沉重的数字。
在美国,22至25岁的软件开发人员就业率自2024年以来下降了近20%,而年长开发者的人数仍在增长。
在客户服务领域,同样的模式也在上演。报告没有直接说这是AI导致的,但将其列为"需要关注的信号"——这两件事同时发生在同一个领域,AI带来的生产力提升最显著,年轻初级岗位减少最明显。
更让人担心的是:三分之一的企业预计AI将在未来一年缩减其员工规模。麦肯锡的调研显示,几乎在所有职能部门,企业预期的未来减员规模,都将高于过去一年的实际裁员幅度。
也就是说,真正的冲击,还没到。
5. AI越强,我们对它了解得越少
这是报告里最反直觉的发现。
"基础模型透明度指数"平均分,从去年的58分骤降至40分。IBM以95分领跑,xAI的Grok和Midjourney仅得14分。
在2025年发布的95个知名AI模型中,有80个没有公开训练代码。超过90%的知名模型由私营公司创造,但这些公司越来越多地不再披露训练数据集大小、参数数量或训练时长。
能力最强的模型,往往披露最少的信息。这是一个令人不安的趋势:AI越来越深地嵌入社会,我们却越来越不知道它到底是怎么做出决定的。
AI安全事故也在同步增加:从2024年的233起,增至2025年的362起。
6. 生成式AI三年渗透53%的全球人口
比PC和互联网都快。
到2026年初,美国消费者从生成式AI工具获得的年化经济价值达到1720亿美元,每用户中位价值一年内翻了三倍。
大多数工具是免费或接近免费的。这意味着AI正在创造巨大的经济价值,但这些价值主要流向了用户(省了钱、省了时间),而不是模型公司的营收。
但渗透率和收入之间有一个奇怪的分布:新加坡达到61%,阿联酋54%;美国排在第24位,只有28.3%——美国是AI最强大技术的产地,却不是AI最活跃的使用地。
7. 80%的学生用AI,6%的老师搞清楚了规则
五分之四的美国高中生和大学生已经在使用AI完成学业任务,但只有一半的中小学制定了AI使用政策,仅6%的教师表示这些政策是清晰的。
这意味着什么?就业市场对年轻人的门正在收窄,与此同时,学校还没教会他们怎么在AI时代生存。
8. AI的代价:一个模型的训练,排放了1.7万辆车一年的废气
数字大得需要缓一缓:
Grok 4的训练碳排放估计达到72816吨二氧化碳当量,相当于约1.7万辆汽车行驶一年 AI数据中心总功率容量达到29.6吉瓦,相当于纽约州峰值用电量 仅GPT-4o一年的推理用水量,就可能超过1200万人的饮用水需求
最后,报告说了什么
报告最后一句话,是今年最值得细品的总结:
"数据并未指向同一个方向。它所呈现的,是一个扩张速度远超周围现有体系适应能力的领域。"
AI在狂奔。能力在飙升,普及在加速,投资在暴涨,影响在扩散。
但与此同时,我们评估它的基准在失效,我们理解它的透明度在下降,我们管理它的政策在滞后,初级劳动市场开始承压,环境代价在累积。
技术跑得很快,人类来不及想清楚下一步该怎么走。
这不是悲观,是斯坦福用423页数据说出来的现实。
夜雨聆风