
2026年4月,斯坦福大学发布了第九版《AI指数报告》。
这份400多页的报告由斯坦福大学以人为中心的人工智能研究所(HAI)主导,是目前全球最全面、最独立的AI年度评估。报告数据来源包括Epoch AI、GitHub、LinkedIn、麦肯锡、美国劳工统计局、FDA、OECD、联合国教科文组织等数十家机构。
以下从报告中提取五个关键事实,分别涉及技术能力、经济影响、就业市场和公众认知。
一、AI能力一年跃升30个百分点,人类考试防线失守
报告引用了一个名为"Humanity's Last Exam"(人类最后考试)的基准测试。该测试包含2700个专家级问题,覆盖数十个学科,设计初衷就是让AI难以通过。
2024年,AI在该测试上的准确率不足10%。到2025年,这一数字上升至38.3%。一年内提升了约30个百分点。

在同一章节,报告还记录了国际数学奥林匹克竞赛(IMO)的结果。2024年,DeepMind的AlphaProof和AlphaGeometry 2解决了六个问题中的四个,获得银牌(28分)。2025年,Gemini Deep Think解决了五个问题,获得35分——金牌水平。更重要的是,2025年的系统在4.5小时比赛时间内端到端使用自然语言完成,而2024年的系统需要专家将问题翻译成形式语言并花费数天计算。
在软件工程领域,SWE-bench Verified基准测试衡量AI解决真实GitHub问题的能力。2024年,最高模型性能约为60%。2025年,已接近100%。
在博士级科学问题(GPQA Diamond)上,2024年底OpenAI的o3首次超越人类专家基线(81.2%),达到87.7%。到2025年,平均准确率已攀升至93%,超过专家参考点12个百分点。
技术层面,AI正在以前所未有的速度逼近并超越人类基线。报告指出,多个前沿模型在MMMU(多模态多学科推理)、AIME(数学竞赛)等基准上已经达到或超过人类水平。
二、"锯齿状智能":能拿奥数金牌,却看不懂时钟
然而,报告同时揭示了一个反常现象:AI的能力并不均衡。
在ClockBench测试中,研究人员评估了多个多模态大语言模型读取模拟时钟的能力。人类正确率为90.1%。而表现最好的模型——GPT-5.4 High——在2026年3月的测试中仅达到50.6%。当模型读错时间时,其中位数误差为1到3小时,而人类仅为3分钟。
另一项研究(Saxena et al., 2025)测试了七个多模态模型在ClockQA上的表现。ClockQA包含62张模拟时钟图片,涵盖六种视觉样式。表现最好的模型Gemini-2.0,精确匹配准确率仅为22.6%。

研究还发现,即使对模型进行微调,它们在熟悉时钟样式上的表现会提升,但无法泛化到真实世界照片或不同设计(如表盘变形、指针更细)的时钟上。研究者分析认为,困难不在于训练数据,而在于模型如何将多个视觉线索整合到单张图片中。
这就是研究者所称的"锯齿状智能"(jagged frontier)——AI在某些高度复杂的推理任务上超越人类,却在人类习以为常的视觉-算术组合任务上持续失败。报告还指出,在机器人领域也存在类似差距:在仿真环境RLBench中,机器人操作成功率达89.4%,但在真实家庭任务(BEHAVIOR-1K)中,完整任务成功率仅12.4%。
三、AI确实在提升生产力:客服+14%,软件开发+26%
报告第四章汇总了多篇同行评审研究,测量AI对实际工作产出的影响。
一项针对客户支持代理的研究发现,使用对话式AI助手后,每小时解决的问题数量增加了14%至15%。获益最大的是经验较少的员工,其效率提升幅度达到30%至35%。
在软件开发领域,使用GitHub Copilot的开发者完成的拉取请求(pull requests)数量增加了26%。同样,初级和经验较少的开发者受益最大。
在营销领域,使用多模态AI创建广告的团队,人均产出提升了50%。
在会计领域,使用AI工具的会计师每周客户支持处理量提升了55%。
然而,生产力提升并非普遍存在。一项针对开源开发者的研究发现,使用AI辅助的开发者反而慢了19%,且存在"感知帮助与实际表现之间的显著差距"。不过该研究团队在后续测试中未能复现这一结果,部分原因是开发者越来越不愿在不使用AI的情况下工作。
另一项研究发现,过度依赖AI学习新技能的软件工程师没有显示出可测量的速度提升,并且面临研究者所称的"学习惩罚"。
在宏观层面,一项针对12000家欧洲企业的研究发现,AI采用使劳动生产率平均提升4%,而培训投入会显著增强这一效果。OECD对G7经济体的预测显示,未来十年AI每年可带来0.2至1.3个百分点的劳动生产率增长。
四、最沉重的代价:年轻程序员就业下降近20%
第四章中一组就业数据值得特别关注。
在美国,22至25岁的软件开发人员,2025年的就业人数比2022年峰值下降了近20%。而同职业中,年长的开发人员就业人数却有增长趋势。
客户服务岗位呈现完全相同的模式。22至25岁从业者的就业下降幅度与软件开发者几乎一致,而年长年龄组的就业持续增长。

这一模式在更广泛的AI暴露职业中同样成立。研究者将职业按AI暴露程度分组后发现,在22至25岁年龄组中,最暴露于AI的职业与最不暴露的职业相比,就业率下降了约16%。该差距从2024年年中开始扩大并持续增长。研究同时控制了公司类型和行业层面的冲击(如利率压力或行业放缓),以隔离AI暴露的独立效应。
研究者将这种现象称为 "seniority-biased technological change" (偏向年资的技术变革)——AI正在替代初级劳动,而资深岗位基本不受影响,甚至受益。
与此同时,企业雇主对未来的预期更为悲观。麦肯锡的调查显示,三分之一的企业预计AI将在未来一年内导致其员工总数减少。在年收入超过10亿美元的大型企业中,这一比例升至35%。在软件工程、服务运营、供应链管理等职能中,预期减员幅度显著超过过去一年已经发生的减员幅度。
在人才流动方面,报告第一章的数据显示,迁移到美国的AI研究人员和开发者数量自2017年以来下降了89%,仅在过去一年就下降了80%。美国仍然是AI人才总量最多的国家,但吸引新人才的速度已降至十年来最低。
五、专家与公众的认知鸿沟:50个百分点
第九章对比了AI专家与美国普通公众对AI社会影响的看法。差距极大。
| 50个百分点 | |||
| 48个百分点 | |||
| 40个百分点 | |||
| 37个百分点 | |||
| 16个百分点 |
在就业总量的判断上,64%的美国成年人认为AI将在未来20年内减少就业机会,只有5%认为会增加。而专家群体中,39%预测就业减少,19%预测增加。
在工作场所采用速度的预测上,专家的中位数预测是:到2030年,生成式AI将辅助18%的美国工作工时。而公众的预测仅为10%。专家群体中预测最乐观的四分之一(75百分位)认为这一比例将超过30%,而最乐观的10%(90百分位)认为将超过40%。
在AI对关键人类能力的影响上,双方同样存在显著分歧。关于元认知(思考自己思考过程的能力),53%的公众预期负面影响,而专家的这一比例为36%。关于社交和情绪智能,51%的公众预期负面影响,专家为34%。有趣的是,在心理健康方面,双方几乎达成共识:55%的公众和53%的专家预期AI会产生负面影响。
在AI陪伴(AI companionship)这一新兴领域,专家预测到2027年,10%的美国成年人将每天使用AI伴侣,到2040年升至30%。公众的预测则低得多,仅为20%(2040年)。最乐观的10%专家甚至预测到2040年将超过60%。
六个值得持续观察的趋势
报告还记录了另外几组数据,虽然不直接属于上述五个事实,但有助于理解整体图景:
一、投资规模。 全球企业AI投资在2025年达到5817亿美元,比2024年增长129.9%。其中美国占2859亿美元,是中国的23倍(中国为124亿美元)。但仅看私人投资可能低估中国的AI总支出,因为中国政府引导基金在2000年至2023年间向AI企业部署了约1840亿美元。
二、消费者价值。 生成式AI在美国的消费者剩余(consumer surplus)从2025年的1120亿美元增长到2026年的1720亿美元,中位数用户价值从3.40美元增至11.40美元,翻了3倍。这些工具大多对用户免费。研究者指出,这一消费者剩余远超美国生成式AI收入,表明技术的社会回报远大于生产者捕获的私人回报。
三、AI事故。 AI事故报告数量从2024年的233起增加到2025年的362起。OECD的AI事故监测器采用自动化多语言采集,月均报告数在2026年1月达到435起。两个数据库的统计方法不同,但都显示出一致的快速上升趋势。
四、学生使用率。80%的美国大学生和高中生已经在使用生成式AI完成学业任务,但只有一半的中学有AI使用政策,仅6%的教师认为政策清晰。在Chegg的2025年全球学生调查中,印尼学生使用率最高(95%),美国为67%,英国为67%。
五、AI采用速度。 生成式AI在三年内达到约53%的人口采用率,速度快于个人电脑或互联网。但采用率与国家GDP呈强正相关,存在显著差异:新加坡(61%)和阿联酋(54%)高于预期,而美国排名第24位(28.3%)。
六、透明度下降。 在基金会模型透明度指数(Foundation Model Transparency Index)上,2024年平均分为58,2025年降至40。上游环节(训练数据、计算资源、劳动力)披露最差。在开放性指数(Openness Index)上,多数领先模型得分在2至16之间(满分100)。
结语
斯坦福2026 AI指数报告没有给出一个简单的结论。它呈现的是一个正在加速但极不平衡的图景:
技术能力在跃升。生产力在提升。投资在爆炸式增长。
但同时,初级岗位正在承压。学校政策滞后于学生使用。公众与专家的认知鸿沟越来越大。AI事故在增加。透明度在下降。
报告本身在序言中写道:
"The data does not point in a single direction. It reveals a field that is scaling faster than the systems around it can adapt."
数据并不指向单一方向。它揭示的是一个扩张速度远超其周围系统适应能力的领域。
对于正在进入劳动力市场的年轻人来说,这份报告既不是警报,也不是安慰。它是一组需要被认真对待的事实。
斯坦福大学《AI指数报告》
夜雨聆风