AI一年进步30分,但年轻程序员就业掉了20%:斯坦福2026 AI报告5个最扎心事实

2026年4月，斯坦福大学发布了第九版《AI指数报告》。

这份400多页的报告由斯坦福大学以人为中心的人工智能研究所（HAI）主导，是目前全球最全面、最独立的AI年度评估。报告数据来源包括Epoch AI、GitHub、LinkedIn、麦肯锡、美国劳工统计局、FDA、OECD、联合国教科文组织等数十家机构。

以下从报告中提取五个关键事实，分别涉及技术能力、经济影响、就业市场和公众认知。

一、AI能力一年跃升30个百分点，人类考试防线失守

报告引用了一个名为"Humanity's Last Exam"（人类最后考试）的基准测试。该测试包含2700个专家级问题，覆盖数十个学科，设计初衷就是让AI难以通过。

2024年，AI在该测试上的准确率不足10%。到2025年，这一数字上升至38.3%。一年内提升了约30个百分点。

在同一章节，报告还记录了国际数学奥林匹克竞赛（IMO）的结果。2024年，DeepMind的AlphaProof和AlphaGeometry 2解决了六个问题中的四个，获得银牌（28分）。2025年，Gemini Deep Think解决了五个问题，获得35分——金牌水平。更重要的是，2025年的系统在4.5小时比赛时间内端到端使用自然语言完成，而2024年的系统需要专家将问题翻译成形式语言并花费数天计算。

在软件工程领域，SWE-bench Verified基准测试衡量AI解决真实GitHub问题的能力。2024年，最高模型性能约为60%。2025年，已接近100%。

在博士级科学问题（GPQA Diamond）上，2024年底OpenAI的o3首次超越人类专家基线（81.2%），达到87.7%。到2025年，平均准确率已攀升至93%，超过专家参考点12个百分点。

技术层面，AI正在以前所未有的速度逼近并超越人类基线。报告指出，多个前沿模型在MMMU（多模态多学科推理）、AIME（数学竞赛）等基准上已经达到或超过人类水平。

二、"锯齿状智能"：能拿奥数金牌，却看不懂时钟

然而，报告同时揭示了一个反常现象：AI的能力并不均衡。

在ClockBench测试中，研究人员评估了多个多模态大语言模型读取模拟时钟的能力。人类正确率为90.1%。而表现最好的模型——GPT-5.4 High——在2026年3月的测试中仅达到50.6%。当模型读错时间时，其中位数误差为1到3小时，而人类仅为3分钟。

另一项研究（Saxena et al., 2025）测试了七个多模态模型在ClockQA上的表现。ClockQA包含62张模拟时钟图片，涵盖六种视觉样式。表现最好的模型Gemini-2.0，精确匹配准确率仅为22.6%。

研究还发现，即使对模型进行微调，它们在熟悉时钟样式上的表现会提升，但无法泛化到真实世界照片或不同设计（如表盘变形、指针更细）的时钟上。研究者分析认为，困难不在于训练数据，而在于模型如何将多个视觉线索整合到单张图片中。

这就是研究者所称的"锯齿状智能"（jagged frontier）——AI在某些高度复杂的推理任务上超越人类，却在人类习以为常的视觉-算术组合任务上持续失败。报告还指出，在机器人领域也存在类似差距：在仿真环境RLBench中，机器人操作成功率达89.4%，但在真实家庭任务（BEHAVIOR-1K）中，完整任务成功率仅12.4%。

三、AI确实在提升生产力：客服+14%，软件开发+26%

报告第四章汇总了多篇同行评审研究，测量AI对实际工作产出的影响。

一项针对客户支持代理的研究发现，使用对话式AI助手后，每小时解决的问题数量增加了14%至15%。获益最大的是经验较少的员工，其效率提升幅度达到30%至35%。

在软件开发领域，使用GitHub Copilot的开发者完成的拉取请求（pull requests）数量增加了26%。同样，初级和经验较少的开发者受益最大。

在营销领域，使用多模态AI创建广告的团队，人均产出提升了50%。

在会计领域，使用AI工具的会计师每周客户支持处理量提升了55%。

然而，生产力提升并非普遍存在。一项针对开源开发者的研究发现，使用AI辅助的开发者反而慢了19%，且存在"感知帮助与实际表现之间的显著差距"。不过该研究团队在后续测试中未能复现这一结果，部分原因是开发者越来越不愿在不使用AI的情况下工作。

另一项研究发现，过度依赖AI学习新技能的软件工程师没有显示出可测量的速度提升，并且面临研究者所称的"学习惩罚"。

在宏观层面，一项针对12000家欧洲企业的研究发现，AI采用使劳动生产率平均提升4%，而培训投入会显著增强这一效果。OECD对G7经济体的预测显示，未来十年AI每年可带来0.2至1.3个百分点的劳动生产率增长。

四、最沉重的代价：年轻程序员就业下降近20%

第四章中一组就业数据值得特别关注。

在美国，22至25岁的软件开发人员，2025年的就业人数比2022年峰值下降了近20%。而同职业中，年长的开发人员就业人数却有增长趋势。

客户服务岗位呈现完全相同的模式。22至25岁从业者的就业下降幅度与软件开发者几乎一致，而年长年龄组的就业持续增长。

这一模式在更广泛的AI暴露职业中同样成立。研究者将职业按AI暴露程度分组后发现，在22至25岁年龄组中，最暴露于AI的职业与最不暴露的职业相比，就业率下降了约16%。该差距从2024年年中开始扩大并持续增长。研究同时控制了公司类型和行业层面的冲击（如利率压力或行业放缓），以隔离AI暴露的独立效应。

研究者将这种现象称为 "seniority-biased technological change" （偏向年资的技术变革）——AI正在替代初级劳动，而资深岗位基本不受影响，甚至受益。

与此同时，企业雇主对未来的预期更为悲观。麦肯锡的调查显示，三分之一的企业预计AI将在未来一年内导致其员工总数减少。在年收入超过10亿美元的大型企业中，这一比例升至35%。在软件工程、服务运营、供应链管理等职能中，预期减员幅度显著超过过去一年已经发生的减员幅度。

在人才流动方面，报告第一章的数据显示，迁移到美国的AI研究人员和开发者数量自2017年以来下降了89%，仅在过去一年就下降了80%。美国仍然是AI人才总量最多的国家，但吸引新人才的速度已降至十年来最低。

五、专家与公众的认知鸿沟：50个百分点

第九章对比了AI专家与美国普通公众对AI社会影响的看法。差距极大。

问题领域	专家认为"积极"的比例	公众认为"积极"的比例	差距
AI对个人工作的影响	73%	23%	50个百分点
AI对经济的影响	69%	21%	48个百分点
AI对医疗的影响	84%	44%	40个百分点
AI对K-12教育的影响	61%	24%	37个百分点
AI对艺术和娱乐的影响	36%	20%	16个百分点

在就业总量的判断上，64%的美国成年人认为AI将在未来20年内减少就业机会，只有5%认为会增加。而专家群体中，39%预测就业减少，19%预测增加。

在工作场所采用速度的预测上，专家的中位数预测是：到2030年，生成式AI将辅助18%的美国工作工时。而公众的预测仅为10%。专家群体中预测最乐观的四分之一（75百分位）认为这一比例将超过30%，而最乐观的10%（90百分位）认为将超过40%。

在AI对关键人类能力的影响上，双方同样存在显著分歧。关于元认知（思考自己思考过程的能力），53%的公众预期负面影响，而专家的这一比例为36%。关于社交和情绪智能，51%的公众预期负面影响，专家为34%。有趣的是，在心理健康方面，双方几乎达成共识：55%的公众和53%的专家预期AI会产生负面影响。

在AI陪伴（AI companionship）这一新兴领域，专家预测到2027年，10%的美国成年人将每天使用AI伴侣，到2040年升至30%。公众的预测则低得多，仅为20%（2040年）。最乐观的10%专家甚至预测到2040年将超过60%。

六个值得持续观察的趋势

报告还记录了另外几组数据，虽然不直接属于上述五个事实，但有助于理解整体图景：

一、投资规模。 全球企业AI投资在2025年达到5817亿美元，比2024年增长129.9%。其中美国占2859亿美元，是中国的23倍（中国为124亿美元）。但仅看私人投资可能低估中国的AI总支出，因为中国政府引导基金在2000年至2023年间向AI企业部署了约1840亿美元。

二、消费者价值。 生成式AI在美国的消费者剩余（consumer surplus）从2025年的1120亿美元增长到2026年的1720亿美元，中位数用户价值从3.40美元增至11.40美元，翻了3倍。这些工具大多对用户免费。研究者指出，这一消费者剩余远超美国生成式AI收入，表明技术的社会回报远大于生产者捕获的私人回报。

三、AI事故。 AI事故报告数量从2024年的233起增加到2025年的362起。OECD的AI事故监测器采用自动化多语言采集，月均报告数在2026年1月达到435起。两个数据库的统计方法不同，但都显示出一致的快速上升趋势。

四、学生使用率。80%的美国大学生和高中生已经在使用生成式AI完成学业任务，但只有一半的中学有AI使用政策，仅6%的教师认为政策清晰。在Chegg的2025年全球学生调查中，印尼学生使用率最高（95%），美国为67%，英国为67%。

五、AI采用速度。 生成式AI在三年内达到约53%的人口采用率，速度快于个人电脑或互联网。但采用率与国家GDP呈强正相关，存在显著差异：新加坡（61%）和阿联酋（54%）高于预期，而美国排名第24位（28.3%）。

六、透明度下降。 在基金会模型透明度指数（Foundation Model Transparency Index）上，2024年平均分为58，2025年降至40。上游环节（训练数据、计算资源、劳动力）披露最差。在开放性指数（Openness Index）上，多数领先模型得分在2至16之间（满分100）。