每年4月,全球AI圈都等斯坦福这份报告。
报告叫 AI Index,由美国斯坦福大学以人为本人工智能研究院(HAI)发布,从2017年至今,每年一本。它不下结论、不推产品,只把过去一年AI行业的所有数据系统地摆在你面前——模型性能、人才流向、投资规模、专利、学生使用率、各国采用率、AI事故、公众态度……
业内的评价是:这是AI最权威的年度体检。

2026年版,正文400多页,新增了一个"科学"章节,专门讲AI对科研的冲击。
我们把它读完,从7个角度,告诉你AI过去一年到底发生了什么。
一、AI能在国际数学奥赛拿金牌,看钟表却只有一半准
报告里有一个新词——锯齿形前沿(jagged frontier)。意思是AI的能力发展极不均匀。一边是天花板级别的突破,一边是连小学生都能做对的事它做不好。
最强的反差:
Google的 Gemini Deep Think,2025年拿下了国际数学奥林匹克(IMO)金牌——和全球最聪明的高中生一起做题,进了金牌区。要知道,IMO的题在普通数学博士眼里也是难的。
但同样的顶级模型,让它读模拟钟表(就是带指针的那种),准确率只有 50.1%。一半的时间在猜。
这不是Gemini一家的问题。报告测了所有顶级模型,在结构化基准测试上,平均失败率仍有 33%——也就是说,它们能解奥赛题,但你给它一个稍微"不按套路出牌"的任务,三次里有一次会出错。
对家长的意义:不要被"AI已经能做X"这种新闻吓到,也不要被"AI连Y都不会"这种段子骗到。AI的能力是参差不齐的,得具体场景具体看。
二、AI写代码,一年从60分到接近100分
如果说2024年的AI还是"能给你写一段代码、但你得改",到了2025年底,它已经能完成大部分软件工程任务。
衡量AI写代码能力最权威的基准叫 SWE-bench,由普林斯顿团队2023年提出。它模拟真实软件工程师的工作——拿到一个GitHub上的真实bug,AI要看懂代码库、定位问题、写出补丁。一年之间,顶级模型在这个基准上的成绩从 60% 跳到接近 100%。
顺便说一句,SWE-bench的核心作者之一是 姚顺雨——清华姚班毕业、普林斯顿博士、27岁成为腾讯首席AI科学家。今天ChatGPT能"自己上网搜资料、自己操作电脑"的底层方法(ReAct框架、SWE-agent),都是他在普林斯顿那几年做出来的。我们之前写过他的故事 →
姚顺雨:NOI银牌没保送,高考安徽第3进姚班,27岁成腾讯首席AI科学家
另一个测试 OSWorld,让AI在真实电脑上完成任务——订机票、改文档、做Excel表格、查信息。一年时间,成功率从 12% 涨到 66%。
这背后是过去一年最被低估的变化:AI从"答问题",转向了"做事"。
"软件工程师不会失业,但不用AI的工程师会被用AI的工程师取代。" ——英伟达 黄仁勋
这话对家长意味着什么?编程依然要学,但学法变了。光会写语法、背算法不够——能不能把问题想清楚、能不能指挥AI干活、能不能审查AI的输出,才是新一代工程师的核心能力。斯坦福今年新开的 CS146S 课,全名"现代软件开发者",整门课不让学生手写代码,专教这套能力。
3位IOAI美国队选手选择的斯坦福,开了一门禁止人工手写代码的编程课
三、中美AI差距,已经只剩2.7%
2025年1月,DeepSeek-R1 发布,第一次在主流测试上对标了美国顶级模型。从那时起,中美顶级模型在基准测试上多次互换领先。
到2026年3月,差距只剩 2.7%。
但中国的优势,不只是追上了模型性能:
• AI论文数量:全球第一
• AI论文引用:全球第一
• AI专利产出:全球第一
• 工业机器人装机量:全球第一
美国还领先的部分,主要是顶级模型的产出数量(90% 以上的前沿模型来自美国公司)、以及高影响力专利的密度。
但有一个底层事实,AI的"双中心"格局其实站在第三方的肩膀上:几乎所有最先进的AI芯片,都由台湾的台积电(TSMC)代工。这不是中美能短期改变的事,台积电2025年才在美国本土开始量产。
另外提一个数据,韩国的人均AI专利密度,全球第一。
四、钱和速度:美国一年砸了2,859亿,AI普及比互联网还快
资本层面,中美投资规模仍然差着量级。
2025年美国AI私人投资 2,859亿美元,中国 124亿美元——美国是中国的23倍。
但要注意:中国大量AI投资走政府引导基金,没算进"私人投资"这一栏。如果把政府投入算上,差距会小很多,只是数字不透明。
新创公司:美国2025年新增 1,953家 AI创业公司,是排名第二的国家的10倍以上。
美国还有一个让人吃惊的数字——5,427个数据中心,超任何其他国家10倍。AI不只是"算法竞赛",还是"耗电竞赛"。
至于AI在普通人中的普及速度,比PC、比互联网都快。生成式AI在三年内达到了 53% 的人口采用率。但这个数字在不同国家差别很大:
新加坡61%
阿联酋54%
美国28.3%(全球排名第24)
为什么AI发源地的美国,采用率反而靠后?报告认为,越是新兴市场和小国,越愿意把AI当成弯道超车的工具——大国惯性大、监管多、利益方多,反而走得慢。
中国不在报告的统计国家里(数据采集方法的限制),但DeepSeek、字节豆包、阿里通义这些产品的实际用户规模,业界普遍估计中国的人均AI使用强度,已经在全球第一梯队。
五、学生在用AI,学校还没准备好
这是这份报告里和家长最直接相关的一组数据。
美国的情况:
• 超过 80% 的高中生和大学生,用AI完成学校作业
• 只有 50% 的中小学制定了AI使用政策
• 只有 6% 的老师认为本校的AI政策足够清晰
学生跑得比学校快——而且快得多。
更值得注意的是博士培养的趋势变化。过去十年,美国和加拿大新增的AI博士越来越多去工业界(Google、Meta、OpenAI给的钱比大学多得多)。但 2022到2024年,这个趋势出现了反转——更多新博士选择留在学术界。
为什么?一种解释是,工业界的AI研究越来越封闭(不再发论文、不公开数据),让追求学术声誉的人觉得不值。另一种解释是,工业界的AI岗位竞争已经激烈到学术界的工资变得有竞争力。
不管哪种,这是一个信号:AI最聪明的脑子流向哪里,正在重新洗牌。
还有一个统计,AI技能增长最快的国家,不是美国和中国,而是阿联酋、智利、南非——这三个国家AI工程岗位招聘的增长率,过去一年位列全球前三。
六、AI事故一年涨了55%
AI变强的同时,AI出问题的频率也在涨。
报告统计的AI事件(包括误判、幻觉造成的真实损失、模型行为失控、安全漏洞、隐私事件等等),从2024年的 233起,涨到2025年的 362起。一年涨了 55%。
更让人担心的是,报告指出:大多数前沿模型开发者会公开报告性能基准("我家模型比上一代强多少"),但负责任AI(Responsible AI)的基准报告很不完整。也就是说,"它能做什么"被反复宣传,"它哪里不安全"基本不说。
报告还点出了一个"权衡困境":在很多场景下,让模型更安全(比如拒绝危险请求)会让它在其他维度变差(比如准确率下降)。开发者往往选择牺牲安全去换性能,因为性能能直接转化成用户和收入。
对家长的意义:不要把孩子能用的AI产品默认当"安全的工具"。它是工具,但是会出错的、有偏见的、能被诱导的工具。让孩子用AI之前,先教他对AI的输出保持基本怀疑。
七、专家和公众,对AI看法差了50个百分点
报告做了一个全球调研。同一个问题——"AI会让工作变得更好吗?"
AI专家的答案:73% 认为会。
普通公众的答案:23% 认为会。
差了 50个百分点。
这不是个别问题。在AI对经济、对医疗、对教育的影响判断上,都出现了类似量级的分歧。专家普遍乐观,公众普遍担忧。
最值得注意的,是公众对政府监管AI的信任度。在受访的多个发达国家中,美国公众对本国政府监管AI的信任度只有 31%——AI的发源地,公众对自己政府的不信任最深。
更意外的是,在多国公众眼中,欧盟比美国和中国都更值得信任。欧盟2024年通过的《AI法案》,被认为是目前全球最系统的AI监管框架。中国2023年发的《生成式人工智能服务管理暂行办法》在国内执行,国际公众感知度低。
这个数据揭示了一个尴尬的现实:AI产业最强的国家,公众对它最不放心。AI产业相对落后的欧盟,反而靠"管得住"赢得了信任。
报告今年新加了一个"科学"章节,专门讲AI在科研中的应用——从陶哲轩用AI辅助证明数学定理,到AlphaFold之后的蛋白质设计、到AI辅助药物研发的真实案例。这是AI对人类社会影响最深的一条线,但篇幅原因,今天没法展开。我们之后单独写。
评论区聊聊:你或孩子用AI,遇到过哪些"AI居然连这个都不会"的瞬间?


夜雨聆风