全球AI圈每年最期待的报告新鲜出炉,我们做了深入浅出的解读,让孩子看见正在如何改变世界

每年4月，全球AI圈都等斯坦福这份报告。

报告叫 AI Index，由美国斯坦福大学以人为本人工智能研究院（HAI）发布，从2017年至今，每年一本。它不下结论、不推产品，只把过去一年AI行业的所有数据系统地摆在你面前——模型性能、人才流向、投资规模、专利、学生使用率、各国采用率、AI事故、公众态度……

业内的评价是：这是AI最权威的年度体检。

2026年版，正文400多页，新增了一个"科学"章节，专门讲AI对科研的冲击。

我们把它读完，从7个角度，告诉你AI过去一年到底发生了什么。

一、AI能在国际数学奥赛拿金牌，看钟表却只有一半准

报告里有一个新词——锯齿形前沿（jagged frontier）。意思是AI的能力发展极不均匀。一边是天花板级别的突破，一边是连小学生都能做对的事它做不好。

最强的反差：

Google的 Gemini Deep Think，2025年拿下了国际数学奥林匹克（IMO）金牌——和全球最聪明的高中生一起做题，进了金牌区。要知道，IMO的题在普通数学博士眼里也是难的。

但同样的顶级模型，让它读模拟钟表（就是带指针的那种），准确率只有 50.1%。一半的时间在猜。

这不是Gemini一家的问题。报告测了所有顶级模型，在结构化基准测试上，平均失败率仍有 33%——也就是说，它们能解奥赛题，但你给它一个稍微"不按套路出牌"的任务，三次里有一次会出错。

对家长的意义：不要被"AI已经能做X"这种新闻吓到，也不要被"AI连Y都不会"这种段子骗到。AI的能力是参差不齐的，得具体场景具体看。

二、AI写代码，一年从60分到接近100分

如果说2024年的AI还是"能给你写一段代码、但你得改"，到了2025年底，它已经能完成大部分软件工程任务。

衡量AI写代码能力最权威的基准叫 SWE-bench，由普林斯顿团队2023年提出。它模拟真实软件工程师的工作——拿到一个GitHub上的真实bug，AI要看懂代码库、定位问题、写出补丁。一年之间，顶级模型在这个基准上的成绩从 60% 跳到接近 100%。

顺便说一句，SWE-bench的核心作者之一是 姚顺雨——清华姚班毕业、普林斯顿博士、27岁成为腾讯首席AI科学家。今天ChatGPT能"自己上网搜资料、自己操作电脑"的底层方法（ReAct框架、SWE-agent），都是他在普林斯顿那几年做出来的。我们之前写过他的故事 →

姚顺雨：NOI银牌没保送，高考安徽第3进姚班，27岁成腾讯首席AI科学家

另一个测试 OSWorld，让AI在真实电脑上完成任务——订机票、改文档、做Excel表格、查信息。一年时间，成功率从 12% 涨到 66%。

这背后是过去一年最被低估的变化：AI从"答问题"，转向了"做事"。

"软件工程师不会失业，但不用AI的工程师会被用AI的工程师取代。" ——英伟达黄仁勋

这话对家长意味着什么？编程依然要学，但学法变了。光会写语法、背算法不够——能不能把问题想清楚、能不能指挥AI干活、能不能审查AI的输出，才是新一代工程师的核心能力。斯坦福今年新开的 CS146S 课，全名"现代软件开发者"，整门课不让学生手写代码，专教这套能力。

3位IOAI美国队选手选择的斯坦福，开了一门禁止人工手写代码的编程课

三、中美AI差距，已经只剩2.7%

2025年1月，DeepSeek-R1 发布，第一次在主流测试上对标了美国顶级模型。从那时起，中美顶级模型在基准测试上多次互换领先。

到2026年3月，差距只剩 2.7%。

但中国的优势，不只是追上了模型性能：

• AI论文数量：全球第一

• AI论文引用：全球第一

• AI专利产出：全球第一

• 工业机器人装机量：全球第一

美国还领先的部分，主要是顶级模型的产出数量（90% 以上的前沿模型来自美国公司）、以及高影响力专利的密度。

但有一个底层事实，AI的"双中心"格局其实站在第三方的肩膀上：几乎所有最先进的AI芯片，都由台湾的台积电（TSMC）代工。这不是中美能短期改变的事，台积电2025年才在美国本土开始量产。

另外提一个数据，韩国的人均AI专利密度，全球第一。

四、钱和速度：美国一年砸了2,859亿，AI普及比互联网还快

资本层面，中美投资规模仍然差着量级。

2025年美国AI私人投资 2,859亿美元，中国 124亿美元——美国是中国的23倍。

但要注意：中国大量AI投资走政府引导基金，没算进"私人投资"这一栏。如果把政府投入算上，差距会小很多，只是数字不透明。

新创公司：美国2025年新增 1,953家 AI创业公司，是排名第二的国家的10倍以上。

美国还有一个让人吃惊的数字——5,427个数据中心，超任何其他国家10倍。AI不只是"算法竞赛"，还是"耗电竞赛"。

至于AI在普通人中的普及速度，比PC、比互联网都快。生成式AI在三年内达到了 53% 的人口采用率。但这个数字在不同国家差别很大：

新加坡61%

阿联酋54%

美国28.3%（全球排名第24）

为什么AI发源地的美国，采用率反而靠后？报告认为，越是新兴市场和小国，越愿意把AI当成弯道超车的工具——大国惯性大、监管多、利益方多，反而走得慢。

中国不在报告的统计国家里（数据采集方法的限制），但DeepSeek、字节豆包、阿里通义这些产品的实际用户规模，业界普遍估计中国的人均AI使用强度，已经在全球第一梯队。

五、学生在用AI，学校还没准备好

这是这份报告里和家长最直接相关的一组数据。

美国的情况：

• 超过 80% 的高中生和大学生，用AI完成学校作业

• 只有 50% 的中小学制定了AI使用政策

• 只有 6% 的老师认为本校的AI政策足够清晰

学生跑得比学校快——而且快得多。

更值得注意的是博士培养的趋势变化。过去十年，美国和加拿大新增的AI博士越来越多去工业界（Google、Meta、OpenAI给的钱比大学多得多）。但 2022到2024年，这个趋势出现了反转——更多新博士选择留在学术界。

为什么？一种解释是，工业界的AI研究越来越封闭（不再发论文、不公开数据），让追求学术声誉的人觉得不值。另一种解释是，工业界的AI岗位竞争已经激烈到学术界的工资变得有竞争力。

不管哪种，这是一个信号：AI最聪明的脑子流向哪里，正在重新洗牌。

还有一个统计，AI技能增长最快的国家，不是美国和中国，而是阿联酋、智利、南非——这三个国家AI工程岗位招聘的增长率，过去一年位列全球前三。

六、AI事故一年涨了55%

AI变强的同时，AI出问题的频率也在涨。

报告统计的AI事件（包括误判、幻觉造成的真实损失、模型行为失控、安全漏洞、隐私事件等等），从2024年的 233起，涨到2025年的 362起。一年涨了 55%。

更让人担心的是，报告指出：大多数前沿模型开发者会公开报告性能基准（"我家模型比上一代强多少"），但负责任AI（Responsible AI）的基准报告很不完整。也就是说，"它能做什么"被反复宣传，"它哪里不安全"基本不说。

报告还点出了一个"权衡困境"：在很多场景下，让模型更安全（比如拒绝危险请求）会让它在其他维度变差（比如准确率下降）。开发者往往选择牺牲安全去换性能，因为性能能直接转化成用户和收入。

对家长的意义：不要把孩子能用的AI产品默认当"安全的工具"。它是工具，但是会出错的、有偏见的、能被诱导的工具。让孩子用AI之前，先教他对AI的输出保持基本怀疑。

七、专家和公众，对AI看法差了50个百分点

报告做了一个全球调研。同一个问题——"AI会让工作变得更好吗？"

AI专家的答案：73% 认为会。

普通公众的答案：23% 认为会。

差了 50个百分点。

这不是个别问题。在AI对经济、对医疗、对教育的影响判断上，都出现了类似量级的分歧。专家普遍乐观，公众普遍担忧。

最值得注意的，是公众对政府监管AI的信任度。在受访的多个发达国家中，美国公众对本国政府监管AI的信任度只有 31%——AI的发源地，公众对自己政府的不信任最深。

更意外的是，在多国公众眼中，欧盟比美国和中国都更值得信任。欧盟2024年通过的《AI法案》，被认为是目前全球最系统的AI监管框架。中国2023年发的《生成式人工智能服务管理暂行办法》在国内执行，国际公众感知度低。

这个数据揭示了一个尴尬的现实：AI产业最强的国家，公众对它最不放心。AI产业相对落后的欧盟，反而靠"管得住"赢得了信任。

报告今年新加了一个"科学"章节，专门讲AI在科研中的应用——从陶哲轩用AI辅助证明数学定理，到AlphaFold之后的蛋白质设计、到AI辅助药物研发的真实案例。这是AI对人类社会影响最深的一条线，但篇幅原因，今天没法展开。我们之后单独写。

评论区聊聊：你或孩子用AI，遇到过哪些"AI居然连这个都不会"的瞬间？

IOI2026国家队选拔第一名的他，IOAI国际人工智能奥赛也拿到了银牌

当年的IOI中国国家队成员，20年后过得怎么样？

IOAI人工智能奥赛获奖选手，被哪些世界顶尖大学抢走了？

NOAI人工智能奥赛与5大奥赛齐名，却不在白名单，还值得孩子花时间吗？

数学和信息学双料奥赛金牌邓明扬，最近一篇顶会论文让AI圈炸了

我们从2018年开始关注青少年AI竞赛

见证了NOAI从无到有

这里为你拆解这个赛事的每一个关键问题

欢迎关注公众号~

👇NOAI复赛集训开始招募

👇加入NOAI学习交流群

👆消除信息壁垒、少走弯路

👆获取往届真题、比赛资源

👆链接牛娃家长、抱团互助