
斯坦福最新AI指数报告释放重磅信号:中美AI模型性能差距已被几乎抹平,高达88%的企业已悄然“抢跑”。但这只是冰山一角,翻开这份报告,一幅关于未来的真实图景正在浮现:过去一年,AI究竟把我们推向了怎样的世界?
2025年,支撑AI发展的资源持续增长,但发布的知名模型数量较前一年有所减少,前沿领域的技术系统也愈发集中在少数机构手中。如今行业占比超过90%的知名AI模型,而性能最强的系统同时也是透明度最低的,其训练代码、数据集规模和参数数量的公开程度愈发降低。自2022年以来,这些模型背后的算力每年约增长3.3倍,但几乎所有算力都依赖中国台湾的一家芯片代工厂,这使得全球硬件供应链十分脆弱。美国在顶尖模型方面领先,中美模型性能差距在显著缩小,基本“抹平”。中国目前在发表论文数量、引文占比和专利授权量方面位居前列,而瑞士、新加坡等小国则在人均AI研究人员数量上领先。
以下是核心要点:
1. AI能力正在加速发展,并惠及比以往更多的人群

2025年,超过90%的知名前沿模型由行业开发,其中部分模型在博士级科学问题、多模态推理及竞赛数学领域已达到或超越人类基准水平。在关键编程基准测试——SWE-bench Verified中,性能在短短一年内从60%跃升至接近100%。企业采用率达到88%,五分之四的大学生现在使用生成式AI。
2. 中美两国AI模型性能差距已基本“抹平”
自2025年初以来,中美两国的AI模型多次交替领先。2025年2月,DeepSeek-R1曾短暂追平美国顶尖模型,截至2026年3月。在斯坦福大学追踪的基准测试中,Anthropic的顶尖模型比表现最佳的中国模型领先2.7%。
美国仍产出更多顶尖AI模型和影响更大的专利,而中国在论文发表量、被引用次数、专利产出及工业机器人安装量方面处于领先地位。韩国在创新密度方面表现突出,人均AI专利数量位居世界第一。

3. 前沿AI模型性能趋于收敛
过去一年,前沿模型的差距进一步缩小,顶级模型的表现正趋于一致,在竞技场排行榜和基准测试中,经人类投票相互评分时,目前有4家公司的Elo评分(借鉴国际象棋评分体系)差距控制在25分以内。截至2026年3月,Anthropic(1503分)、xAI(1495分)、谷歌(1494分)、OpenAI(1481分)、阿里巴巴(1449分)和深度求索(1424分)均位居竞技场Elo评分的第一梯队,竞争压力也随之转向成本、可靠性和领域特定性能方面。

2023年初,OpenAI凭借其顶级模型1322分的成绩占据明显领先优势,而谷歌当时仅为1117分。2024年全年,这一差距持续收窄,谷歌、Anthropic等公司相继推出性能更强的模型。截至2025年2月,深度求索(DeepSeek)曾短暂追平并超越了美国竞技场排名前列的模型。去年的报告中,排名前四的模型分差约为97分,而到2026年3月,前四名模型的分差已不足25分。
4. AI模型能在国际奥数竞赛中摘得金牌却无法准确报时
Gemini Deep Think在国际数学奥林匹克竞赛中斩获金牌,但该顶尖模型正确读取指针式时钟的准确率仅为50.1%。在测试跨操作系统真实计算机任务的OSWorld平台上,AI代理的任务成功率从12%跃升至约66%,但在结构化基准测试中,其失败率仍高达三分之一。

尤其在机器人领域,尽管机器人在受控环境中表现出色,但在大多数家务任务上仍表现不佳。机器人仅能完成12%的家务任务,这凸显了AI距离掌握物理世界还有很大差距。在RLBench平台上,基于软件模拟的机器人操作成功率已达到89.4%,但可预测的实验室环境与不可预测的家庭环境之间存在巨大差距。
5. 负责任的AI未能跟上AI能力发展的步伐,安全基准测试滞后
几乎所有领先的前沿AI模型开发者都会报告能力基准测试的结果,但关于负责任AI基准测试的报告仍不完整。已记录的AI事件从2024年的233起上升至362起。更具挑战性的是,最新研究发现,改善一个负责任AI维度(如安全性)可能会导致另一个维度(如准确性)的下降。

6. 美国在AI投资方面处于领先地位,但其吸引全球人才的能力正在下降
2025年,美国私营AI投资达到2859亿美元,是中国的124亿美元投资额的23倍以上——仅看私营投资数据可能会低估中国的总AI支出,因为中国还有政府指导基金。在创业活动方面,美国同样处于领先地位,2025年获得新融资的AI公司达1,953家,是排名第二国家的10倍以上。然而,自2017年以来,移居美国的AI研究人员和开发人员数量下降了89%,仅去年一年就减少了80%。

7. AI加速普及,普及速度超过互联网
生成式AI在三年内的普及率达到了53%,这一速度超过了个人电脑和互联网。各国的普及率差异巨大,且与GDP高度相关,不过有一些国家的普及率超出了其收入水平所对应的预期,其中新加坡达61%,阿联酋达54%。尽管美国在AI投资和模型开发方面处于领先地位,但其普及率仅为28.3%,位列第24位。

8. 企业AI采用率达88%,AI加剧就业影响
2025年,企业对AI的采用在使用场景和功能上均持续拓展。绝大多数受访者表示其所在企业至少在一项业务职能中应用了AI,这一比例从2024年的78%升至2025年的88%。超过一半的受访者表示至少有三项业务职能在利用AI。生成式AI的应用也呈现出同样的增长态势,79%的受访者称其所在企业至少在一项业务职能中常规使用生成式AI,2024年这一比例为71%。各地区均出现了AI应用范围扩大的情况,不过增长速度有所不同。中国和欧洲的AI企业应用率同比增幅更高,分别提升了13%和11%。

AI对劳动力市场的影响正不均衡地显现,集中体现在招聘流程以及年轻劳动者身上。2024年以来,22至25岁软件开发人员的就业率下降了近20%。雇主调查显示未来还将有进一步变化,三分之一的受访者预计未来一年将进行裁员。
三分之一的企业预计未来一年AI将缩减其员工规模,尽管整体就业数据中尚未出现大规模裁员现象。近一半的受访企业预期员工数量几乎没有变化。预计裁员比例最高的领域是服务运营、供应链和软件工程。在几乎所有职能部门中,预期的裁员人数都超过了实际裁员人数。
9. AI专家与公众对该技术未来的看法存在显著差异
在AI对工作方式的影响方面,73%的专家预期其将产生积极影响,而公众中持此观点的仅占23%,两者存在50%的差距。在AI对经济和医疗保健的影响方面,也出现了类似的分歧。在全球范围内,对政府监管AI能力的信任度各不相同。在受访国家中,美国民众对其政府监管AI能力的信任度最低,仅为31%。在全球范围内,相比美国或中国,欧盟在有效监管AI方面更受信任。

10. AI对环境的影响在不断扩大
AI的环境足迹正随着其能力的提升而不断扩大。该报告估计,训练最新一代的大型语言模型(如xAI的Grok 4)可产生超过72,000吨的碳排放,这一数字较往年估算值大幅攀升。AI推理产生的排放量也在持续增加,尽管不同模型的结果存在差异。报告估计,推理效率最低的模型产生的碳排放量是效率最高模型的10倍以上。AI数据中心的电力容量已升至29.6吉瓦,与纽约州的峰值用电需求相当,而仅GPT-4o每年的推理用水量就可能超过1200万人的饮用水需求。
11. 模型透明度正在下降
报告指出AI模型透明度正呈现令人担忧的下降趋势。OpenAI、Anthropic和谷歌已停止披露其最先进模型的训练数据集规模、参数数量及训练时长。在2025年发布的95个最具影响力的AI模型中,有80个未公开训练代码。如今,性能最强的模型反而成为该领域透明度最低的系统。
报告链接:https://hai.stanford.edu/assets/files/ai_index_report_2026.pdf

以为能躺赚,结果“养虾”变成了“养雷”,第一批“养虾人”已经失眠了……
DeepSeek被针对,Anthropic指控三家中国AI蒸馏剽窃,马斯克硬刚“贼喊抓贼”!
明明大厂裁员滚滚,为什么运维还这么难招?
在 SQL 中写了 in 和 not in,技术总监让我明天不用来了
年底了!系统稳如狗,甲方觉得我们没工作量,怎么收运维费?
为什么DeepSeek火之后,人们想到的是大量裁员,而不是实行上三休四?
《AI数据分析之ChatBI发展与应用实践》白皮书(附下载)正式上线啦
号外!《核心系统分布式数据库选型指南》电子书(附下载)正式上线
解锁数据架构现代化密码,《实时数仓选型指南》电子书(附下载)正式上线啦
夜雨聆风