
作者 | 常棣
编辑 | 葛覃
2026年4月13日,斯坦福大学以人为本人工智能研究所(Stanford HAI)发布了《2026年人工智能指数报告》。这份长达423页的年度报告,被业界视为全球AI产业的"体检报告"。
如果你只记住一个数字,那应该是2.7%。
这是当前美国和中国在最顶尖AI模型性能上的差距。一年前,这个差距还在两位数;两年前,它超过300分。如今,中美AI已经进入了"贴脸肉搏"的时代。
但这不是故事的全部。在这份报告的海量数据背后,隐藏着三个更值得警惕的信号:钱在加速涌入,人在快速流走,而年轻人的饭碗正在被精准切掉。
中美贴脸:从"追赶"到"互换王座"
让我们把时间倒回2023年5月。那时,OpenAI的GPT-4以1320分的Arena评分领跑全球,而中国最强的ChatGLM-6B还落后300多分。那是一个"仰望"的时代。
2025年2月,DeepSeek-R1第一次与美国头部模型短暂打平。那一刻,很多人以为只是偶然。
到了2026年3月,美国的Claude Opus 4.6拿到1503分,中国的Dola-Seed-2.0-Preview拿到1464分。差距缩小到39分,换算成百分比,就是2.7%。
更重要的是换位频率。从2025年初开始,两国头部模型在Arena榜单上你来我往,已经换了好几次位置。
数量上同样接近五五开。2025年,美国发布了50个"显著模型",中国发布了30个。在全球TOP 5阵营里,OpenAI、谷歌、阿里、Anthropic、xAI同台站位,中美各占两席半。再往下看TOP 10,中国机构占了四席:阿里、DeepSeek、清华、字节。
价格层面是另一条战线。海外开发者在X上算过一笔账:Seed 2.0 Pro的输出价格大约只有Claude Opus 4.6的十分之一。性能贴脸,价格只要十分之一——这件事的连锁反应才刚刚开始。
如果只看论文、专利和工业机器人装机量,中国已经全面领先。报告显示,中国AI论文数量是美国的3倍,占全球总量的37%;AI专利数量全球第一;累计建成85台公共AI超算,是北美的两倍以上。
但美国仍然握有两张王牌:一是资本,二是生态。
5817亿美元砸向AI,但人才水龙头正在拧紧
2025年,全球企业AI投资达到5817亿美元,同比增长130%。其中私募投资3447亿美元,同比增长127.5%。两条曲线都几乎翻倍。
国别上,美国一骑绝尘。2025年美国私募AI投资2859亿美元,一年新增1953家AI创业公司,是排名第二的国家的10倍以上。
钱在加速涌向美国。但美国的另一项核心资源——人才,正在反向流动。
报告里有一组数字让人愣了一下:从2017年到现在,进入美国的AI研究人员和开发者数量下降了89%。更关键的是,这个下降在加速——仅仅过去一年,下降幅度就达到80%。
美国仍然是全球AI研究人员密度最高的国家,但流入的水龙头正在拧紧。签证政策收紧、生活成本飙升、地缘政治紧张……多重因素叠加,让"美国梦"对全球AI人才的吸引力大幅下降。

钱和人这两条曲线开始反向。这是过去十年没出现过的局面。
与此同时,中国职场AI使用率超过80%,远超全球58%的平均水平。这种"自上而下"的普及速度,让中国在应用层面积累了巨大的数据优势和场景优势。
锯齿前沿:AI能拿IMO金牌,却看不懂时钟
AI的能力在狂飙,但这种狂飙是不均匀的。研究者把这种现象命名为"锯齿前沿"(jagged frontier)。
最猛的曲线是编程。SWE-bench Verified这个真实修Bug的基准,一年时间从60%涨到接近100%。不是涨了几个点,是基本封顶。Terminal-Bench测试Agent处理真实终端任务的能力,从去年的20%涨到77.3%。网络安全Agent解决问题的成功率,从15%涨到93%。
Gemini Deep Think在国际数学奥林匹克(IMO)拿到金牌。PhD级科学问答(GPQA Diamond)、竞赛数学(AIME)、多模态推理(MMMU)这些原本被认为"人类不可超越"的硬骨头,全部被前沿模型啃了下来。
最能说明问题的是Humanity's Last Exam。这是一个专门被设计来"难倒AI、偏袒人类专家"的测试,题目由各个领域的顶尖专家提供。去年OpenAI的o1拿到8.8%,前沿模型在一年时间里把分数往上又推了30个百分点,目前Claude Opus 4.6和Gemini 3.1 Pro已经双双过了50%。
但同一份报告甩出了另一组数字:最强模型在"读模拟时钟"这个任务上的正确率,是50.1%。
机器人在实验室仿真环境(RLBench)里的操作成功率已经达到89.4%。但搬到真实家庭场景里完成洗碗、叠衣服这类家务,成功率立刻掉到12%。实验室和厨房之间,差了77个百分点。
在智能体任务中,OSWorld测试显示前沿AI实力(66.3%)正逼近人类基线。然而,在专门评估科研逻辑的PaperArena测试中,最强AI加持的Agent,得分仅39%,只有博士生一半的功力。
AI能在数学奥赛拿金牌,但只有一半的概率能看懂模拟时钟。AI在加速,但加速的不是同一个方向。
这种"偏科"现象揭示了一个残酷现实:我们引以为傲的"通用智能",可能只是一个幻觉。AI在某些领域已经超越人类,在另一些领域却连三岁小孩都不如。
22-25岁开发者的就业被切掉20%
AI抢饭碗这事儿已经从预测变成了现实,而且最先遭殃的就是当代年轻"打工人"。
报告显示,自2024年起,22-25岁软件开发者的就业率下滑了20%。入门岗位被精准切掉。
这不是因为年轻人不够优秀,而是因为AI已经把"初级程序员"的工作做得足够好。代码生成、Bug修复、单元测试、文档编写……这些曾经是新人练手的任务,现在AI可以在几秒钟内完成,而且质量更高。
企业对AI的采用率达到88%。九成的公司已经把AI接进了某个工作流。这意味着,未来招聘一个新员工时,雇主会问:"你能做AI做不了的事吗?"
这个问题的答案,对很多刚毕业的年轻人来说,并不乐观。
与此同时,AI相关事故记录从2024年的233起涨到362起。深度伪造、隐私泄露、算法歧视……技术跑得越快,留下的坑就越多。
央视最近曝光了一条AI"造黄"灰色产业链:9.9元就能买到教程,用主流生成式AI批量生成擦边视频。平台内容审核机制形同虚设,用户仅需几句经过隐晦处理的提示词就能绕过限制。
这个案例说明:当技术能力远超治理能力时,滥用几乎是必然的。
学术界退场,产业界封神
去年发布的95个最具代表性的模型里,超过九成都来自产业界,不是学术机构,也不是政府实验室。
光是2026年2月一个月,就有Gemini 3.1 Pro、Claude Opus 4.6、GPT-5.3 Codex、Grok 4.20、Qwen 3.5、Seed 2.0 Pro、MiniMax M2.5、GLM-5等八九个旗舰模型同月入场。
封神周期从"年"变成了"月"。这种加速的背后,是算力的指数级增长。从2021年到2024年,全球AI算力增长了30倍。英伟达独占60%的市场份额,几乎所有高端芯片都出自台积电一家之手。

算力命门集中在少数几家公司手里,这让整个AI产业变得异常脆弱。一旦供应链出现波动,或者地缘政治风险升级,整个行业都可能停摆。
好消息是,自研芯片正在打破垄断。Google TPU v5e、微软Maia 100、Meta MTIA v2等自研芯片正在分流市场需求。预计到2026年底,四大云厂商的自研芯片将占AI训练市场的35%。
黑箱化:95个模型里80个没有公开训练代码
最强模型越来越黑箱,在95个代表性模型里,80个没有公开训练代码。
这与开源生态的繁荣形成了鲜明对比。DeepSeek、Qwen、GLM、MiniMax、Kimi一路把开源权重的能力曲线往前推,开源vs闭源的差距从8%缩小到1.7%。
但"开源权重"不等于"开源训练"。你可以拿到模型参数,可以微调,可以部署,但你不知道它是怎么被训练出来的。这种"半透明"状态,让AI的可解释性和安全性变得更加难以保障。
英国央行、金融行为监管局和财政部最近为Claude Mythos Preview模型召开了紧急会议。各大银行、保险公司和交易所代表在两周内听取风险介绍。这是全球主要金融监管机构首次对单一AI模型召开此类会议。
一个AI模型能让英国央行级别的监管机构这么紧张,说明AI的能力已经引起了系统性风险的警觉。监管介入的速度可能会比预想的快。
我们该如何面对这个加速的世界?
回到开篇那个2.7%的数字。
中美AI差距缩小到2.7%,这既是中国科技崛起的证明,也是全球竞争白热化的信号。但比竞争更紧迫的,是我们如何在一个AI能力远超人类治理能力的时代,找到平衡点。
报告给出了一条核心结论:AI的本事涨得飞快,但人类衡量和管好它的能力,却没怎么跟上步伐。
当AI能在数学奥赛拿金牌,却看不懂模拟时钟;当它能写出完美代码,却让22岁的年轻人找不到工作;当它能生成逼真视频,却被用来制造色情内容——我们不得不承认:技术进步并不自动带来社会进步。
日本在斯坦福的另一份报告中呈现出一种不同的态度。在"AI是否是人类威胁"的问题上,仅有24.3%的日本人表示认同,44.3%明确否认。对于"自己的工作是否会被AI取代",超过半数的人给出了否定的回答。
日本人不焦虑,不是因为他们技术落后,而是因为他们选择了一种"体面转型"的模式。瑞穗金融计划削减5000个岗位,但不直接裁员,而是重新培训并调配到个人客户销售岗位。NTT预计五年后AI可完成半数业务,同样承诺通过再培训安置员工。
这种策略在效率叙事中常被讥为"低效",但它体现的是一种不同的时间观:技术变革的速度,不应该超越人的适应速度。
当一个社会积累了用安全网接住跌落者的经验,民众对技术冲击的恐惧自然会降低。
中国的兴奋度全球最高,担忧度全球最低,这种"乐观主义"既是动力,也可能是盲点。我们在AI论文数量、专利申请、算力建设上遥遥领先,但在AI立法和治理方面,全球排名几乎是倒数。
2026年的斯坦福AI指数报告,更像是一份警示录。它告诉我们,AI已经是"当下的现实"。这个现实既充满机遇,也布满陷阱。真正的挑战不在于AI能做什么,而在于我们想让它做什么,以及我们准备好为它的后果承担什么责任。
这个问题,没有标准答案。但每一个身处其中的人,都必须给出自己的回答。

The End
夜雨聆风