有段时间和朋友还在聊,各个AI使用后的感受,现在斯坦福出具423页报告,最新的数据是:AI在国际数学奥赛上能拿金牌,但你要它看一眼墙上的钟、告诉你现在是几点——它有一半概率会答错。
报告里有一张经典图,把AI和人类放在不同任务上PK:
任务 AI表现 人类基线 谁赢?
图像分类(ImageNet) >95% 约90% ✅ AI
视觉推理(VQA) >85% 约80% ✅ AI
英语理解(SuperGLUE) >90% 约87% ✅ AI
多任务语言理解(MMLU) >90% 约89% ✅ AI
竞赛级数学(MATH) >80% 约60% ✅ AI
博士级科学问题(GPQA) 78% 67% ✅ AI
多模态理解(MMMU) ~70% ~85% ❌ 人类
读钟表(ClockQA) 50% 90% ❌ 人类完胜
叠衣服洗碗(OSWorld) 12% ~80% ❌ 人类碾压
自主软件工程(SWE-bench) ~30% ~70% ❌ 人类

看个模拟时钟(ClockQA):最牛的模型准确率只有50%,人类能到90%。
叠衣服、洗碗(OSWorld):AI成功率12%
AI在“坐着的脑力活”上已经超越人类——考试、读论文、写代码片段。但一旦涉及到“看世界、动手、理解物理常识”就不如人意了。

截至2026年3月,顶级模型在Arena排行榜上:
· 美国Anthropic Claude Opus 4.6:1503分
· 字节Dola-Seed 2.0:1464分
· 差距仅39分,2.7%
再往前翻,2025年2月DeepSeek-R1曾短暂追平美国模型。双方已经进入“交替领先”状态

· 美国私人AI投资:2859亿美元
· 中国私人AI投资:124亿美元
· 美国是中国的23倍。
但是只看私人投资严重低估了东大的真实投入。自2000年以来,东大政府引导基金累计向AI公司注入约1840亿美元。
白头鹰是“资本砸模型”,东大是“工程搞落地”——路子不一样,钱的效率也不一样。
工业机器人安装量:2024年中国29.5万台,美国3.4万台,中国是美国的8.7倍。
AI论文、专利、被引次数:中国已全球第一。
报告里有一张图叫“顶级AI作者和发明家的净流动”(2010-2025):

· 美国:净流入,但增速放缓。
· 中国:净流入,而且近几年明显加速。
· 印度、以色列、瑞士:也是净流入。
· 英国、德国、法国:净流出(人才被美国和中国吸走)。
全球最聪明的那拨AI脑袋,正在往中美两国扎堆。
报告里还有一个有意思的对比:单智能体 vs 多智能体。

同一个任务,让一个AI干,和让多个AI合作干
结果多智能体平均提升5-10个百分点。
比如在某个推理测试中,单智能体得分30%,多智能体干到37%。所以我们有句古话:三个臭皮匠顶个诸葛亮,在AI圈也成立。
未来不是“一个超级AI统治世界”,而是一群AI各干各的、互相配合
而且开源模型越来越多。
· 2014年:只有2个开源模型。
· 2025年:14个开源模型(加上限制性开源,共20+)。
但坏消息:透明度依然很差。

报告给一堆模型打了“透明度分”:包括训练数据、代码、方法是否公开
反正大多数模型,想看它的训练数据还是比较难,学术界的可复现性,目前还难做到
我们看看各国的AI电力需求(千兆瓦):
· 美国数据中心(不含加密货币):44,000兆瓦(即44吉瓦)
· 法国:43,000兆瓦(几乎追平美国?这个数据存疑,可能是笔误?实际法国没那么高。但报告这么写,咱们照说)
· 英国:29,000兆瓦
· 比特币挖矿:18,000兆瓦
· 荷兰、芬兰、奥地利等也在几千到一万不等。
一个直观对比:美国数据中心的耗电量,已经超过纽约市全城用电。训练一个大模型,排放的二氧化碳相当于一辆燃油车绕地球开500圈。

这也是为什么微软、谷歌开始重启核电站
报告问了美国成年人和AI专家同一个问题:“未来20年,AI会对以下领域产生积极影响吗?”
领域 成年人(%积极) 专家(%积极) 差距
医疗护理 44% 84% +40%
K-12教育 61% 73% +12%
工作方式 69% 21% -48%
经济 48% 69% +21%
艺术娱乐 36% 49% +13%
环境 32% 19% -13%
刑事司法 10% 18% +8%
新闻 9% 8% -1%
选举 7% 11% +4%
个人关系 2% 7% +5%
最离谱的差距出现在“工作方式”:69%的成年人觉得AI会让工作变得更好,但只有21%的专家这么认为。专家们更担心AI砸饭碗,而普通人还意识不到。
另一个有意思的:医疗领域,专家极其乐观(84%),普通人却只有44%

报告追踪了“高AI暴露度”岗位的早期职业(22-25岁)就业人数变化(2021-2025):
趋势线一路向下。到2025年,这些岗位的就业人数比2021年少了大约15-20%。

哪些岗位?数据标注、基础编程、客服、翻译、初级设计……重复性、低创造力的白领工作,正在被AI悄悄吃掉。
年轻人刚毕业就发现,原来能干的活,现在AI干得更快更便宜。
不过新岗位也在出来
提示词工程师、AI训练师、模型微调师、AI合规官……只不过这些岗位需要的技能,大学里还没教。
斯坦福这份423页的报告,用几百张图表告诉我们三件事:
1. 技术层面,中美已贴身肉搏。当然国家层面的博弈和比拼如火如荼,但是我和身边好些朋友的使用对比,目前差距还是挺明显的,也可以说各有不同侧重点吧。
2. AI很强,但在一些反而类似读懂闹钟的领域,还不如人类,那些我们人文关怀的角度,可能就藏着我们未来的机会。
3. 商业层面,烧钱也只剩下5%的头部玩家,才是真正把AI嵌进业务流程的狠人。
AI基建我们普通人肯定是很难参与,但是产业层面,有什么可以进去的机会,和细分领域,是我们自己可以思考的部份
对于公司老板,别上来就“公司全面AI化”。先找一个最痛的业务场景,用最小的成本试。场景驱动,别技术驱动。
我相信有一部份人对于ai还不会那么熟练使用,学会用AI工具,会用AI的人,高质量的去用。
多看看那些能把AI变成真金白银的行业应用公司。投资人在初期参与的话,未来可以吃到红利。不过这个也考验你的眼光。
报告比较长,有兴趣的可以自己去读一读原报告:
全文地址:https://hai.stanford.edu/ai-index/2026-ai-index-report
(以上内容根据斯坦福大学《2026 AI指数报告》及相关图表整理,数据截至2026年4月。)
关注我,点赞分享,一起进步!👇
夜雨聆风