斯坦福423页报告:AI能考博士,却看不懂闹钟?差距2.7%,但95%企业陪跑

有段时间和朋友还在聊，各个AI使用后的感受，现在斯坦福出具423页报告，最新的数据是：AI在国际数学奥赛上能拿金牌，但你要它看一眼墙上的钟、告诉你现在是几点——它有一半概率会答错。

报告里有一张经典图，把AI和人类放在不同任务上PK：

任务 AI表现人类基线谁赢？
图像分类（ImageNet） >95% 约90% ✅ AI
视觉推理（VQA） >85% 约80% ✅ AI
英语理解（SuperGLUE） >90% 约87% ✅ AI
多任务语言理解（MMLU） >90% 约89% ✅ AI
竞赛级数学（MATH） >80% 约60% ✅ AI
博士级科学问题（GPQA） 78% 67% ✅ AI
多模态理解（MMMU） ~70% ~85% ❌ 人类
读钟表（ClockQA） 50% 90% ❌ 人类完胜
叠衣服洗碗（OSWorld） 12% ~80% ❌ 人类碾压
自主软件工程（SWE-bench） ~30% ~70% ❌ 人类

看个模拟时钟（ClockQA）：最牛的模型准确率只有50%，人类能到90%。

叠衣服、洗碗（OSWorld）：AI成功率12%

AI在“坐着的脑力活”上已经超越人类——考试、读论文、写代码片段。但一旦涉及到“看世界、动手、理解物理常识”就不如人意了。

截至2026年3月，顶级模型在Arena排行榜上：

· 美国Anthropic Claude Opus 4.6：1503分
· 字节Dola-Seed 2.0：1464分
· 差距仅39分，2.7%

再往前翻，2025年2月DeepSeek-R1曾短暂追平美国模型。双方已经进入“交替领先”状态

在AI上面，钱花得比例如何？

· 美国私人AI投资：2859亿美元
· 中国私人AI投资：124亿美元
· 美国是中国的23倍。

但是只看私人投资严重低估了东大的真实投入。自2000年以来，东大政府引导基金累计向AI公司注入约1840亿美元。

白头鹰是“资本砸模型”，东大是“工程搞落地”——路子不一样，钱的效率也不一样。

东大靠“工程落地”和“工业场景”：

工业机器人安装量：2024年中国29.5万台，美国3.4万台，中国是美国的8.7倍。

AI论文、专利、被引次数：中国已全球第一。

报告里有一张图叫“顶级AI作者和发明家的净流动”（2010-2025）：

· 美国：净流入，但增速放缓。
· 中国：净流入，而且近几年明显加速。
· 印度、以色列、瑞士：也是净流入。
· 英国、德国、法国：净流出（人才被美国和中国吸走）。

全球最聪明的那拨AI脑袋，正在往中美两国扎堆。

报告里还有一个有意思的对比：单智能体 vs 多智能体。

同一个任务，让一个AI干，和让多个AI合作干

结果多智能体平均提升5-10个百分点。

比如在某个推理测试中，单智能体得分30%，多智能体干到37%。所以我们有句古话：三个臭皮匠顶个诸葛亮，在AI圈也成立。

未来不是“一个超级AI统治世界”，而是一群AI各干各的、互相配合

而且开源模型越来越多。

· 2014年：只有2个开源模型。
· 2025年：14个开源模型（加上限制性开源，共20+）。

但坏消息：透明度依然很差。

报告给一堆模型打了“透明度分”：包括训练数据、代码、方法是否公开

反正大多数模型，想看它的训练数据还是比较难，学术界的可复现性，目前还难做到

我们看看各国的AI电力需求（千兆瓦）：

· 美国数据中心（不含加密货币）：44,000兆瓦（即44吉瓦）
· 法国：43,000兆瓦（几乎追平美国？这个数据存疑，可能是笔误？实际法国没那么高。但报告这么写，咱们照说）
· 英国：29,000兆瓦
· 比特币挖矿：18,000兆瓦
· 荷兰、芬兰、奥地利等也在几千到一万不等。

一个直观对比：美国数据中心的耗电量，已经超过纽约市全城用电。训练一个大模型，排放的二氧化碳相当于一辆燃油车绕地球开500圈。

这也是为什么微软、谷歌开始重启核电站

报告问了美国成年人和AI专家同一个问题：“未来20年，AI会对以下领域产生积极影响吗？”

领域成年人（%积极）专家（%积极）差距
医疗护理 44% 84% +40%
K-12教育 61% 73% +12%
工作方式 69% 21% -48%
经济 48% 69% +21%
艺术娱乐 36% 49% +13%
环境 32% 19% -13%
刑事司法 10% 18% +8%
新闻 9% 8% -1%
选举 7% 11% +4%
个人关系 2% 7% +5%

最离谱的差距出现在“工作方式”：69%的成年人觉得AI会让工作变得更好，但只有21%的专家这么认为。专家们更担心AI砸饭碗，而普通人还意识不到。

另一个有意思的：医疗领域，专家极其乐观（84%），普通人却只有44%

报告追踪了“高AI暴露度”岗位的早期职业（22-25岁）就业人数变化（2021-2025）：

趋势线一路向下。到2025年，这些岗位的就业人数比2021年少了大约15-20%。

哪些岗位？数据标注、基础编程、客服、翻译、初级设计……重复性、低创造力的白领工作，正在被AI悄悄吃掉。

年轻人刚毕业就发现，原来能干的活，现在AI干得更快更便宜。

不过新岗位也在出来

提示词工程师、AI训练师、模型微调师、AI合规官……只不过这些岗位需要的技能，大学里还没教。

斯坦福这份423页的报告，用几百张图表告诉我们三件事：

1. 技术层面，中美已贴身肉搏。当然国家层面的博弈和比拼如火如荼，但是我和身边好些朋友的使用对比，目前差距还是挺明显的，也可以说各有不同侧重点吧。

2. AI很强，但在一些反而类似读懂闹钟的领域，还不如人类，那些我们人文关怀的角度，可能就藏着我们未来的机会。

3. 商业层面，烧钱也只剩下5%的头部玩家，才是真正把AI嵌进业务流程的狠人。

AI基建我们普通人肯定是很难参与，但是产业层面，有什么可以进去的机会，和细分领域，是我们自己可以思考的部份

对于公司老板，别上来就“公司全面AI化”。先找一个最痛的业务场景，用最小的成本试。场景驱动，别技术驱动。

我相信有一部份人对于ai还不会那么熟练使用，学会用AI工具，会用AI的人，高质量的去用。

多看看那些能把AI变成真金白银的行业应用公司。投资人在初期参与的话，未来可以吃到红利。不过这个也考验你的眼光。

报告比较长，有兴趣的可以自己去读一读原报告：

全文地址：https://hai.stanford.edu/ai-index/2026-ai-index-report

（以上内容根据斯坦福大学《2026 AI指数报告》及相关图表整理，数据截至2026年4月。）

关注我，点赞分享，一起进步！👇