2026年4月,斯坦福大学以人为本人工智能研究所(Stanford HAI)发布了第九版《AI指数报告》。
423页,九大维度,数据密集。
但整份报告里,最刺眼的一组数字只有两行:
AI Agent在OSWorld基准测试中的成功率:18个月前:12%2026年3月:66.3%人类表现:约72%差距:仅6个百分点。
第一部分:66%意味着什么?
先说OSWorld是什么。
OSWorld是一个模拟真实计算机操作环境的基准测试。它要求AI Agent完成日常生活中真实存在的任务:
• 打开浏览器搜索信息并整理成文档 • 在Excel中处理数据并生成图表 • 配置系统设置、安装软件、管理文件 • 跨应用协作(比如在邮件、浏览器、文档之间切换完成任务)
这些任务看起来简单,但对AI来说极难——因为它们要求模型理解操作系统界面、规划多步操作、在出错时自我纠正。
18个月前,AI在这类任务上的成功率只有12%。
也就是说,每8次尝试,AI只能完成1次。基本等于"不能用"。
2026年3月,这个数字变成了66.3%。
每3次尝试,能成功2次。已经接近"可以交付"的门槛。
而人类的表现,大约是72%。
6个百分点的差距。按当前增速,2026年年底之前,AI Agent在OSWorld上的表现将超越人类。

第二部分:不只是OSWorld
如果把视野拉宽,同类的数字在多个基准上同时出现:
| +54.3pp | |||
| +78pp | |||
| +53.6pp |
网络安全任务的成功率从15%飙到93%——这个数据比OSWorld更值得警惕。
因为网络安全的93%不是"接近人类",而是已经大幅超越绝大多数人类专家的水平。
这意味着:AI在"找漏洞"这件事上,已经比地球上99%的人类更厉害。
第三部分:为什么是现在?
这个拐点不是某一个技术突破导致的,而是三个趋势同时到达临界点:
① 大模型上下文长度爆炸式增长
2024年初,主流模型的上下文窗口大约是12.8万tokens。2026年中,这个数字是100万~200万tokens。
上下文变长,意味着Agent可以在"记忆"中保留更完整的任务状态,不再因为遗忘而中途失败。
② 多模态理解能力成熟
早期的Agent只能"读文字"。现在的Agent可以"看屏幕"——截图、理解UI元素、判断下一步该点哪里。
这是OSWorld类任务成功率飙升的核心技术原因。
③ Agent框架从"研究原型"走向"工程产品"
2025年,Claude Code、GitHub Copilot Agent、OpenAI Codex等产品的集中发布,让Agent从实验室走向真实用户桌面。
真实用户的使用反馈,又在以周为单位迭代模型能力。
这三个趋势叠加,才出现了12%→66%的跃升。
第四部分:斯坦福报告里的另外两组数字
把Agent成功率放在整份报告里看,还有两组数字值得放在一起读:
第一组:AI对就业的影响已经开始显现
报告显示:美国22~25岁软件开发人员就业率,在AI大范围使用后下降了近20%。
注意:这不是预测,这是已经发生的数据。
第二组:教育严重滞后
报告显示:80%的学生在用AI,但只有6%的教师认为学校的AI使用政策是"清晰"的。
也就是:年轻一代正在用AI重塑自己的学习方式,但教育系统还不知道该如何回应。
第五部分:距人类6%,然后呢?
66.3%的成功率,距人类差6个百分点。
但这6个百分点的含义,可能跟很多人想的不一样。
人类的72%并不是上限,而是"平均水准"。
OSWorld的人类基线数据,来自一群经过简短培训的正常人,不是专家。如果让IT专业人员来做同样的任务,成功率可能是95%以上。
所以更准确的表述是:
AI Agent已经达到"普通办公室员工"的水准,距"熟练员工"还有明显差距。
这个差距,按当前增速,可能在12~18个月内消失。
第六部分:这对普通人意味着什么
把上面所有数据落地到个人层面,有三点值得认真想:
第一:重复性计算机操作任务,2026年内就会被Agent大规模替代。
不只是"可能会被替代",而是"正在被替代"。如果你每天的工作内容是:打开某个系统→导出数据→整理成表格→发送给某人——这类工作,2026年年底之前就会有可商用的Agent能做到。
第二:Netflix问题比失业更先到来。
斯坦福报告里有一个细节:AI用得越多的人,越焦虑。不是因为失业,而是因为"AI能做越来越多的事,但我不知道自己还应该做什么"。
这比失业更普遍,也更难应对。
第三:会"用AI"与会"管AI",是两种完全不同的能力。
66%的成功率意味着Agent已经"基本可用",但剩下的34%失败案例,往往需要人类介入才能解决。
未来最有价值的能力,不是"我会做某事",而是"我知道AI什么时候会失败,以及失败后怎么修"。

结语:6个百分点的意义
斯坦福报告里,关于Agent的这组长尾数据,被埋在423页的第7章。
但它可能是整份报告里最重要的6个百分点。
因为当AI距人类只差6个百分点的时候,它已经足够好到被大规模部署,又足够差到需要人类在关键时刻介入。
这个距离——介于"能用"与"完美"之间——才是AI真正改变世界的方式。
不是某个早晨醒来AI突然超越人类。
而是AI先到66%,然后到80%,然后到95%——每一步都足够改变一些人的工作方式,又足够让另一些人产生错误的信任。
66%的成功率,不是终点,甚至不是中点。
它是一个信号:Agent时代,已经来了。
夜雨聆风