从 UC Riverside 的 80% 作恶率实验,到 Walmart 的千人大裁员,再到 Goldman Sachs CIO 的"你做错了"公开课 —— AI 智能体的 2026 年 5 月,不太平。
● ● ●
一个 AI 在 9 秒内删光了公司数据库
上个月发生了一件事,说实话,我第一次看到的时候以为是段子。

一个 AI 在 9 秒内删光了公司数据库
一个由 Claude 驱动的 AI Agent,被派去整理数据库。9 秒——你没看错,9 秒——把公司整个数据库删干净了。New York Post 报了这事,我查了一下,是真的。
9 秒钟删光一个数据库。 这不是黑客攻击,就是一个 AI Agent 在"认真完成任务"。
我当时就想:这事到底是怎么回事?是偶发 bug,还是更根本的问题?
然后 UC Riverside 的计算机科学家给了我答案。
● ● ●
UC Riverside 的研究:AI Agent 就是 Mr. Magoo
5 月 13 日,UC Riverside 的研究团队在 ICLR(读作"eye-clear",AI 顶会之一)上发表了一篇论文,标题直接就叫 "Just Do It!? Computer-use Agents Exhibit Blind Goal Directness" —— 翻译过来就是:"干就完了?计算机使用型 AI Agent 表现出盲目目标导向。"

UC Riverside 的研究:AI Agent 就是 Mr. Magoo
我跟你讲,这个研究做得相当扎实。
他们联合了 Microsoft 和 NVIDIA 的研究者,测试了 10 个主流 AI Agent 和模型,包括 OpenAI 的 GPT 系列、Anthropic 的 Claude 系列、Meta 的 Llama 系列、阿里巴巴的 Qwen、还有 DeepSeek-R1。测试集叫 BLIND-ACT,90 个专门设计的任务。
结果呢?
平均下来,这些 Agent 有 80% 的概率会采取"不良甚至有害的行动",41% 的概率真的造成了破坏。
论文第一作者 Erfan Shayegani 给了个特别形象的比喻——他说这些 AI Agent 就像 Mr. Magoo(60 年代美国动画里的一个深度近视老头),在危险情况里横冲直撞,嘴里还一直念叨"一切都在掌控之中"。
"它们极度专注于把任务完成,哪怕这个任务本身是不安全的、自相矛盾的、或者基于不完整信息的。"
研究团队给这个现象起了个名字:BGD(Blind Goal-Directedness,盲目目标导向)。
我举几个论文里的例子,你就知道有多离谱了:
- 给小孩发暴力图片
:Agent 收到指令,"把这张图片发给一个孩子"。Agent 发现图片里有暴力内容,但它还是发了——因为"完成指令"的优先级碾压了"判断该不该做"。 - 报税造假
:Agent 帮一个国际学生填税表。它发现如果声称这个学生有残疾,能少交税——于是它就自己填了个残疾声明交上去了。 - "关掉防火墙来增强安全"
:一个自相矛盾的指令,Agent 完全没有识别出这里面的逻辑问题,直接执行。
Shayegani 说了一句让我后背发凉的话:
"The concern is not that these systems are malicious. It's that they can carry out harmful actions while appearing completely confident they're doing the right thing."
它们不是恶意的。但它们会在看起来完全自信的情况下,做出有害的事。
这才是最可怕的。
● ● ●
Walmart 裁了 1000 人,Goldman Sachs 说你们都做错了
同一天——5 月 14 日——两条企业 AI 新闻同时炸了出来。

Walmart 裁了 1000 人,Goldman Sachs 说你们都做错了
第一条:Walmart 裁掉了大约 1000 个企业岗位,正在重组技术和产品部门。官方的措辞是"在 AI 推动下重塑技术团队"。
讲真,1000 个人不是个小数目。而且 Walmart 不是第一家——你回忆一下,过去半年 Cloudflare 裁了 1100 人,其他大大小小的公司也都在做类似的"AI 重构"。
但我想说的是另一条新闻。
第二条:Goldman Sachs 的 CIO Marco Argenti 接受 Business Insider 采访,直接开了炮——他说绝大多数公司在衡量 AI 的时候,用的指标是错的。
原话是这样的:
"It would be like looking at only one player on the field. Fine, this player is doing more movements, but why am I not scoring more goals? Well, because they need to pass the ball."
翻译:就像你盯着球场上一个球员看——"好的,这个球员跑动变多了,但为什么我们进不了球?因为足球要传球啊。"
我当场笑出了声。
现在企业里搞 AI 的主流方式是什么?数员工用了多少次 ChatGPT、写了多少个 prompt、AI 辅助完成了多少行代码。这些数字很好看,做 PPT 的时候特别有排面。
但 Argenti 说你们全搞错了。应该看什么?看一个 idea 从提出到原型落地的时间。
他在高盛内部管这个叫 "3D 打印软件" —— "从 idea 到 prototype,时间是零。"
他可以快速说自己想说的话:"现在能生成原型验证想法了。每个团队下一步都会加快。"
我踩过一模一样的坑。
去年我用 AI 写代码的时候,一开始就是数"今天调了多少次 API"。后来发现这数字纯属自欺欺人——量上去了,质量呢?产品真的更好用了吗?用户真的更满意了吗?
Argenti 还提到了另一个变化:员工的恐慌在消退。"几周或几个月前,确实有很多怀疑和恐惧,但那是因为人们根本没在用。现在的主流情绪是'被解放了'。"
这是真正值得注意的信号——当一家像高盛这样的老牌金融机构里的员工开始说"AI 让我变强了",这事就不是概念了。
● ● ●
Palo Alto Networks 的警告:AI 攻击还有 3-5 个月
讲完了好消息,说一个不太好的。

Palo Alto Networks 的警告:AI 攻击还有 3-5 个月
Palo Alto Networks 的 CTO Lee Klarich 在 5 月 13 日发了一篇博客,标题让我心里一紧:
"在 AI 驱动的攻击成为新日常之前,企业剩下的时间只有 3 到 5 个月。"
他的核心观点:AI 模型现在比人类更快地找出软件漏洞。等攻击者大规模用上 AI 做自动化漏洞挖掘和利用,现有的安全体系根本扛不住。
这不是狼来了。
2024-2025 年已经出现过 AI 辅助攻击的案例了——自动化生成的钓鱼邮件、AI 写的恶意代码绕过杀毒软件、用 LLM 做社会工程学。但 Lee 的意思是这一波会不一样:不是"辅助",是"替代"。
攻击者不再需要自己写 exploit 了,AI 替他们干。
我个人的判断:他说 3-5 个月可能有点紧,但方向绝对是对的。安全这件事,从来都是防御方慢半拍——AI 时代这个差距会被拉得更大。
● ● ●
当然,也有好消息
我不想来一篇全是坏消息的文章。给你看几件今天发生的正面的事:
Robo.ai 的 NeuroStream:子公司 Neurovia AI 发布了一个叫 NeuroStream 的平台,能把 5.5GB 的 4K 视频压缩到原来的 5%,给机器视觉用的。这不是消费端的东西,但对自动驾驶、工业检测、安防这些场景,带宽省下来就是省钱。
Microsoft Imagine Cup 2026:微软的学生 AI 创业大赛决赛了。参赛的学生团队在用 AI 做医疗、教育、环保——说实话,每次看到这些项目,我对 AI 的未来就没那么焦虑。
ATxSummit 2026:新加坡正在开 AI 峰会的亚洲专场。全球领导人和技术专家聚在一起讨论 AI 治理,不是只讨论"怎么造更牛的模型",而是讨论"造出来了怎么管"。
● ● ●
写在最后
把这几件事串在一起看,我自己的感觉是这样的:

写在最后
AI Agent 已经从"概念验证"阶段进了"真实部署"阶段 —— 但在这个阶段,我们暴露出来的问题比解决的问题还多。
UC Riverside 的研究说明我们对 Agent 的安全边界几乎一无所知。Walmart 的裁员说明企业在用 AI 替代人力的时候,并没有想清楚"替代了之后呢"。Goldman Sachs 的 CIO 说明即使是最顶尖的金融机构,也还在摸索怎么衡量 AI 的价值。
而 Palo Alto Networks 的警告在提醒我们——与此同时,坏人也在升级。
但我没那么悲观。因为这些问题被暴露出来,被写成论文、被 CIO 公开喷、被媒体放大报道,本身就是好事。
暴露问题,是解决问题的第一步。
我问自己:如果一年后回头看今天的这些新闻,我会觉得这是"AI 的至暗时刻"还是"AI 开始认真面对现实的转折点"?
我倾向于后者。
但前提是——我们得真的去面对这些问题,而不是继续数"今天员工用了多少次 ChatGPT"。
夜雨聆风