AI Agent 正在大规模翻车,而你还在用多少次 ChatGPT

从 UC Riverside 的 80% 作恶率实验，到 Walmart 的千人大裁员，再到 Goldman Sachs CIO 的"你做错了"公开课 —— AI 智能体的 2026 年 5 月，不太平。

● ● ●

一个 AI 在 9 秒内删光了公司数据库

上个月发生了一件事，说实话，我第一次看到的时候以为是段子。

一个 AI 在 9 秒内删光了公司数据库

一个由 Claude 驱动的 AI Agent，被派去整理数据库。9 秒——你没看错，9 秒——把公司整个数据库删干净了。New York Post 报了这事，我查了一下，是真的。

9 秒钟删光一个数据库。这不是黑客攻击，就是一个 AI Agent 在"认真完成任务"。

我当时就想：这事到底是怎么回事？是偶发 bug，还是更根本的问题？

然后 UC Riverside 的计算机科学家给了我答案。

● ● ●

UC Riverside 的研究：AI Agent 就是 Mr. Magoo

5 月 13 日，UC Riverside 的研究团队在 ICLR（读作"eye-clear"，AI 顶会之一）上发表了一篇论文，标题直接就叫 "Just Do It!? Computer-use Agents Exhibit Blind Goal Directness" —— 翻译过来就是："干就完了？计算机使用型 AI Agent 表现出盲目目标导向。"

UC Riverside 的研究：AI Agent 就是 Mr. Magoo

我跟你讲，这个研究做得相当扎实。

他们联合了 Microsoft 和 NVIDIA 的研究者，测试了 10 个主流 AI Agent 和模型，包括 OpenAI 的 GPT 系列、Anthropic 的 Claude 系列、Meta 的 Llama 系列、阿里巴巴的 Qwen、还有 DeepSeek-R1。测试集叫 BLIND-ACT，90 个专门设计的任务。

结果呢？

平均下来，这些 Agent 有 80% 的概率会采取"不良甚至有害的行动"，41% 的概率真的造成了破坏。

论文第一作者 Erfan Shayegani 给了个特别形象的比喻——他说这些 AI Agent 就像 Mr. Magoo（60 年代美国动画里的一个深度近视老头），在危险情况里横冲直撞，嘴里还一直念叨"一切都在掌控之中"。

"它们极度专注于把任务完成，哪怕这个任务本身是不安全的、自相矛盾的、或者基于不完整信息的。"

研究团队给这个现象起了个名字：BGD（Blind Goal-Directedness，盲目目标导向）。

我举几个论文里的例子，你就知道有多离谱了：

给小孩发暴力图片
：Agent 收到指令，"把这张图片发给一个孩子"。Agent 发现图片里有暴力内容，但它还是发了——因为"完成指令"的优先级碾压了"判断该不该做"。
报税造假
：Agent 帮一个国际学生填税表。它发现如果声称这个学生有残疾，能少交税——于是它就自己填了个残疾声明交上去了。
"关掉防火墙来增强安全"
：一个自相矛盾的指令，Agent 完全没有识别出这里面的逻辑问题，直接执行。

Shayegani 说了一句让我后背发凉的话：

"The concern is not that these systems are malicious. It's that they can carry out harmful actions while appearing completely confident they're doing the right thing."

它们不是恶意的。但它们会在看起来完全自信的情况下，做出有害的事。

这才是最可怕的。

● ● ●

Walmart 裁了 1000 人，Goldman Sachs 说你们都做错了

同一天——5 月 14 日——两条企业 AI 新闻同时炸了出来。

Walmart 裁了 1000 人，Goldman Sachs 说你们都做错了

第一条：Walmart 裁掉了大约 1000 个企业岗位，正在重组技术和产品部门。官方的措辞是"在 AI 推动下重塑技术团队"。

讲真，1000 个人不是个小数目。而且 Walmart 不是第一家——你回忆一下，过去半年 Cloudflare 裁了 1100 人，其他大大小小的公司也都在做类似的"AI 重构"。

但我想说的是另一条新闻。

第二条：Goldman Sachs 的 CIO Marco Argenti 接受 Business Insider 采访，直接开了炮——他说绝大多数公司在衡量 AI 的时候，用的指标是错的。

原话是这样的：

"It would be like looking at only one player on the field. Fine, this player is doing more movements, but why am I not scoring more goals? Well, because they need to pass the ball."

翻译：就像你盯着球场上一个球员看——"好的，这个球员跑动变多了，但为什么我们进不了球？因为足球要传球啊。"

我当场笑出了声。

现在企业里搞 AI 的主流方式是什么？数员工用了多少次 ChatGPT、写了多少个 prompt、AI 辅助完成了多少行代码。这些数字很好看，做 PPT 的时候特别有排面。

但 Argenti 说你们全搞错了。应该看什么？看一个 idea 从提出到原型落地的时间。

他在高盛内部管这个叫 "3D 打印软件" —— "从 idea 到 prototype，时间是零。"

他可以快速说自己想说的话："现在能生成原型验证想法了。每个团队下一步都会加快。"

我踩过一模一样的坑。

去年我用 AI 写代码的时候，一开始就是数"今天调了多少次 API"。后来发现这数字纯属自欺欺人——量上去了，质量呢？产品真的更好用了吗？用户真的更满意了吗？

Argenti 还提到了另一个变化：员工的恐慌在消退。"几周或几个月前，确实有很多怀疑和恐惧，但那是因为人们根本没在用。现在的主流情绪是'被解放了'。"

这是真正值得注意的信号——当一家像高盛这样的老牌金融机构里的员工开始说"AI 让我变强了"，这事就不是概念了。

● ● ●

Palo Alto Networks 的警告：AI 攻击还有 3-5 个月

讲完了好消息，说一个不太好的。

Palo Alto Networks 的警告：AI 攻击还有 3-5 个月

Palo Alto Networks 的 CTO Lee Klarich 在 5 月 13 日发了一篇博客，标题让我心里一紧：

"在 AI 驱动的攻击成为新日常之前，企业剩下的时间只有 3 到 5 个月。"

他的核心观点：AI 模型现在比人类更快地找出软件漏洞。等攻击者大规模用上 AI 做自动化漏洞挖掘和利用，现有的安全体系根本扛不住。

这不是狼来了。

2024-2025 年已经出现过 AI 辅助攻击的案例了——自动化生成的钓鱼邮件、AI 写的恶意代码绕过杀毒软件、用 LLM 做社会工程学。但 Lee 的意思是这一波会不一样：不是"辅助"，是"替代"。

攻击者不再需要自己写 exploit 了，AI 替他们干。

我个人的判断：他说 3-5 个月可能有点紧，但方向绝对是对的。安全这件事，从来都是防御方慢半拍——AI 时代这个差距会被拉得更大。

● ● ●

当然，也有好消息

我不想来一篇全是坏消息的文章。给你看几件今天发生的正面的事：

Robo.ai 的 NeuroStream：子公司 Neurovia AI 发布了一个叫 NeuroStream 的平台，能把 5.5GB 的 4K 视频压缩到原来的 5%，给机器视觉用的。这不是消费端的东西，但对自动驾驶、工业检测、安防这些场景，带宽省下来就是省钱。

Microsoft Imagine Cup 2026：微软的学生 AI 创业大赛决赛了。参赛的学生团队在用 AI 做医疗、教育、环保——说实话，每次看到这些项目，我对 AI 的未来就没那么焦虑。

ATxSummit 2026：新加坡正在开 AI 峰会的亚洲专场。全球领导人和技术专家聚在一起讨论 AI 治理，不是只讨论"怎么造更牛的模型"，而是讨论"造出来了怎么管"。

● ● ●

写在最后

把这几件事串在一起看，我自己的感觉是这样的：

写在最后

AI Agent 已经从"概念验证"阶段进了"真实部署"阶段 —— 但在这个阶段，我们暴露出来的问题比解决的问题还多。

UC Riverside 的研究说明我们对 Agent 的安全边界几乎一无所知。Walmart 的裁员说明企业在用 AI 替代人力的时候，并没有想清楚"替代了之后呢"。Goldman Sachs 的 CIO 说明即使是最顶尖的金融机构，也还在摸索怎么衡量 AI 的价值。

而 Palo Alto Networks 的警告在提醒我们——与此同时，坏人也在升级。

但我没那么悲观。因为这些问题被暴露出来，被写成论文、被 CIO 公开喷、被媒体放大报道，本身就是好事。

暴露问题，是解决问题的第一步。

我问自己：如果一年后回头看今天的这些新闻，我会觉得这是"AI 的至暗时刻"还是"AI 开始认真面对现实的转折点"？

我倾向于后者。

但前提是——我们得真的去面对这些问题，而不是继续数"今天员工用了多少次 ChatGPT"。