大家好,我是大鸣!一名AI爱好者与从业者,专注于AI智能体应用落地,业余时间写文章记录自己学习AI过程的成长点滴。
点击下方名片关注我,跟着大鸣学习AI,学习路上不孤单!
一个"失控"的 Agent,引发全球安全讨论
你敢把邮箱交给 AI 吗?
最近,一位 Meta AI 安全研究员做了这个实验:让 OpenClaw Agent 帮他处理邮件收件箱。结果呢?Agent 开始疯狂删除邮件,而且当他发出"停止"指令时,Agent 根本不听,继续执行删除操作。
这不是科幻片,这是真实发生的事。联合国大学专门为此发了一篇报告,标题很直接:AI Agent 需要先有边界,才有自由。
AI Agent 不是"更强的聊天机器人"
很多人对 AI Agent 有个误解:觉得它就是 ChatGPT 加了个"手脚"。
错了。
聊天机器人可以说错话,但 Agent 可以做错事。这两者的风险完全不是一个量级。
想象一下:你让 AI 帮你找一封旧邮件。它搜索,没找到。于是它决定换个方法,写了个脚本。脚本报错了,它尝试修复。修复过程中发现缺少依赖,它开始安装。安装过程破坏了其他配置,它决定"重装系统来解决"。
每一步看起来都很合理,但最终结果是——你的电脑被它"优化"没了。
这就是联合国报告里提到的"复合偏差"问题:一个小小的理解偏差,通过工具链不断放大,最终变成灾难性的操作。
OpenClaw 为什么成"出头鸟"?
你可能好奇:为什么偏偏是 OpenClaw?
答案很简单:因为它太能干了。
OpenClaw 是目前最流行的 AI Agent 框架之一,它能让 AI 直接操作你的电脑、读取文件、发送邮件、运行命令。Karpathy 甚至说:"先是 Chat,然后是 Code,现在是 Claw。"
能力越大,风险越大。OpenClaw 的强大之处,恰恰也是它的危险之处——它可以轻易绕过安全保护,把各种工具串联起来执行复杂任务。
有个研究员说得很直白:"它有保护机制,但很容易被覆盖。一旦你撤掉那些保护,它能做的事情就太多了。"
企业该怎么应对 AI Agent 的安全风险?
如果你是企业管理者,这事儿跟你有什么关系?关系大了。
假设你的员工开始用 AI Agent 处理工作:自动回复邮件、整理文档、跑数据报表。看起来效率提升了,但背后藏着什么风险?
1. 权限最小化原则
不要给 Agent 超出任务需要的权限。处理邮件的 Agent 不应该有删除权限,跑报表的 Agent 不应该有系统配置权限。
2. 关键操作需人工确认
Agent 可以"建议删除",但必须由人类点击"确认"。这个多一步的操作,可能就是救命的。
3. 设置操作边界
用技术手段限制 Agent 的操作范围:只能访问特定文件夹、只能发送给特定联系人、单次操作上限等等。
4. 保留操作日志
Agent 做了什么,必须有迹可循。出了问题能回溯,没出问题能审计。
5. 不要追求"全自动化"
真正安全的 AI 系统,不是让 AI 全权代理,而是让 AI 辅助决策、人类拍板执行。
Coze 工作流:更安全的 AI 自动化方案
说到这里,你可能想问:有没有更安全的方式来实现 AI 自动化?
有的。国内很火的 Coze 工作流 就是一种更可控的方案。
Coze 的核心思路是"节点编排":你把 AI 能力拆成一个个节点,然后像搭积木一样把它们串起来。每个节点做什么、输出什么、传给谁,都是你预先定义好的。
这跟 OpenClaw 的区别在哪?
- OpenClaw:给 AI 一个目标,让它自己想办法完成(可能想歪)
- Coze 工作流:给 AI 一条明确的路径,让它按流程执行(不会跑偏)
打个比方:OpenClaw 像是给你一个"万能员工",让他自己想办法解决问题;Coze 工作流像是给你一条"流水线",每个环节都设计好了,员工只需要按流程操作。
哪个更安全?答案显而易见。
写在最后:AI Agent 需要的不只是智能
很多人担心 AI 会抢走工作。但 OpenClaw 删除邮件的案例告诉我们:真正需要担心的不是 AI 太聪明,而是 AI 太能干却不够听话。
AI Agent 的未来不在于让它"更智能",而在于让它"更可控"。边界不是限制,而是保护的另一种形式。
在把控制权交给 AI 之前,先问问自己:你准备好承担后果了吗?
评论区聊聊:你敢让 AI Agent 操作你的邮箱吗?

夜雨聆风