这两年,大家聊 AI Agent,最常说的问题是:
它会不会胡说?
但我越来越觉得,真正危险的地方,可能不是它胡说,而是它真的能干活。
以前的大模型,最多是在聊天框里给你编一个答案。错了,影响的是判断。
但现在的 Agent 不一样。
它可以打开浏览器,可以读取网页,可以调用工具,可以跑代码,可以访问文件,可以连数据库,甚至可以带着你的登录态去操作后台。
这时候,问题就变了。
一个会犯错的聊天机器人,只是麻烦。一个会犯错、但手里有权限的 Agent,才可能变成事故。
Agent 越强,越不像“助手”
过去我们用 AI,基本是问答关系。
你问一句,它回一句。你复制结果,自己决定要不要用。
但 Agent 的目标不是回答,而是完成任务。
比如你让它:
“帮我把小红书上关于某个品牌的负面内容抓出来。”“帮我分析最近30天的收入数据。”“帮我打开后台,把这个表格生成报告。”“帮我登录网页,处理一下这些订单。”
听起来都很合理。
可只要它开始进入真实系统,风险就不再停留在“答错了”。
它可能点错按钮。可能读到不该读的文件。可能把测试环境和生产环境搞混。可能把内部数据发到不该发的地方。可能在浏览器里拿着你的登录态,做出你没预期的操作。
这不是科幻。
这正是 Browser Use、Computer Use、MCP 工具调用、自动化工作流越来越普及后,必然会遇到的问题。
以前怕模型幻觉,现在更该怕“权限幻觉”
模型幻觉,是它不知道自己不知道。
权限失控,是它以为自己可以做。
这两个问题完全不是一个量级。
模型幻觉最多让你看到一段假的分析、一个假的结论、一段跑不通的代码。
但权限失控会直接进入现实世界。
它可能访问你的本地目录。它可能读取企业知识库。它可能操作 CRM、ERP、飞书、多维表格、数据库。它可能调用一个带写权限的 API。它可能在没有二次确认的情况下,执行删除、提交、发送、修改。
如果说模型幻觉是“嘴不靠谱”,那权限失控就是“手不受控”。
更麻烦的是,很多人搭 Agent 的时候,关注点都在:
模型够不够强?工具够不够多?能不能自动跑完整流程?能不能不用人管?
但真正成熟的 Agent,不是工具越多越好,而是边界越清楚越好。
没有边界的自动化,本质上就是把风险也自动化了。
浏览器控制,是最容易被低估的风险入口
很多人觉得 Browser Use 很酷。
因为它像一个真正的数字员工:会打开网页,会搜索,会点击,会复制,会填写表单,还能利用你的登录状态访问平台。
但也正因为这样,它是最值得警惕的一层。
浏览器不是一个普通工具。
它里面有你的账号、Cookie、后台权限、企业系统入口、私有文档、历史访问记录。
一个 Agent 只要能控制浏览器,就不只是“看网页”。
它可能看见你能看见的东西。它可能点击你能点击的按钮。它可能提交你能提交的表单。它可能把页面内容复制出来,再交给别的工具处理。
这就是为什么我现在看 Agent 产品,不会只看它能不能完成任务。
我会先看几个问题:
它能不能限制可访问的网站?能不能限制本地文件目录?涉及发送、删除、付款、提交时,有没有人工确认?每一步工具调用有没有日志?出错以后能不能追溯?它到底是只读,还是有写权限?
这些问题,比“模型是不是最新”更重要。
因为在真实场景里,事故往往不是发生在模型不够聪明的时候,而是发生在它半懂不懂但权限很大的时候。
企业最怕的不是 Agent 不会干活,而是干过头
很多公司现在都想上 Agent。
客服 Agent、数据分析 Agent、销售 Agent、运营 Agent、投研 Agent、代码 Agent。
每个方向听起来都很性感。
但只要进入企业场景,就会遇到一个绕不开的问题:
谁来决定 Agent 能做什么,不能做什么?
人类员工进公司,至少还有岗位、权限、审批、日志、责任人。
但很多 Agent 是怎么接进去的?
给它一个 API Key。给它一个账号。给它一组工具。再告诉它一句:你是某某业务助手,请尽力完成任务。
听起来很智能,其实很危险。
因为 Agent 不是一个稳定的脚本。脚本只会按固定逻辑走。Agent 会推理,会尝试,会绕路,会调用不同工具,会根据上下文改变策略。
这也是 Agent 的价值。
但风险也在这里。
当一个系统既有自主性,又有权限,却没有足够的约束,它就不再只是工具,而是新的安全入口。
真正成熟的 Agent,应该先学会“不做什么”
我现在越来越觉得,Agent 落地的核心,不是让它无所不能,而是让它知道边界。
一个靠谱的 Agent 系统,至少要有几层限制。
第一层是权限隔离。
能读的和能写的要分开。测试环境和生产环境要分开。普通文件和敏感文件要分开。低风险操作和高风险操作要分开。
第二层是人工确认。
凡是涉及删除、提交、付款、群发、修改数据库、影响客户的动作,都不应该让 Agent 自己直接完成。
它可以准备方案,可以生成内容,可以列出操作步骤。
但最后一步,应该让人点确认。
第三层是过程可追溯。
Agent 调用了什么工具?访问了哪个网页?读取了哪些文件?生成了什么中间结果?为什么做这个决策?
这些都应该留下记录。
否则出了问题,你连它是怎么出错的都不知道。
第四层是最小权限原则。
不要一上来就给 Agent 全部能力。
它只做数据分析,就不要给它删除权限。它只做网页抓取,就不要让它碰本地敏感目录。它只是生成报告,就不要让它直接发给客户。
工具越多,能力越强,越要克制。
Agent 时代,安全感来自边界感
很多人对 Agent 的想象,是一个越来越强的助手。
但我觉得,真正能进入生产环境的 Agent,不一定是最强的,而是最可控的。
它要能干活。也要知道什么时候停下来。
它要能调用工具。也要能解释自己调用了什么。
它要能自动执行。也要能在关键节点把权限还给人。
未来 AI Agent 的竞争,不会只看谁的模型更强,谁的工具更多,谁的 Demo 更炫。
真正的分水岭,可能是:
谁能把 Agent 放进真实业务里,同时不把权限搞失控。
所以,下一场 Agent 事故,大概率不是因为它“产生幻觉”。
而是它拿着真实权限,在真实系统里,做了一件它以为正确、但没人来得及阻止的事。
这才是 Agent 时代真正值得警惕的地方。
因为一个不会干活的 AI,最多让人失望。
一个会干活、但没有边界的 AI,才真的让人害怕。
夜雨聆风