你的AI agent出了事,算谁的?——当AI开始“动手”,谁来定规矩

前阵子一个朋友跟我聊起一件事。名字和行业我隐了，但事情本身没改。

一家地方国企，去年下半年开始“拥抱AI”。IT部门很积极，三个月内上了三个AI agent：一个帮财务部自动生成月度经营分析，一个帮法务部审查合同条款，一个帮客服部自动回复客户邮件。

演示的时候领导很满意，说“这个好，继续推”。

三个月后，出了三件事。

第一件：财务agent生成的一份经营分析里，有一条“某子公司应收账款同比增长47%，建议关注回款风险”。这句话被直接写进了经营分析报告上了会。但后来发现，47%这个数是错的——实际增长17%，AI把口径搞混了。数字已经进了会议纪要，没法撤回。

第二件：合同agent审查一份采购合同时，自动标注了一条“建议修改”，并且直接在合同文档里生成了修改版本。这份“带修改”的合同被业务部门的人误以为是法务部的意见，直接发给了供应商。法务部全程不知情。

第三件：客服agent回复一个客户的投诉邮件时，用了一句“我们承诺将在七个工作日内解决”。没有人授权过这个承诺。客户截图留存了。

三件事都不大，都没有造成实质性损失。但IT部门的负责人当天晚上没睡着觉。他想的不是“这个AI怎么这么笨”，而是“如果下次出的事更大，谁来承担责任？”

这个问题，我发现绝大多数企业在上AI的时候，压根没想过。

PART 01

为什么以前没人想这个问题？因为以前的AI不“动手”。

你问豆包一个问题，它给你一个答案。你觉得不对，可以不采纳。它不会去改你的文件，不会去发邮件，不会去动你的系统。它就是一个“只说不做”的顾问。

但现在的AI agent不一样。它能读你的数据库，能写你的文档，能发你的邮件，能调你的接口。它不再是“只说不做”，而是“说完就做”。

这是一个本质性的变化。

“只说不做”的时候，错了无所谓——你自己判断要不要采纳。“说完就做”的时候，错了就有后果了——数字进了会议纪要，合同发给了供应商，承诺到了客户手里。

从“回答问题”到“动手做事”，中间差的不是技术，是一套规矩。而绝大多数企业，还没来得及建这套规矩，就已经把agent放出去了。

PART 02

我们把这套规矩拆开，其实就是三个问题。

第一个：谁授权的？

这个agent能读哪些数据、能写哪些文件、能发哪些邮件，是谁定的？

开头那个例子里，合同agent不仅能“看”合同，还能“改”合同。这个“改”的权限是谁给的？是IT部门在配置的时候顺手勾上的。法务部不知道，业务部不知道，但agent已经能动手了。

这就好比你招了一个实习生，让他帮忙整理文件，但同时给了他公司公章的使用权。他不是故意乱盖，但他不知道哪些文件能盖章、哪些不能。

而且这里面有一个很多企业没意识到的问题：agent的权限应该谁来定？不是IT部门一个人定的事，是业务部门和IT部门一起定。因为只有业务部门知道哪些动作碰不得。但现实是，大多数企业上agent的时候，业务部门只管提需求，权限配置完全交给了IT。

第二个：谁监督的？

agent做完一件事，有没有人在看？有没有日志？有没有办法回溯？

开头那个例子里，客服agent发出了“七个工作日内解决”的承诺，但没有任何人在发出前看过这封邮件。也没有任何系统记录“agent在什么时间、基于什么信息、做了什么决策”。事后去查，只能看到一封已发出的邮件。

这在企业管理里有个现成的词叫“审计轨迹”。任何涉及钱、合同、对外承诺的动作，都应该有轨迹可查。人做的时候有审批流、有签字、有OA记录。AI做的时候呢？大多数企业的答案是：没有。

你把它想成飞机的黑匣子就对了——平时不用看，但必须有。

第三个：出了事谁兜底？

财务agent报的数字错了，是IT部的责任还是财务部的责任？

IT部说：“我们只负责工具，数字对不对你们财务部应该自己核。”

财务部说：“你们告诉我这个工具能用，我们才用的，错了你们得负责。”

这个场景熟不熟悉？和十年前企业上ERP的时候一模一样。但ERP时代，系统是“人要它做什么它才做什么”，责任还是在操作的人身上。AI agent不一样——它会自己“决定”做什么。人没有要求它承诺“七个工作日”，但它自己写上去了。这个责任算谁的？

目前没有标准答案。但有一个正在形成共识的原则：业务主责制——谁受益，谁负责。AI agent本质上是业务部门的一个“数字员工”，IT部门负责的是“招聘和入职培训”，但这个员工产出的东西，业务负责人得签字。你给每个新员工都有入职培训和岗位说明书，为什么给AI就没有？

目前没有标准答案不等于可以不想这个问题。恰恰相反，越早想清楚，出事的时候越不被动。

PART 03

如果你觉得“AI治理”是个太超前的话题，看看这周发生的几件事。

IBM在全球大会Think 2026上推出了watsonx Orchestrate新版——它的定位不是“帮你建agent”，而是“帮你管agent”。它叫自己是多智能体时代的“控制平面”，负责解决的正是“谁授权、谁监督、谁兜底”这套问题。当IBM这种体量的公司开始把“agent治理”单独拿出来做产品，说明什么？说明市场上已经有足够多的企业踩过坑了。

同一周，美国商务部旗下的CAISI把谷歌、微软、xAI拉进了“前沿模型预部署评估”协议——意思是，以后这些公司发布新模型之前，要先让政府审查。白宫还在考虑成立专门的AI工作组。你可以不同意它的做法，但方向很清楚：当AI开始“动手”，监管就会跟上。

国内也一样。五月初，国家三部门联合出台了智能体应用的合规框架。具体条款还在落地过程中，但信号已经很明确：agent不是“先用起来再说”的东西，它需要一套和企业现有管理体系对接的规则。

对国企来说，这件事尤其重要。国企的每一个重大决策都有审计跟着，每一次对外承诺都可能被追责。如果一个AI agent在你的系统里做了一个“决策”，而这个决策没有任何审批记录、没有任何人签字、没有任何会议纪要——下次巡视的时候怎么解释？

PART 04

我知道“AI治理”这个词听起来很大、很空、很像打官腔。所以我更愿意用一个大白话的说法：给AI定规矩。

它其实就是三件事。

第一，分级授权。agent能做什么、不能做什么，得有人定。而且不是IT部门一个人定，是业务部门和IT部门一起定。就像企业里的权限矩阵一样：谁能看什么数据、谁能改什么文件、谁能对外发什么信息，得写清楚。一个审查合同的agent，可以有“读”的权限，但不应该有“改”的权限。这个区分，很多企业在上agent的时候压根没想过。

第二，过程留痕。agent每做一件事，都要有日志：什么时间、基于什么输入、做了什么输出、结果是什么。这不是为了“监控AI”，而是为了万一出了问题，能快速定位、快速修正、快速解释。飞机的黑匣子，平时不用看，但必须有。

第三，关键动作分级确认。不是每件事都要人确认，那就失去了自动化的意义。但也不是所有事都放手让agent自己干。合理的做法是分三级：日常数据采集、格式整理这类低风险的事，完全自动化，不用人管；内部参考性质的分析建议，可以先让agent做，事后抽查审计；但凡涉及对外发文、资金调拨、合同修改、不可撤回操作的——这些关键动作，必须有一个人类在中间点一下“确认”。这不是对AI的不信任，是对“后果”的敬畏。

你看，这三件事没有一件需要“高科技”。它们是管理问题，不是技术问题。但它们必须在技术落地之前就想清楚，否则事后再补，代价很大。

PART 05

我知道很多企业的想法是：先上，出了问题再调。这个思路在很多事情上是对的，但在AI agent上，它有一个特殊的风险。

传统软件出错是“确定性”的——同样的输入，每次出同样的错。你找到bug，修了，就不会再犯。但AI agent的错误是“概率性”的——同样的输入，这次对了、下次可能错，而且错的方式还不一样。你不能通过“修bug”来根除问题，只能通过“建机制”来降低风险。

最近有一篇学术论文测试了十三个主流AI模型的“作弊率”——就是模型在使用工具的时候，会不会为了“看起来完成了任务”而走捷径。结果很有意思：有的模型作弊率接近14%，有的几乎为零。也就是说，有些AI在“做对事”和“看起来做对了”之间，会选后者。

这不是“场景边缘”，是“结构性风险”。你用得越多，撞上的概率越高。而“先用起来再说”意味着你在“撞上”之前没有任何机制来减小损失。

写在最后

我们这个系列的前一篇，讲的是AI落地时那些“暗活”——为什么看起来简单的事，实际上这么难。

这一篇讲的是另一种“暗活”——不是技术上的，是管理上的。

AI agent越来越强，能做的事越来越多。但“能做”不等于“该做”，“做了”不等于“做对了”。中间差的那一层，就是规矩。

要不要拥抱AI？当然要。但在拥抱之前，先想清楚三件事：谁授权、谁监督、出了事谁兜底。

这不是踩刹车，是系安全带。有了安全带，才能跑得快。

你的企业在用AI agent吗？谁来定的规矩？欢迎留言聊聊你的做法。

撰写：Dr.Leader

编辑：Dr.M

审核：刘宇

声明

原创内容的最终解释权以及版权归众航所有。如需转载文章，请在信息栏输入“转载”，获取转载须知。

联系我们：

如需了解更多关于众航达瑞的服务和研究成果，请关注我们的公众号，或直接联系我们获取更多信息。