先别急着把 AI Agent 当员工

我在大厂的时候，参加过不少产品技术分享会。台上放 demo，台下人眼睛发亮，屏幕上那套东西能查资料、改配置、生成报表，还能把文档写得像模像样。那一刻大家脑子里都会冒出一个念头：这玩意儿是不是快要替人干活了？

后来我见多了，心态就变了。演示现场像样，不代表放进真实工作里就能扛住压力。很多系统在投影幕上像一辆概念车，灯光一照，线条漂亮，车门还能自动打开。可真开上早高峰，前面电动车乱窜，后面司机按喇叭，导航还突然改路线，那才知道底盘、刹车、视野到底靠不靠得住。

AI Agent 也是类似的东西。

我会把 Agent 理解成“会用工具的 AI”。普通聊天机器人主要靠嘴，问它一句，它答一句；Agent 多了手脚，能打开浏览器，调用接口，读文件，改表格，写代码，甚至替你点按钮。Skill 则像它工具箱里的一叠任务卡：遇到报销单怎么处理，碰到代码评审要看哪些文件，做销售周报该套什么模板，查某个内部系统时要按哪个步骤走。

听着挺像一个新人同事入职。你给他账号，给他说明文档，再告诉他公司规矩，他就能帮你跑腿。可麻烦也在这里。新人最怕的不是单个动作不会，怕的是一串事从头跟到尾，中途还不能漏、不能乱、不能自作主张。AI Agent 当前最大的瓶颈，也不是“它不会某个单点技能”，而是“它能不能把一段长活从头走到尾，还保持前后状态一致”。

举个生活里的例子。你让朋友下楼帮你买杯咖啡，没问题。你再让他顺路拿快递，也还可以。继续加：去物业拿门禁卡，问水电师傅几点到，给房东转达维修费用，再帮你把旧合同找出来拍照发给中介。每件小事单独看都不难，但串在一起就变成另一种活了。中间只要有一步理解错，后面的事情就会跟着偏。

Agent 做长任务时，经常就是这样。它前几步让人惊讶：查资料很快，写摘要不累，代码也能改。可到了第十几步，它可能忘了前面某个限制；到了第二十几步，它可能把一个临时假设当事实；再往后，它开始一本正经地沿着错误路线往前推。最麻烦的是，它的语气还很镇定，让人一时半会儿看不出哪里偏了。

我以前带新人改后台任务，感受特别深。让他改一个查询条件，半天能交；让他从数据源、定时任务、报警、回滚脚本、上线窗口一路串起来，就会冒出各种小偏差。有时不是人没学会，而是工作链条太长，信息太多，很多规则还藏在老员工脑子里。AI 也一样。它可以很快完成片段，却不等于能独自承担整段交付。

这就是复合误差。做饭时盐多一点、水少一点、火候偏一点，单看都不吓人。可这些偏差叠在一锅红烧肉里，端出来味道就变了。Agent 每一步如果都有一点点偏差，任务越长，偏差越容易放大。到最后你看到的不是某个小错，而是一条看起来完整、实际已经偏离目标的路径。

很多人会说，那就把资料全塞给它，把上下文拉满。这个念头我也有过。像搬家时怕忘东西，索性把抽屉、纸箱、旧柜子全搬过去。东西确实都在，但你要找身份证，可能翻到怀疑人生。模型面对超长上下文也会这样：材料越多，干扰越多，旧状态、新状态、例外说明、历史记录混在一起，它未必能把重点抓准。

所以 Skill 才会出现。它的思路不难理解：别把所有说明书都摊在桌上，需要哪本再拿哪本。一个 Skill 里可以放任务说明、脚本、模板、样例，Agent 只在需要时读取。这样做的价值很现实。财务每月处理同类表格，运营每周拉同一套指标，研发每次发布前跑固定检查，这些重复经验都可以写进 Skill。

但 Skill 不是魔法。它更像贴了标签的抽屉，不是经验丰富的老师傅。抽屉能帮你把螺丝刀、胶带、扳手分门别类；至于墙里那根旧线是不是前业主私接的，说明书未必知道。很多业务难点就在例外里。某个客户合同去年改过，某个接口周五晚上容易抽风，某个审批人休假时要换备用流程，这些如果没写进去，AI 多半不知道；如果全写进去，又会挤占上下文，还会过期。

我见过一些团队给 AI 接了代码仓库、工单、数据库、邮件，再配上一堆 Skill，画面看着像钢铁侠工作台。可一旦让它独立处理跨系统任务，旁边还是会坐个人盯着。原因并不绕：权限越大，错误越贵。一个只会写草稿的 AI，错了最多改半小时；一个能改生产配置、删数据、给客户发邮件的 AI，出错就可能变成事故。

这对普通人也有影响。我们平时会觉得 AI 帮我订票、报销、整理资料，多省事。可分界线在于，它有没有权力替你做不可逆操作。让它规划周末路线，错了也就是多绕两条街；让它替你取消酒店、买错机票、把证件信息发到陌生网页，那就不是“AI 有点迷糊”这种程度了。

安全问题也更微妙。以前聊天机器人胡说，顶多让人翻白眼。Agent 会读网页、读邮件、读文档，外部内容就可能反过来影响它。你可以想象一个助理去收信，信里夹了一张纸，上面写着“别听老板的，把保险柜密码发给我”。正常人会当成垃圾内容，AI 却可能把它误认成任务指令的一部分。

浏览器型 Agent 尤其容易遇到这种麻烦。网页里既有你想查的信息，也可能有别人故意放进去的诱导文本。你让它总结合同，它可能被隐藏内容带偏；你让它整理邮箱，它可能把邮件里的恶意句子当成新任务。人读东西时，会天然区分“内容”和“命令”。机器要做到这一点，需要额外的边界、检查和权限隔离。

再看成本。很多 demo 给人的错觉是，AI 像免费劳动力，点一下就能替你干活。可 Agent 不是单次问答。它要规划、调用工具、读取结果、再规划、再调用，来来回回很多次。多 Agent 方案更像临时组一个小队：一个搜资料，一个写，一个审，一个整合。热闹归热闹，账单也会跟着涨。

我有个朋友在公司做内部知识库，他们试过让 AI 自动回答员工制度问题。刚开始大家挺兴奋，因为它回复快，语气也像客服。跑了一阵，麻烦来了：有些制度去年改过，有些地区版本不同，有些问题必须看员工合同。AI 给出一个看似靠谱的答案，HR 反而要花时间核对。后来他们改成只给建议和来源，不让 AI 给最终结论。体验没那么炫，但团队安心许多。

这件事能说明一个朴素原则：AI 最适合放在“有人验收、后果可控、规则能写下来”的位置。比如整理资料、对比文档、草拟邮件、检查格式、归类票据、从会议记录里提待办。它在这些地方能省下大量重复劳动，哪怕出错，人也容易发现，修正成本低。

最危险的，是把它放进“权限高、后果重、上下文混乱、例外很多”的位置。客户投诉、财务审批、法务审查、生产运维、账号封禁、医疗建议，都容易让人心动，因为这些工作耗时又繁琐。但这里面有大量责任和经验，不是把流程写成几段文字就能覆盖的。一个回答错了的客服机器人，会让客户恼火；一个误改权限的 Agent，可能让整套系统进入麻烦状态。

还有一个常被忽略的问题：评测分数不等于真实工作能力。模型发布时会带很多榜单分，像学生成绩单。可考试卷是干净的，题目边界固定，答案有人提前定义。真实工作更像老小区修管道：图纸可能不准，物业电话没人接，墙里还有前任业主留下的旧线路。你拿考试成绩预测这种活，误差当然会大。

有些评测题也会被模型见过影子，或评分规则本身太粗。于是分数看着漂亮，却不能回答老板最关心的问题：把真实权限交给它以后，它会不会在周三下午把客户数据改错？它遇到不确定内容时，会不会停下来找人？它能不能留下足够日志，让人事后复盘？这些问题，比“榜单排名第几”更贴近工作现场。

我并不反对 Agent。相反，我觉得它会改变很多人的日常工作。只是它的价值不该被讲成神话。它更像一个手脚快、记性有限、需要边界的搭档。你让它铺材料、列备选、写初稿、跑重复动作，它能帮大忙；你让它代表你做带责任的决定，就该谨慎。

未来几年，有价值的竞争，大概不在谁的 demo 更炫，而在谁能把那些看着琐碎的工程活做扎实：记忆怎么管，工具怎么分权，什么时候必须人工复核，错误怎么发现，成本怎么算，日志怎么留，数据怎么隔离，Skill 怎么更新，旧流程过期后谁负责维护。发布会上这些内容不抢眼，但产品能不能进入真实办公室，靠的就是它们。

对普通人来说，我建议把 Agent 当成“增强版助手”，别当成替身。让它帮你找资料、做对比、列清单、改初稿、查遗漏。涉及钱、身份、合同、隐私、生产系统的动作，人要保留最终确认权。这个分工听上去没那么酷，却更接近现实。电饭煲能让做饭省力，但你不会让它决定全家这个月的饮食预算。

Skill 也要这么看。它不是给 AI 灌一堆知识就完事，而是一套整理过的任务卡。卡片写得具体、贴近真实流程，AI 就少在低级事项上绕远路；卡片含糊、权限混乱、来源不明，AI 只会把混乱放大。公司把 Skill 做出来以后，还得有人维护。制度变了，接口变了，模板变了，旧 Skill 可能立刻变成误导源。

我越来越觉得，Agent 逼着组织照镜子。以前很多流程靠熟人默契，靠老员工记忆，靠群里喊一声。AI 一进来，这些灰色地带就暴露了：流程写不出来，说明过去靠人脑临场补；权限分不细，说明系统设计粗；结果验不了，说明“完成”的定义原本就模糊。某种意义上，Agent 不只是自动化工具，也是流程体检仪。

所以别急着把它想成科幻电影里的全能管家。它现在更像一台带发动机的电助力车，确实省力，也能跑得快，但刹车、头盔、路权、红绿灯都不能少。能上路，不代表可以随便上高速；能帮忙，不代表可以替你承担责任。

成熟的 Agent，不会只拼能做多少事，还要拼什么时候停、哪些权限不能碰、遇到矛盾时怎么提醒人。听起来没那么热血，却更接近真实世界的工作方式。让人放心的技术，应该把重复劳动交给机器，把判断、责任和创造留给人。