我在大厂的时候,参加过不少产品技术分享会。台上放 demo,台下人眼睛发亮,屏幕上那套东西能查资料、改配置、生成报表,还能把文档写得像模像样。那一刻大家脑子里都会冒出一个念头:这玩意儿是不是快要替人干活了?
后来我见多了,心态就变了。演示现场像样,不代表放进真实工作里就能扛住压力。很多系统在投影幕上像一辆概念车,灯光一照,线条漂亮,车门还能自动打开。可真开上早高峰,前面电动车乱窜,后面司机按喇叭,导航还突然改路线,那才知道底盘、刹车、视野到底靠不靠得住。
AI Agent 也是类似的东西。
我会把 Agent 理解成“会用工具的 AI”。普通聊天机器人主要靠嘴,问它一句,它答一句;Agent 多了手脚,能打开浏览器,调用接口,读文件,改表格,写代码,甚至替你点按钮。Skill 则像它工具箱里的一叠任务卡:遇到报销单怎么处理,碰到代码评审要看哪些文件,做销售周报该套什么模板,查某个内部系统时要按哪个步骤走。
听着挺像一个新人同事入职。你给他账号,给他说明文档,再告诉他公司规矩,他就能帮你跑腿。可麻烦也在这里。新人最怕的不是单个动作不会,怕的是一串事从头跟到尾,中途还不能漏、不能乱、不能自作主张。AI Agent 当前最大的瓶颈,也不是“它不会某个单点技能”,而是“它能不能把一段长活从头走到尾,还保持前后状态一致”。
举个生活里的例子。你让朋友下楼帮你买杯咖啡,没问题。你再让他顺路拿快递,也还可以。继续加:去物业拿门禁卡,问水电师傅几点到,给房东转达维修费用,再帮你把旧合同找出来拍照发给中介。每件小事单独看都不难,但串在一起就变成另一种活了。中间只要有一步理解错,后面的事情就会跟着偏。
Agent 做长任务时,经常就是这样。它前几步让人惊讶:查资料很快,写摘要不累,代码也能改。可到了第十几步,它可能忘了前面某个限制;到了第二十几步,它可能把一个临时假设当事实;再往后,它开始一本正经地沿着错误路线往前推。最麻烦的是,它的语气还很镇定,让人一时半会儿看不出哪里偏了。
我以前带新人改后台任务,感受特别深。让他改一个查询条件,半天能交;让他从数据源、定时任务、报警、回滚脚本、上线窗口一路串起来,就会冒出各种小偏差。有时不是人没学会,而是工作链条太长,信息太多,很多规则还藏在老员工脑子里。AI 也一样。它可以很快完成片段,却不等于能独自承担整段交付。
这就是复合误差。做饭时盐多一点、水少一点、火候偏一点,单看都不吓人。可这些偏差叠在一锅红烧肉里,端出来味道就变了。Agent 每一步如果都有一点点偏差,任务越长,偏差越容易放大。到最后你看到的不是某个小错,而是一条看起来完整、实际已经偏离目标的路径。
很多人会说,那就把资料全塞给它,把上下文拉满。这个念头我也有过。像搬家时怕忘东西,索性把抽屉、纸箱、旧柜子全搬过去。东西确实都在,但你要找身份证,可能翻到怀疑人生。模型面对超长上下文也会这样:材料越多,干扰越多,旧状态、新状态、例外说明、历史记录混在一起,它未必能把重点抓准。
所以 Skill 才会出现。它的思路不难理解:别把所有说明书都摊在桌上,需要哪本再拿哪本。一个 Skill 里可以放任务说明、脚本、模板、样例,Agent 只在需要时读取。这样做的价值很现实。财务每月处理同类表格,运营每周拉同一套指标,研发每次发布前跑固定检查,这些重复经验都可以写进 Skill。
但 Skill 不是魔法。它更像贴了标签的抽屉,不是经验丰富的老师傅。抽屉能帮你把螺丝刀、胶带、扳手分门别类;至于墙里那根旧线是不是前业主私接的,说明书未必知道。很多业务难点就在例外里。某个客户合同去年改过,某个接口周五晚上容易抽风,某个审批人休假时要换备用流程,这些如果没写进去,AI 多半不知道;如果全写进去,又会挤占上下文,还会过期。
我见过一些团队给 AI 接了代码仓库、工单、数据库、邮件,再配上一堆 Skill,画面看着像钢铁侠工作台。可一旦让它独立处理跨系统任务,旁边还是会坐个人盯着。原因并不绕:权限越大,错误越贵。一个只会写草稿的 AI,错了最多改半小时;一个能改生产配置、删数据、给客户发邮件的 AI,出错就可能变成事故。
这对普通人也有影响。我们平时会觉得 AI 帮我订票、报销、整理资料,多省事。可分界线在于,它有没有权力替你做不可逆操作。让它规划周末路线,错了也就是多绕两条街;让它替你取消酒店、买错机票、把证件信息发到陌生网页,那就不是“AI 有点迷糊”这种程度了。
安全问题也更微妙。以前聊天机器人胡说,顶多让人翻白眼。Agent 会读网页、读邮件、读文档,外部内容就可能反过来影响它。你可以想象一个助理去收信,信里夹了一张纸,上面写着“别听老板的,把保险柜密码发给我”。正常人会当成垃圾内容,AI 却可能把它误认成任务指令的一部分。
浏览器型 Agent 尤其容易遇到这种麻烦。网页里既有你想查的信息,也可能有别人故意放进去的诱导文本。你让它总结合同,它可能被隐藏内容带偏;你让它整理邮箱,它可能把邮件里的恶意句子当成新任务。人读东西时,会天然区分“内容”和“命令”。机器要做到这一点,需要额外的边界、检查和权限隔离。
再看成本。很多 demo 给人的错觉是,AI 像免费劳动力,点一下就能替你干活。可 Agent 不是单次问答。它要规划、调用工具、读取结果、再规划、再调用,来来回回很多次。多 Agent 方案更像临时组一个小队:一个搜资料,一个写,一个审,一个整合。热闹归热闹,账单也会跟着涨。
我有个朋友在公司做内部知识库,他们试过让 AI 自动回答员工制度问题。刚开始大家挺兴奋,因为它回复快,语气也像客服。跑了一阵,麻烦来了:有些制度去年改过,有些地区版本不同,有些问题必须看员工合同。AI 给出一个看似靠谱的答案,HR 反而要花时间核对。后来他们改成只给建议和来源,不让 AI 给最终结论。体验没那么炫,但团队安心许多。
这件事能说明一个朴素原则:AI 最适合放在“有人验收、后果可控、规则能写下来”的位置。比如整理资料、对比文档、草拟邮件、检查格式、归类票据、从会议记录里提待办。它在这些地方能省下大量重复劳动,哪怕出错,人也容易发现,修正成本低。
最危险的,是把它放进“权限高、后果重、上下文混乱、例外很多”的位置。客户投诉、财务审批、法务审查、生产运维、账号封禁、医疗建议,都容易让人心动,因为这些工作耗时又繁琐。但这里面有大量责任和经验,不是把流程写成几段文字就能覆盖的。一个回答错了的客服机器人,会让客户恼火;一个误改权限的 Agent,可能让整套系统进入麻烦状态。
还有一个常被忽略的问题:评测分数不等于真实工作能力。模型发布时会带很多榜单分,像学生成绩单。可考试卷是干净的,题目边界固定,答案有人提前定义。真实工作更像老小区修管道:图纸可能不准,物业电话没人接,墙里还有前任业主留下的旧线路。你拿考试成绩预测这种活,误差当然会大。
有些评测题也会被模型见过影子,或评分规则本身太粗。于是分数看着漂亮,却不能回答老板最关心的问题:把真实权限交给它以后,它会不会在周三下午把客户数据改错?它遇到不确定内容时,会不会停下来找人?它能不能留下足够日志,让人事后复盘?这些问题,比“榜单排名第几”更贴近工作现场。
我并不反对 Agent。相反,我觉得它会改变很多人的日常工作。只是它的价值不该被讲成神话。它更像一个手脚快、记性有限、需要边界的搭档。你让它铺材料、列备选、写初稿、跑重复动作,它能帮大忙;你让它代表你做带责任的决定,就该谨慎。
未来几年,有价值的竞争,大概不在谁的 demo 更炫,而在谁能把那些看着琐碎的工程活做扎实:记忆怎么管,工具怎么分权,什么时候必须人工复核,错误怎么发现,成本怎么算,日志怎么留,数据怎么隔离,Skill 怎么更新,旧流程过期后谁负责维护。发布会上这些内容不抢眼,但产品能不能进入真实办公室,靠的就是它们。
对普通人来说,我建议把 Agent 当成“增强版助手”,别当成替身。让它帮你找资料、做对比、列清单、改初稿、查遗漏。涉及钱、身份、合同、隐私、生产系统的动作,人要保留最终确认权。这个分工听上去没那么酷,却更接近现实。电饭煲能让做饭省力,但你不会让它决定全家这个月的饮食预算。
Skill 也要这么看。它不是给 AI 灌一堆知识就完事,而是一套整理过的任务卡。卡片写得具体、贴近真实流程,AI 就少在低级事项上绕远路;卡片含糊、权限混乱、来源不明,AI 只会把混乱放大。公司把 Skill 做出来以后,还得有人维护。制度变了,接口变了,模板变了,旧 Skill 可能立刻变成误导源。
我越来越觉得,Agent 逼着组织照镜子。以前很多流程靠熟人默契,靠老员工记忆,靠群里喊一声。AI 一进来,这些灰色地带就暴露了:流程写不出来,说明过去靠人脑临场补;权限分不细,说明系统设计粗;结果验不了,说明“完成”的定义原本就模糊。某种意义上,Agent 不只是自动化工具,也是流程体检仪。
所以别急着把它想成科幻电影里的全能管家。它现在更像一台带发动机的电助力车,确实省力,也能跑得快,但刹车、头盔、路权、红绿灯都不能少。能上路,不代表可以随便上高速;能帮忙,不代表可以替你承担责任。
成熟的 Agent,不会只拼能做多少事,还要拼什么时候停、哪些权限不能碰、遇到矛盾时怎么提醒人。听起来没那么热血,却更接近真实世界的工作方式。让人放心的技术,应该把重复劳动交给机器,把判断、责任和创造留给人。
夜雨聆风