AI Agent 真正难的不是调用工具,而是把异常处理进工作流-夜雨聆风

AI Agent 真正难的不是调用工具,而是把异常处理进工作流

**摘要：**很多 AI Agent Demo 看起来很顺，是因为它们只展示了成功路径。真实工作流里，输入缺失、权限不足、接口超时、结果不确定才是常态。想让自动化真正提高效率，必须把异常、验证、通知和人工确认设计进流程。

你让 AI Agent 每天早上自动整理资料、生成草稿、配图、提交到草稿箱。

第一次演示很顺：它会搜索资料，会写文章，会生成图片，会调接口，还会把结果通知给你。看起来，一个原本需要半小时的重复任务，已经被压缩成后台自动运行。

可真正跑了几天以后，问题开始出现。

某个网页结构变了，模型返回的内容少了一段，图片生成接口超时，草稿发布时被历史相似标题拦截。任务没有完全失败，也没有真正完成。它卡在一个很尴尬的位置：系统显示“已执行”，你却不得不打开日志，一行行看它到底做到了哪一步。

这就是很多 AI Agent 落地时遇到的真实问题：难的不是让它调用工具，而是让它在异常出现时知道该怎么停、怎么报、怎么等人确认。

Demo 顺利，不代表工作流可靠

很多 Agent Demo 都有一个共同特点：输入是干净的，权限是齐全的，接口是稳定的，目标也是明确的。

你给它一个任务，它拆解步骤，调用工具，返回结果。整个过程像一条笔直的路，从 A 到 B，没有岔路，没有障碍，也没有成本上限。

真实工作里很少这样。

做内容自动化时，选题可能和历史文章重复，资料可能来自多个格式不同的网页，图片可能生成失败，发布接口可能因为 token 过期而拒绝请求。做代码自动化时，AI 可能改出了能编译但没覆盖边界的代码，测试环境和生产环境配置不一致，某个依赖版本变化会让脚本突然失效。

做运维巡检也一样。Agent 能查日志、看指标、整理异常摘要，但如果它把短暂抖动当成严重故障，或者把严重告警当成普通波动，后续动作就会影响值班判断。

所以，Demo 展示的是“成功路径”。工作流考验的是“失败路径”。

如果一个自动化系统只在成功时表现得很聪明，一遇到异常就把问题丢回给人，而且还不告诉人它已经做了什么、哪里不确定、下一步需要确认什么，那它并没有真正减少工作量，只是把手动操作换成了手动排查。

Agent 最容易翻车的不是工具，而是异常

很多人设计 Agent 时，第一反应是给它更多工具：搜索、数据库、文件系统、浏览器、代码执行、消息通知、发布接口。

工具当然重要。没有工具，Agent 只能停留在聊天层面。但工具越多，异常也越多。

最常见的异常至少有五类。

第一类是输入异常。用户给的任务不完整，文件缺失，字段为空，时间范围不明确，历史上下文找不到。人类看到这种情况会追问，或者先做合理假设。Agent 如果不做输入校验，就可能直接拿着错误前提往下执行。

第二类是权限异常。脚本能读文件，不代表能写文件；能创建草稿，不代表能群发；能访问测试库，不代表能改生产库。权限问题最危险的地方在于，它有时不是“不能做”，而是“做了一半”。

第三类是工具异常。接口超时、限流、返回结构变化、第三方服务不可用，都不罕见。一个没有重试上限和降级策略的 Agent，可能会不断重复调用，把小故障变成更高成本。

第四类是判断异常。AI 生成的内容看似完整，但事实没有核验；代码看似合理，但没有跑测试；摘要看似清晰，但遗漏了关键限制。判断异常比接口错误更隐蔽，因为系统可能返回“成功”。

第五类是外部环境异常。今天的规则和昨天不同，今天的页面和昨天不同，今天的业务优先级也可能和昨天不同。自动化越深入真实场景，越不能假设世界静止不变。

这也是为什么“会调用工具”只是起点。真正可用的 Agent，要能把每一次动作变成可检查、可回放、可中断的流程。

把异常写进流程，而不是写进事后复盘

一个实用的 AI 自动化工作流，应该先回答六个问题：输入是什么，处理什么，如何验证，失败怎么办，通知谁，什么时候必须等人确认。

这六个问题，比“用了哪个模型”“接了几个工具”更重要。

输入环节要有契约。比如每天生成公众号草稿，输入不只是“写一篇文章”，而应包括方向、历史题目、字数范围、图片禁忌、发布策略和去重规则。缺少关键输入时，Agent 不能假装没看见。无人值守任务可以采用默认假设，但必须把假设写入内容包和日志。

处理环节要有状态。不要只记录“开始”和“完成”，而要记录选题、分析、大纲、图片、文章、质检、草稿发布分别处于什么状态。这样任务卡住时，人不需要从头猜起，只要看最新的成功状态和失败原因。

验证环节要独立于生成。AI 写完文章，不等于文章可发布；AI 生成图片，不等于图片符合平台要求；脚本执行完命令，不等于结果正确。验证应该检查字数、占位语、重复标题、图片路径、接口返回、敏感信息和高风险表达。

失败环节要有分级。网络超时可以重试，重复标题应换题或停止，图片生成失败可以记录替代方案，涉及发布、删除、付款、权限变更时必须暂停等待人工确认。所有失败都不应该被简单归为“任务失败”。

通知环节要讲清楚“需要人做什么”。坏通知只说“出错了”；好通知会说“图片生成超时，文章已完成，未创建草稿，建议人工检查图片或重试生成”。前者制造焦虑，后者节省时间。

确认环节要前置设计。不是等事故发生后才想起“这个地方应该让人点确认”，而是在流程设计时就标出来：哪些动作可以自动完成，哪些动作只能生成建议，哪些动作必须等待明确批准。

AI 自动化真正的价值，不是替你点按钮，而是把重复决策变成可验证流程。

哪些地方必须让 Agent 停下来

很多自动化项目失败，不是因为做得太少，而是因为一开始就追求全自动。

全自动听起来很美，但真实工作里有些动作天然不适合直接放行。

发布类动作要谨慎。生成公众号草稿、生成邮件草稿、生成报告初稿，可以自动化；直接群发、直接对外发布、直接替负责人表态，就应该有人工确认。因为发布不是单纯的技术动作，它会产生外部影响。

删除和覆盖类动作要谨慎。清理临时文件可以自动化，删除生产数据、覆盖重要配置、批量修改历史记录，必须有回滚方案和人工确认。Agent 不应该凭一句自然语言指令就执行不可逆操作。

资金和权限类动作要谨慎。付款、采购、转账、授权、添加管理员、开放访问范围，都不应该只靠模型判断。这里的风险不是模型“笨不笨”，而是责任链必须清晰。

涉及隐私和敏感数据的动作也要谨慎。自动整理客户资料、员工信息、聊天记录、合同内容时，必须限制数据范围、记录访问用途，并避免把敏感信息发送到不合适的外部服务。

一个成熟的 Agent，不应该总是表现得很积极。它应该在低风险、高重复、可验证的环节积极执行，在高风险、不可逆、责任不清的环节主动停下来。

能停，是自动化系统的一种能力。

上线前，先问这 8 个问题

如果你正在把某个重复任务交给 AI Agent，可以先用下面这份清单做一次检查。

第一，输入从哪里来？是用户临时输入、固定配置、数据库、文件、网页，还是多个来源混合？输入缺失时，系统是停止、使用默认值，还是请求人工补充？

第二，输出如何验证？文章要查字数和图片，代码要跑测试，数据要做格式校验，告警摘要要保留原始证据。没有验证的自动化，只是更快地产生不确定结果。

第三，失败谁会知道？不要让失败只躺在日志里。无人值守任务尤其需要明确通知渠道、通知内容和通知时机。

第四，是否允许重复执行？同一个任务跑两遍，会不会重复发消息、重复创建草稿、重复扣费、重复修改数据？幂等性不是后端系统才需要，Agent 工作流同样需要。

第五，有没有重试上限？接口超时可以重试，但不能无限重试。重试策略至少要包括次数、间隔、失败后的降级方案，以及是否需要通知。

第六，预算和成本在哪里限制？模型调用、图片生成、搜索接口、云资源都可能产生成本。Agent 不能因为“还没完成”就无限消耗。

第七，日志能不能复盘？一次执行至少要记录任务目标、关键输入、工具调用、主要输出、失败原因和人工确认点。没有日志，自动化越多，责任越模糊。

第八，哪些动作必须人工确认？把它写在流程里，不要藏在口头约定里。尤其是发布、删除、付款、授权、生产变更和敏感数据处理。

这 8 个问题不复杂，但能把“能跑的脚本”和“能用的工作流”区分开。

结尾

AI Agent 会越来越会调用工具，这是确定的趋势。它能写代码、查资料、整理内容、运行脚本、连接系统，也会逐渐进入更多人的日常工作。

但越是这样，越不能只盯着“它能做什么”。更应该追问的是：它做错时怎么办，做不完时怎么办，不确定时怎么办，需要承担外部影响时怎么办。

Agent 真正难的不是一路跑到终点，而是在每个关键节点都知道自己处于什么状态，哪些结果已经验证，哪些风险需要交还给人。

如果你现在想自动化一个重复任务，不要急着选工具。可以先问自己一个更实际的问题：这个任务最容易在哪一步出异常，而你希望系统当时怎么处理？

**封面文案：**让 Agent 学会处理异常

**分享语：**会调用工具的 AI 不稀奇，知道失败时怎么办，才是自动化真正进入工作流的开始。

**结尾引导语：**你现在最想自动化的重复任务是什么？最担心它在哪一步出错？