AI Agent 的下一步:不是更会聊天,而是更会交付真实工作
这两年很多人第一次认真感受到 AI agent 的能力,是从写代码开始的。
原因很简单:代码这件事天然适合 agent。它有文件,有命令,有测试,有报错,有 diff,也有版本管理。一个 agent 改完代码之后,我们至少可以问几个很具体的问题:测试过了吗?哪里变了?能不能复现?有没有截图?CI 过了吗?
所以 coding 很自然地成了第一块试验田。
但如果只把 agent 理解成“更会写代码的 AI”,可能会低估接下来真正重要的变化。更大的变化是:agent 正在从 coding 走向更广泛的 knowledge work,再进一步走向 personal agent 和 enterprise agent。
也就是说,它不只是帮你写一个函数,而是开始进入真实工作流程:查资料、读文档、整理上下文、做安全审查、复现 bug、写报告、处理内部系统里的任务,甚至长期理解一个人的工作习惯。
这听起来很诱人,但真正困难的地方也在这里。
因为真实工作不像一次聊天。真实工作有上下文,有权限,有环境,有风险,有验收标准。一个 agent 说“我完成了”,其实不够。我们真正需要的是:它能不能把事情做完,并留下别人可以检查的证据。
从写代码到做工作,难点变了
写代码时,agent 的边界相对清楚。
它读代码,改文件,跑测试,提交 diff。即使它犯错,人类也有很多办法发现:测试失败、编译失败、代码 review 不通过,或者运行效果不对。
但 knowledge work 不一样。
比如让 agent 帮你整理一份行业报告。它可能读了很多网页,看起来总结得很流畅,但你怎么知道它没有漏掉关键来源?怎么知道它没有把旧消息当成新消息?怎么知道它没有把一个人的推文理解成官方发布?
再比如让 agent 帮团队处理内部流程。它可能要查文档、读表格、调用 API、通知同事、改配置。这里的问题就不是“回答得好不好”,而是:它有没有权限做这件事?它拿到的上下文是不是对的?它改了什么?失败了能不能恢复?
所以 agent 进入真实工作后,核心挑战会从“模型聪不聪明”,变成“流程能不能被控制”。
真正有用的 agent,要能把复杂工作拆开
一个很值得注意的方向,是用很多 agent 并行处理复杂任务。
安全审查就是典型例子。过去一个安全团队要审一个大代码库,可能要花很长时间:读依赖、看鉴权、找输入输出、复现漏洞、写报告。现在更合理的方式可能不是让一个超级 agent 从头看到尾,而是把任务拆成很多小块:
一个 agent 专门查依赖风险;
一个 agent 专门看鉴权绕过;
一个 agent 专门找敏感信息泄漏;
一个 agent 专门复现可疑路径;
一个 agent 专门整理证据和修复建议。
这样做的重点,不是制造一堆“看起来很忙”的 agent,而是让每个 agent 都有清楚的任务边界、运行环境和输出格式。
它们最好在 sandbox 里运行,避免误操作真实系统;它们要留下证据,说明自己看了哪些文件、跑了哪些命令、发现了什么风险;最后再由一个汇总流程把这些证据合成报告。
这其实是 agent 工作流的一个重要原则:复杂任务不要只靠一个长上下文硬撑,而要拆成可验证的小任务。
但拆开还不够,还要能复现
真实工作里最让人不放心的,不是 agent 不会说,而是它说得太像真的。
尤其是修 bug、做 QA、做安全审查这种任务,光有文字解释是不够的。一个靠谱的 agent 应该能进入一个临时环境,把问题发生时的状态搭出来,复现 bug,完成修复,再用截图、视频、测试结果或者日志证明修复有效。
这也是为什么远程浏览器、远程桌面、VNC、临时 CI 环境这类东西会变重要。
未来我们判断一个 agent 有没有把活干完,可能不会只看它最后写的一段总结,而会看它有没有留下这些东西:
复现环境是什么;
执行了哪些步骤;
bug 原来怎么出现;
修复后怎么验证;
截图或视频在哪里;
测试结果是什么;
如果失败,恢复路径是什么。
这听起来像工程细节,但它其实决定了 agent 能不能进入更严肃的工作。
因为真实团队不需要一个只会说“我觉得修好了”的助手。真实团队需要一个能把证据贴到 PR 里、让别人快速复核的工作伙伴。
这和医疗 agent 评测是同一个思想
这个思路不只适用于软件。
今天看到的 PhysicianBench 也在讲类似的事情,只是它把场景换成了医疗 EHR 工作流。
医疗 agent 的评测不能只问:“这个医学问题回答得对不对?”因为真实医生工作不是答题比赛。它可能要查病人记录、看历史 encounter、调取检查结果、判断下一步动作、生成文档,还要保证每一步都符合流程。
所以 PhysicianBench 的关键不是又做了一个问答榜单,而是把任务放进更接近真实系统的环境里,用一系列 structured checkpoints 去检查 agent 的每一步。
这和软件 QA 里的“复现 bug、修复、贴视频到 PR”其实是一个底层概念:execution-grounded evaluation。
用大白话说,就是:
不要只问 agent 会不会讲,而要让它真的做一遍,然后检查过程和结果。
软件场景里,证据可能是截图、视频、测试和 PR。
医疗场景里,证据可能是 EHR API 调用、任务 checkpoint、医生审查。
安全审查场景里,证据可能是代码位置、漏洞路径、复现命令、影响范围。
场景不同,但核心一样:agent 必须在环境里行动,并留下可验证证据。
Personal agent 也绕不开这个问题
很多人期待 personal agent:它懂你的文件,懂你的目标,懂你的偏好,能长期帮你处理事情。
这个方向当然很有想象力。但越 personal,越不能只靠“模型懂我”。
因为 personal agent 会碰到很多边界问题:
哪些文件它可以读?
哪些文件它不能碰?
它能不能替你发消息?
它能不能改日历?
它能不能删除或移动资料?
它做错了能不能恢复?
它怎么知道这次任务和你长期偏好一致?
所以 personal agent 的真正难点,可能不是“它有没有记忆”,而是“它有没有一套可控的工作系统”。
它需要记忆,但不能乱记。
它需要工具,但不能乱用。
它需要主动性,但不能越界。
它需要总结能力,但更需要证据链。
对普通人来说,应该练什么
如果你不是做模型训练的人,也不是 agent 平台工程师,那这件事对你有什么用?
我觉得最实用的练习不是追每一个新工具,而是开始用 agent workflow 的方式重新设计自己的工作。
你可以拿一个真实任务来练,比如每日信息整理、PR review、日志诊断、文件归档、竞品分析,然后问四个问题:
第一,它需要哪些上下文?
也就是 agent 要读什么资料,哪些是官方来源,哪些只是参考,哪些历史内容不能重复。
第二,它可以使用哪些工具?
比如搜索网页、读本地文件、跑脚本、截图、访问 API、生成报告。
第三,哪些动作必须经过你确认?
读文件可能可以自动,写文件可能要分情况,删除、发送、发布、覆盖已有内容一定要更谨慎。
第四,它怎么证明自己做完了?
是测试结果、截图、event log、source list、diff,还是 checklist?
这四个问题比“哪个模型最强”更贴近日常工作。因为模型会变,但真实工作里的上下文、权限、验证和恢复,一直都需要设计。
结论
AI agent 的下一步,不是更会聊天。
它的下一步,是更会进入真实工作:理解上下文,拆解任务,调用工具,复现问题,完成修复,留下证据,并在出错时能恢复。
coding 是第一块试验田,因为代码天然可验证。
knowledge work 是下一块更大的场地,因为很多人的工作本质上就是处理信息、判断上下文、推进流程。
personal agents 和 enterprise agents 则会把问题继续放大:当 agent 越来越懂你、越来越能行动,我们就越需要清楚的边界和证据闭环。
未来有用的 agent,可能不是那个最会说“我明白了”的 agent。
而是那个能告诉你:
我读了什么。
我做了什么。
我怎么验证的。
哪里失败了。
下一步怎么恢复。
这才是从聊天助手走向真实工作伙伴的关键一步。
参考来源
Peter Yang, X post, 2026-05-05: https://x.com/petergyang/status/2051508988936937764
Guillermo Rauch, X post about deepsec, 2026-05-04: https://x.com/rauchg/status/2051386798899888539
Peter Steinberger, X post about Crabbox/WebVNC QA workflow, 2026-05-05: https://x.com/steipete/status/2051557150040711425
Peter Steinberger, X post about Crabbox 0.5.0, 2026-05-05: https://x.com/steipete/status/2051485798613111116
PhysicianBench, Hugging Face Papers: https://huggingface.co/papers/2605.02240
夜雨聆风