我用 AI Agent 干活的一段复盘:从一次性输出到可复用流程

从网站、周报、汇报材料、知识库到学习体系，我对 Agent 工作边界的一些理解

最近我把这段时间用 AI Agent 干过的活翻了一遍。

一开始我以为会整理出一份“工具清单”：用了哪些模型、插件、自动化能力和 prompt。真写起来才发现，最值得复盘的不是工具，而是一个变化：

我怎么一点点把 Agent 从“帮我生成内容”，用到了“帮我跑一段流程”。

生成内容，是让它帮你写一段话、做一页材料、整理一个表格。跑流程，是让它理解目标、读取材料、操作工具、处理中间结果，最后交付一个可以检查的产物。

前者解决一次问题。后者开始接近一种新的工作方式。

这段时间我做的事情看起来很杂：网站页面、周报自动化、Excel 分类、汇报材料、知识库分析、学习计划、客户事件报告……但背后有一条线：

不是问 AI 能不能做，而是不断拿真实工作去试：哪些环节能交给 Agent，哪些判断必须留在人手里。

先说一下我这段时间主要用过的几类 Agent 工具。

Codex 桌面版 / CLI：更适合代码、文件、文档、表格、网页素材这类“在本地工作区里持续改”的任务。桌面版适合多线程、长任务和结果 review；CLI 更适合直接在命令行里快速处理项目。Claude Code：更像一个工程协作型 coding agent，适合在代码库里读文件、改文件、跑命令、沉淀 skill。我在浏览器自动化、Excel 处理、流程复盘这类任务里用得比较多。OpenClaw：更偏“个人桌面 Agent / 自动化工作台”的方向，适合探索本地化、长期运行、连接不同工具和渠道的场景。但这类工具早期也更容易遇到部署、版本和稳定性问题，适合拿来探索边界。

简单说，Codex 更像工作区里的执行伙伴，Claude Code 更像工程任务里的协作者，OpenClaw 更像桌面自动化和个人 Agent 的试验场。它们不是互相替代的关系，更像不同工作形态下的几种入口。

01 从想法到一个能打开的网站

搭建一个轻量网站页面，是我最早感受到 Agent 价值的场景之一。

这类工作以前会被拆成很多块：页面结构、视觉风格、文案表达、代码、部署、后续修改。Agent 介入以后，它可以先帮你拆页面结构，再把结构变成页面，最后陪你反复调文案、调层级、调风格。

但我真正需要盯住的，不是每个技术细节（技术细节AI搞定），而是：

这个页面要给谁看？看完希望对方记住什么？哪些表达可以明确写，哪些要保守写？哪些信息涉及合规和授权，不能随便放？

这件事给我的启发是：

Agent 能把一个“我想要个东西”的模糊想法，推进到“这里有个链接，你可以打开看看”。

很多工作卡住，不是因为我们完全不会，而是从想法到成品之间有太多小台阶。Agent 的价值，就是把这些小台阶铺起来。

02 不只是做 PPT，而是重新理解“汇报材料”

过去我们默认：一说到汇报，就是 PPT；一说到宣传，就是长图；一说到分析，就是 Word 或 Excel。用 Agent 多了以后，我发现交付形态其实可以更灵活。

比如用 HTML 做可打开、可滚动的分析报告；用 reveal.js 做可翻页、有进度的网页 PPT；用 HTML/CSS 做手机端长图海报；用 Markdown 先组织结构，再让 Agent 转成不同展示形态。

重点不在某个工具。工具只是载体。真正重要的是，Agent 更擅长根据结构生成材料：

WHY背景：客户当前遇到什么问题？HOW挑战：为什么现有方式不够？WHAT方案：我们如何解决？PROVE价值：客户最终得到什么？

只要结构说清楚，它就能把内容变成可阅读、可演示、可复用的材料。后续修改也可以从“调版式”变成“调表达”：

把第二部分改得更像客户汇报，少讲技术实现，多讲业务影响。

很多材料不一定非得从 Office 软件开始。只要目标是表达，HTML、Markdown、网页报告都可以成为交付形态。

手机海报也是类似逻辑。真正的问题不是“好不好看”，而是可读性、适配性、滚动体验和信息层级。把这些坑沉淀成规范，下次就不是重新做一张图。

03 那些很碎的周报工作，最适合被 Agent 接住

另一类典型场景，是内部系统里的重复操作。

有一项周报相关工作，过去每周都要从系统里筛选新记录，再逐条打开详情，把客户、产品、销售、测试场景、开通时间等字段整理进 Excel。

这类工作有个特点：

每一步都不难，但每一步都要人盯着。

登录系统、选时间、筛条件、翻页、点详情、复制字段、粘贴到表格、检查格式、避免重复录入。说它复杂吧，也没有多复杂；说它简单吧，每周都做一次，确实烦。

后来我让 Agent 接管后半段流程。人的部分只保留必须人工完成的动作，比如登录确认。后面的筛选、翻页、识别记录、打开详情、提取字段、写入 Excel，则交给 Agent 配合自动化工具完成。

更关键的是，做完一次以后，我让它反过来总结流程，沉淀成一个 skill。下一次只要告诉它日期范围，它就知道要跑哪套流程。

最值得自动化的，不一定是最难的工作，而是最稳定、最高频、最消耗注意力的工作。

04 混乱材料，不要急着写，先让它长出结构

还有一类工作，是处理客户材料。

比如有一次要整理一份技术规范修订建议表，里面有几十条内容，涉及功能、性能、合规、服务、商务、边界确认等多个方向。

如果直接逐条看，很容易陷入一种状态：每条都重要，但不知道从哪里开始说。

我让 Agent 先做的不是“写一份总结”，而是先分类：

请不要先给结论。先逐条阅读原始内容，按以下维度判断：1. 这是功能能力问题，还是服务/商务/合规问题？2. 是明确不支持，还是需要进一步澄清？3. 哪些条目适合放到客户会议上重点沟通？4. 哪些只是措辞修订，不应升级为方案风险？

这个提示词里有一个关键点：先判断，再写作。

最后产出的不是一份普通表格，而是一份可以拿去开会的沟通材料：重点关注、分类汇总、明确不支持、重点沟通、待澄清项，都被拆开了。

类似的还有对接公司 Wiki 做文档分析。接入知识库之后，Agent 可以围绕已有文档做检索、归纳、对比，甚至把整理后的内容写回指定位置。客户侧发生安全事件时，也可以让 Agent 按时间线和攻击者路径整理 HTML 报告，比单纯写“事件经过”更清楚。

业务材料的难点，往往不是写得不够漂亮，而是结构还没有浮出来。

Agent 很适合做第一轮结构化。但结构出来以后，哪些结论能讲、哪些边界要收、哪些措辞要谨慎，还是要人来判断。

05 AI 帮我学习，不是替我学习

我还用 Agent 做了一件很有价值的事：帮我固定学习过程。

这里不只是“用 AI 学 AI”。AI 可以帮我学 AI 网关、MaaS、RAG、模型路由，也可以帮我学一个新产品、一套开源项目、一类客户场景。

以前我也会收藏资料、看文章、问概念。但看完不代表会用，收藏不代表理解。

后来我开始用类似 spec 的方式组织学习：

每个主题写成一个 spec：学习目标、核心概念、示例、常见误区、验收问题。

比如学习 Tokenizer，不是停留在“它负责把文本切成 token”，而是要能回答：为什么 token 会影响成本？为什么上下文窗口不是“字数窗口”？客户问费用估算时，这个概念怎么解释？

AI 最有价值的地方之一，不是替你学会，而是帮你把“我到底算不算学会了”这件事说清楚。

学完以后，不看材料能回答验收问题，才算完成。

06 提示词不是模板，而是工作意图

用多了以后，我越来越觉得，提示词不是玄学，但也不是“背几个万能模板”。

第一，做研究时，不要把结论塞进问题里。

不要问：

为什么 A 方案比 B 方案更适合客户？

更好的问法是：

请比较 A、B、C 三种方案：1. 各自适合什么场景？2. 主要风险是什么？3. 在什么条件下 A 不一定更优？

研究类任务要尽量开放，让 AI 帮你找可能性，而不是证明预设立场。

第二，要建议时，先说目标，不要只说动作。

不要只说“帮我优化这个 Excel”。可以改成：

我要拿这份 Excel 和客户开会。目标是快速识别争议点、明确哪些能满足、哪些需要澄清、哪些可能影响商务边界。请先设计分类方式，再输出适合会议沟通的版本。

第三，复杂任务先让 Agent 反问。

在开始写之前，请先问我 3 个会影响输出质量的问题。

很多时候，不是 Agent 写得差，而是我一开始没交代受众、场景、边界和最终用途。

第四，做完以后追问一句：能不能复用？

请把这次过程总结成一个可复用流程：适用场景、输入材料、执行步骤、检查项、下次可复用的 prompt 或 skill。

这一步经常比当次输出更值钱。

07 一些坑和新的困惑

现在很多 Agent 工作，某种程度上是在做“马绳”：给 AI 套上工具、流程、约束、上下文、检查点，让它能稳定往前跑。英文里有人把这类工作叫 Harness Engineering。

这件事现在很重要。因为模型虽然强，但还不是每次都稳定。我们需要 spec、workflow、skill、检查清单，让它少跑偏。

但这些“马绳”会不会只是阶段性经验？

比如我之前用过一些开源 Agent 工具，早期部署麻烦，使用中也有 bug。后来版本迭代以后，部署变简单了，bug 也修复了，很多原来靠经验绕开的坑直接消失了。

今天很重要的经验，可能明天会被产品化；今天必须手工搭的马绳，可能以后会被模型能力或 Agent 框架直接吸收。

所以现在学 AI，有点矛盾：不亲手试场景，就不知道边界在哪里；但很多细碎技巧的生命周期可能很短。

但这不代表不用学。只是要分清楚：哪些是短期工具经验，哪些是长期能力。

短期经验包括某个工具怎么装、某个参数怎么配、某个 bug 怎么绕。长期能力则是：如何定义问题，如何拆流程，如何给上下文，如何设计验收，如何判断结果是否可用。

还有一个更重要的坑：

AI 的能力和结果，不等于你的能力和结果。

Agent 输出了一份很漂亮的材料，不代表我很强；它跑通了一段流程，也不代表我已经掌握了这套能力。

如果我不知道它为什么这样写，不知道结果有什么风险，也不能在客户追问时解释清楚，那这个结果并没有真正变成我的能力。

AI 时代，人更要想清楚自己的价值在哪里。不是和 AI 比谁写得快、谁总结得多，而是判断方向、设定标准、识别风险、理解现场、做最终取舍。

结尾：探索得足够多，才知道边界在哪里

回头看，我最大的收获不是“我用 AI 做了很多事”，而是对边界更敏感了。

一个任务适不适合交给 Agent，我现在会先看几个条件：

规则是否稳定？输入材料是否足够？步骤能不能描述清楚？结果有没有办法验收？中间是否涉及必须由人判断的业务、合规、承诺边界？

如果这些条件比较清楚，Agent 往往能接得住。如果目标含糊、材料不足、验收标准也没有，那它就容易变成一个“看起来很努力，但结果不稳定”的助手。

所以我现在不太问“AI Agent 能不能替代谁”。这个问题太大，也太容易空转。

我更关心的是：

我手里哪些工作已经足够流程化，可以让 Agent 接一段？哪些判断仍然必须由我来做？

人不是从流程里消失了，而是位置变了。

人负责方向、边界和取舍。Agent 负责把大量中间过程跑起来。

它不是一个神奇按钮，更像一个可以被训练进你工作流里的执行伙伴。

你给它越多真实材料，它越懂你的现场；你沉淀越多流程，它越能复用上次的经验；你越清楚目标和边界，它越不容易乱跑。

最后真正变强的，可能不只是 Agent。

而是你开始重新审视自己的工作：哪些是判断，哪些是执行；哪些是经验，哪些可以变成流程；哪些事情每次都重新做，其实早就该沉淀下来。

这才是我这段时间用 AI Agent 干活，最有价值的一点。

最后补几个这段时间反复用到的技术名词，方便有兴趣的人继续查：

playwright-cli：让 Agent 操作浏览器，适合处理需要登录、点击、筛选、翻页的网页流程。CDP：Chrome DevTools Protocol，用来连接已经打开的 Chrome，适合保留人工扫码登录这类动作。openpyxl / Excel COM：读写 Excel，处理格式、公式、样式和兼容性问题。MCP：让 Agent 接入外部系统或知识库，不只是靠复制粘贴材料。reveal.js：用网页方式做可翻页、有进度的演示材料。spec / plan / skill：把目标、步骤、验收和复用流程固定下来，减少每次从头解释。Codex / Claude Code / OpenClaw：我这段时间主要使用的几类 Agent 工具，分别更偏本地工作区、工程协作和桌面自动化探索。