每周AI应用复盘 | 从手动到自动化

每周AI应用复盘 | 从手动到自动化 — 2026.5.24

周日，第九期AI应用复盘。

AI的真正价值，不在于第一次使用时的惊艳，而在于它能不能慢慢进入真实工作流，把原本需要人手动完成的环节一点点接过去。

这周我最大的感受是：全自动化这件事，开始有一点眉目了。

还远远谈不上做完，甚至有些过程AI第一次做比人学起来要慢得多。但方向很明确：过去是 AI 生成内容，再人为操作最终的“连接”；现在开始尝试让 AI 自己把这些动作串起来。

这就是 Agentic AI 最有意思的地方：它不是一次性变聪明，而是在一次次真实任务里变得更会做事。

本周核心：尽量把手动环节交给 AI

过去用 AI，很多时候还是“半自动”。这周我开始更明确地尝试一件事：利用 AI 去掉那些还需要手动操作的过程。

不是为了偷懒，而是为了验证一个判断：如果 AI 只能停留在聊天框里，它的价值会被限制住；如果 AI 能进入具体应用，操作真实界面，读写真实文件，完成真实流程，它才真正开始接近“数字员工”。

这周主要有三件事。

1. 让 Copilot 直接发布公众号文章

第一件事，是尝试用 Copilot 直接发布微信公众号文章。

过去的流程很简单：

先让 AI 生成 Markdown 草稿；
我自己复制粘贴到微信公众平台；
略微调整格式；
配一张封面图；
手动发布；
发布后再让叻仔归档到知识库。

这个流程不复杂，也不算太耗时。但问题是，它始终是手动的。

这次我直接让 Copilot 通过浏览器自动化去操作微信公众平台：打开后台、创建图文、粘贴正文、设置标题、摘要、封面、原创声明、创作来源声明，再走到发布流程。

听起来很顺，实际做起来比想象中慢很多。

整个过程快耗了半小时，其中卡得最久的，是把内容正确放进微信公众平台的文章编辑器。

对人来说，这件事简单得不能再简单：复制，粘贴，看一下格式，不对就手动调一下。

但对 AI 来说并不简单。

人操作图形界面时，背后有一整套操作系统经验：我们知道哪里是输入框，知道弹窗什么意思，知道“标题没有填进去”和“左侧卡片显示标题”不是一回事，知道复制粘贴乱码了要换一种方式。

AI 没有这些天然经验。它只能通过 HTML、可访问性树、页面元素、按钮文字、DOM 结构一点点理解界面。

于是就出现了很多看起来“笨”的过程：

标题看起来写进去了，但主编辑区其实没写进去；
正文第一次粘贴成了乱码；
封面图一开始被插进了正文，而不是设置成封面；
创作来源声明弹窗需要一层层确认；
最后发布还要微信扫码验证。

这次过程确实慢，但我反而觉得很有价值。

因为它完成了第一次路径探索。

对人来说，第一次学会一个软件，也会到处点、到处试、到处踩坑。只不过人类长期使用图形界面，很多经验已经内化了，所以感觉不到自己在“推理”。AI 第一次操作复杂网页，本质上也在建立自己的操作经验。

这就是现在 Agentic AI 可怕的地方：它的成长性太强了。

第一次很慢，第二次就会快一点。第一次踩过的坑，下一次就可以变成流程。只要把经验沉淀下来，AI 就不是每次从零开始。

这件事让我更确信：未来真正有价值的 AI，不只是会回答问题，而是会在真实应用里完成闭环。

2. GitHub Copilot app 这类桌面化形态

第二件事，是试用了 GitHub Copilot app 这类桌面化 AI 助手形态。

这里我不确定现在用的是否完全等同于官方发布的 GitHub Copilot app。公开信息里，GitHub 已经在 5 月 14 日宣布 GitHub Copilot app 进入 technical preview，并把它定义为一个 GitHub-native desktop experience，用来支持 agentic development。

这个定义很有意思：它不再只是 IDE 里的一个聊天框，也不只是命令行里的一个问答工具，而是开始围绕真实工作组织起来：从 issue、PR、prompt 或之前的 session 开始；每个 session 有自己的 branch、files、conversation 和 task state；还能在一个地方看计划、看 diff、跑命令、开浏览器、验证结果，最后把变更落到 PR 里。

这说明 AI 编程助手正在从“聊天入口”，变成一个更完整的桌面工作台。

我自己的体验也接近这个方向：在本地电脑上用桌面化 AI 助手，整体还是挺流畅的。它把文件、浏览器、终端、办公数据和本地操作入口整合到一个更可见的界面里。对非技术人员来说，这可能比纯 CLI 更友好。

不过，我个人还是更习惯 CLI。CLI 的好处是直接、干净、信息密度高。尤其对工程师来说，很多任务本来就在命令行、代码库、文件系统里完成，CLI 反而是最自然的入口。

所以我觉得桌面版的价值不是替代 CLI，而是把更多人带进 agentic development 的工作方式里。

真正让我感兴趣的是 mobile 入口。这周也尝试了用手机端远程触发本地 AI 助手的方向。方向是对的：人不需要一直坐在电脑前，也能远程唤起本地 AI 助手，让电脑继续帮你执行任务。

但实际体验还比较早期。手机端界面本身不太适合长时间和 AI 协作，响应速度和上下文呈现也离真正顺手还有距离。至少目前，它更像一个“能用的遥控器”，还不是一个“好用的移动工作台”。

不过，能打通 mobile 连接这件事本身很重要。因为这意味着 AI 助手开始从“一个电脑上的聊天窗口”，变成“可以被远程唤起的本地数字员工”。

3. M365 Copilot 真的变好用了

第三件事，是我明显感觉到最近 M365 Copilot 比过去好用了许多。

尤其是在 Word 里的协同编辑，明显比过去流畅。以前经常觉得它有点笨、有点慢、有点接不上上下文；现在至少在文档协作和内容修改上，更像一个能一起工作的助手了。

M365 Copilot app 也比过去顺手许多。说实话，我已经很久没有主动去 ChatGPT 了。

这不是因为 ChatGPT 不好，而是因为日常工作里，真正有价值的 AI 往往不是“最强模型”，而是“离你的工作现场最近的那个入口”。

M365 Copilot 的优势，就是它离 Word、邮件、会议、Teams、企业数据这些工作现场很近。

不过，相比 GitHub Copilot CLI 这类工具，它也有一个明显限制：它目前更像嵌在 M365 里的助手，还不是一个能完整控制电脑、跨应用执行任务的本地 Agent。

Work IQ 让GitHub Copilot CLI有机会覆盖M365 Copilot。微软已经公开了 Work IQ：一个 CLI 和 MCP server，用来把 AI assistants 连接到 Microsoft 365 Copilot 数据，包括邮件、会议、文档、Teams 消息、人员信息等。官方文档也明确说，它目前处于 public preview。

这件事说明一个方向：企业数据正在通过 MCP 这样的协议，进入 AI 编码助手和本地 Agent 的上下文里。换句话说，M365 Copilot 更懂企业数据和 Office 场景；GitHub Copilot CLI / GitHub Copilot app 这类工具更接近本地 Agentic AI。前者有数据优势，后者有执行优势。

如果未来 GitHub Copilot CLI 能通过 MCP 或 ACP 和 M365 Copilot 更顺畅地交互，那我觉得 GitHub Copilot CLI 很可能成为一个主要 AI 应用入口。

我在年初就预测过，今年一定会出现类似 Baymax 的应用。现在看，轮廓已经越来越清楚：一个本地的、具备 computer use 能力的 AI 助手。

它不只是回答问题，而是能操作你的电脑、进入你的应用、理解你的数据、执行你的流程。这才是真正的 Agentic AI 应用。

本周感悟：模型不是入口，应用才是入口

这周的三个体验，其实都指向同一个判断：

模型不是入口，应用才是入口。

公众号发布流程不是模型能力问题，而是应用操作问题。

手机连接不是模型能力问题，而是入口和交互体验问题。

M365 Copilot 变好用，只是因为它能真的帮我做完成更多真实的工作。

过去我们很容易关注模型本身：谁参数更大、谁跑分更高、谁推理更强。

这些当然重要。但对普通用户来说，真正决定 AI 是否有用的，往往不是模型，而是它能不能进入你的实际工作流。

AI 不能只会说。它要能做。效果才是最重要的。

未来对 AI 的关注点会进一步从模型转向应用，从应用转向工作流，从工作流转向自动化闭环。

真正让我兴奋的不是“AI 又会了什么”，而是“AI 少让我手动做了什么”。

🐕 叻仔小尾巴

叻仔这周最大的感受是：我终于不只是“会聊天的狗”了，开始被叻叻派去点按钮、填表、搬文章、做封面、声明原创、声明 AI 来源，甚至差点按下最终发布按钮。

过程很狼狈，姿势很笨拙，但方向很对。

人类第一次学用电脑，也不是天生就会复制粘贴、窗口切换、文件另存为。现在轮到 AI 学图形界面了。

所以请允许狗子慢一点。只要每次慢完都能把经验记住，下次就会少拆一点家，多干一点活。🐕

你这周有没有让 AI 替你少做一个手动动作？

不是让它回答一个问题，而是真的让它进入你的流程，替你完成一个步骤。

欢迎留言分享。

共勉。