个人助理 AI,可能真的不远了

这次我有一个很强的 aha moment。

起点很小。

我刷到一条故宫骑行的视频，第一反应不是“这个内容很有价值”，而是一个很生活化的念头：

周末能不能带孩子也去骑一圈？

如果放在以前，这个念头大概率会死在收藏夹里。

我会顺手收藏一下，可能转发给自己，心里想着“有空研究”。但真要研究，就要一帧帧暂停视频，看路牌，辨认街口，判断路线是不是能骑，再去地图里找停车点、拼返程、生成导航。

这些事情不难。

但它们很碎。

很多生活里的好念头，不是被否定掉的，而是被这种碎执行慢慢耗没的。

这次我把视频交给 Codex。

我不是让它“推荐一条北京亲子骑行路线”，而是让它把原视频里的路线还原出来，最好变成一套能直接出门用的东西。

后面它真的做完了。

它听视频口播，提取长安街、王府井、南池子、东华门、午门、西华门、角楼这些锚点。

它截关键帧，用宫墙、护城河、门洞、路牌去校验证据。

它把这些点落到真实地图道路上，修正不能直接连线的地方。

它生成了一张可点击的证据地图：每个点都能打开对应视频片段、时间点和口播依据。

它补了停车点和返程闭环，最后生成手机上能一键打开的高德导航路线。

这件事最触动我的，不是“AI 会画地图”。

而是我第一次非常清楚地感觉到：一个本来很容易消失的生活念头，被智能体接住了，然后一步步变成了可执行计划。

这让我突然觉得，个人助理 AI 真的不远了。

我们对“个人助理”的想象太像秘书了

很多人想象个人助理 AI，会先想到日程、邮件、订票、提醒、会议纪要。

这当然是助理工作的一部分。

但我觉得这不是最关键的部分。

▎真正的个人助理，不应该只是帮你处理已经明确的任务。

它更重要的能力，是在你的意图还很小、还没成型、还没被你正式安排成一个任务时，就能把它接住。

比如你刷到一个视频，突然想带孩子去体验一下。

比如你看到一篇文章，脑子里冒出一个选题。

比如你和团队聊完一个产品方向，隐约觉得里面有一个重要判断。

比如你临时想到一个周末活动、一次调研、一个可验证的小实验。

这些东西刚出现时，往往不是任务。

它们只是一个念头。

它们还没有标题，没有截止时间，没有明确步骤，也没有进入任何项目管理工具。

过去的个人助理系统很难处理这种东西。

因为它需要你先把念头整理成任务，再交给系统。

但真实生活里，很多念头就是死在这一步。

你还没来得及整理，它已经冷掉了。

所以我现在判断，个人助理 AI 的关键，不是“更像秘书”，而是更像一个贴身的意图转化层。

它要能把人的一个很轻的念头，转成可执行、可检查、可继续推进的结果。

真正的变化，是 AI 开始跨过聊天框

过去几年，我们习惯把 AI 当成聊天框。

你问，它答。

你给材料，它总结。

你让它写，它生成。

这当然有用，但它仍然停在“信息处理”层。

这次让我有感觉的地方，是 AI 不只是回答我“故宫附近可以怎么骑”。

它开始跨工具执行。

它需要处理视频素材。

需要截帧。

需要读画面。

需要理解路线。

需要落到地图。

需要生成本地文件。

需要打开高德导航。

需要把结果整理成小红书卡片。

需要在发布时处理 NAS、Docker、容器路径和平台接口。

这里面任何一个环节单独看，都不神奇。

但连起来之后，性质就变了。

它不再是一个“回答问题的模型”，而开始像一个围绕我工作的执行环境。

我给出的不是一个标准任务。

我给出的是一个生活意图。

它把这个意图拆成很多小任务，再把小任务串起来，最后给我一个可用结果。

这就是个人助理 AI 的早期形态。

不是因为它已经完美。

而是因为它开始站在了正确的位置上。

它不再只在聊天框里等我提问，而是开始进入浏览器、文件系统、地图、发布后台、NAS 服务和本地工作区。

个人助理 AI 真正需要的，不是一个更会说话的界面。

它需要的是一个能围绕个人意图调度工具的运行环境。

个人助理 AI 的最小闭环

如果从这个案例倒推，我觉得个人助理 AI 至少要有一个最小闭环。

第一，捕捉意图。

▎不是等我写出完整需求，而是能接住“我想带孩子也骑一圈”这种还不完整的念头。

第二，补全上下文。

它要知道我说的是哪个视频，视频里有哪些画面，地图在哪里，高德怎么打开，本地文件放在哪，哪些路径是真实可用的。

第三，拆成任务。

它要把一个模糊意图拆成：识别路线、校验地点、生成地图、补停车点、生成导航、制作卡片、发布内容。

第四，执行到结果。

▎不是给我一段建议，而是真的产出文件、地图、链接、卡片、发布记录。

第五，遇到卡点能诊断。

小红书发布第一次失败，不是因为内容错了，而是因为 NAS 里的小红书 MCP 读不到 Mac 本地图片路径。

这就是一个典型的真实世界问题。

个人助理 AI 如果只会说“请检查网络”，就没用。

它必须能继续往下查：服务在哪，容器叫什么，图片应该放到哪里，正确发布路径是什么。

最后，形成记忆和下一次改进。

这次发布之后，我记录了一个事实：小红书图片要先复制进 xiaohongshu-mcp 容器的 /tmp/，不能直接用 Mac 本地路径。

这不是一次性经验。

这是下一次个人助理 AI 变得更可靠的材料。

所以，个人助理 AI 的核心不是一次把事情做对。

而是每一次做事之后，都能让下一次更接近“自动可靠”。

它还远没有成熟，但方向已经很明确

我不想把这件事夸大。

今天的个人助理 AI 还远不稳定。

浏览器自动化会卡。

登录态会失效。

权限边界很麻烦。

不同平台之间的数据和文件路径经常不一致。

很多动作必须保留人工确认。

有些事情不能让 AI 直接做，比如涉及交易、隐私、账号权限和不可逆发布的动作。

这些都不是小问题。

但我现在越来越觉得，这些问题更像工程化和产品化问题，而不是方向问题。

因为关键能力已经在碎片中出现了：

AI 能理解人的自然语言意图。

AI 能读文件、看图、处理网页、调用接口。

AI 能在失败后继续诊断路径。

AI 能把一次任务沉淀成 skill、记录和流程。

AI 能在边界清楚时执行，在边界不清楚时停下来问人。

这几件事合在一起，就已经很接近个人助理的底层能力。

真正缺的，是把这些能力产品化成一个稳定、可信、可授权、可复盘的个人环境。

未来的个人助理，不是替你生活

我现在不太认同一种说法：AI 会替我们安排一切。

这听起来很酷，但也很危险。

真正好的个人助理 AI，不应该替人生活。

它应该重新划分人的注意力。

人负责心动、判断、选择、价值排序。

AI 负责检索、整理、执行、校验、归档和复盘。

这次故宫骑行路线的事情就是这样。

我负责的是那个最初的动机：我想带孩子去体验一下。

我负责判断这件事是否值得做，哪些风险要保留人工确认，最后内容是否可以发布。

AI 负责把视频拆开，把路线还原，把地图做出来，把高德导航接上，把小红书卡片生成，把发布路径跑通。

这不是替我生活。

这是把我从琐碎执行里放出来，让一个生活念头有机会真的发生。

这也是为什么我觉得个人助理 AI 不远了。

不是因为它已经像真人助理一样成熟。

而是因为它第一次有机会成为一个人的意图执行层。

当你脑子里冒出一个小念头时，它不再只是被记录下来。

它可以被拆解、被执行、被校验、被沉淀。

过去很多念头会死在收藏夹里。

以后，它们可能会被 AI 救活。