AI 主动:住在科幻片里的魔鬼

今晚好兄弟来公司聊新的产品方向，突然聊到了一个词：AI主动。

我当时有一种恍如隔世的感觉。

产品交付压力太大，我已经有一段时间没有认真思考过更下一步的事情了。而“AI主动”这个词，曾经无数次被我用来满足投资人对宏大叙事的想象。毕竟谁也不想在 IC 上说，自己花那么多钱投了一个饮食小项链吧。（自嘲一下，不要当真，我们还是很强）

但我后来意识到，“AI主动”不是一个简单的功能名。它更像是过去几年 AI 产品，尤其是 AI 硬件产品，用来安放焦虑的一个词。

硬件需要它解释：为什么我要把麦克风和摄像头塞进更多地方。

软件需要它解释：为什么我要做长期记忆、上下文、工具调用和用户画像。

创业者需要它解释：为什么我做的不是一个更会聊天的 App，而是某种通往未来生活方式的入口。

这个词很好用，因为它足够大，也足够模糊。

但越是宏大的词，越应该拆开看。

一个真正“主动”的 AI 系统，至少要完成几件事：它要感知环境，理解状态，继承长期记忆，判断用户偏好，选择行动方案，获得必要授权，并且知道什么时候不该打扰用户。

今天大多数产品，往往只完成了第一步或第二步，然后就开始宣称自己走向了第五步。

这也是我觉得“AI主动”越来越像一部科幻片的原因。

它看起来离我们很近，甚至已经出现在每一次产品发布会里；但真正落到用户生活里，又远得像一个尚未开机的电影项目。

Always-On：一个被硬件圈反复使用的美丽词汇

正如咸鱼所说（我真的是粉丝），2023 年 AI 硬件的核心命题，是把麦克风塞在各种地方；2025 年 AI 硬件的核心命题，是把摄像头塞在各种地方。

不管塞麦克风，还是塞摄像头，大家都不约而同地喜欢用一个词：Always-On。

永远在线。

这个词听起来很性感，像是未来生活的基础设施。但问题在于，即便模型上下文窗口并没有大到可以承载一切，即便多模态理解、长期记忆、隐私授权和低延迟推理都还没有完全跑通，Always-On 这个词却已经提前沾染上了硬件圈子里那股熟悉的恶习：

我可以不用，但你不能没有。

不得不说，这句话在某种程度上确实代表了先进生产力的发展方向。

如果没有这种市场共识，智能手机可能在 2018 年就已经停止迭代了。很多今天看起来“理所当然”的硬件能力，最开始也都是以“暂时没什么用，但以后肯定有用”的方式存在的。

但对于一个新品类来说，Always-On 不能永远停留在“以后肯定有用”。

时间久了，用户会问：你一直开着，到底想干什么？

于是，Always-On 需要一个出口。

这个出口，叫 AI主动。

AI主动到底是什么？

AI主动听起来特别好理解。

假设一个系统拥有足够多的环境信息，经过足够长时间的观察，那么它应该可以模拟人的决策，并提前预判人的需求。

比如它知道你在开会，就不打扰你。它知道你今天很累，就帮你减少无意义的信息。它知道你明天要出差，就提前整理行程、天气、材料和交通。它知道你可能忘了某件事，就在正确的时间提醒你。

乍一听，没有毛病。

但仔细想，这里其实存在一条技术和伦理都很难轻易跨越的鸿沟。

因为 AI主动真正困难的地方，并不是让 AI 在用户没有开口的时候说一句话。

这件事并不难。

真正困难的是：它凭什么判断自己现在应该开口？它凭什么判断这件事对用户重要？它凭什么决定自己应该做到哪一步？它凭什么承担做错之后的后果？

很多产品谈 AI主动，本质上谈的是“触发”。

但主动不是触发。

定时提醒是触发。接口回调是触发。检测到某个事件后自动发消息，也是触发。

真正的主动，是系统在需求尚未显性表达之前，识别出它和用户目标之间的关系，并在合适边界内完成介入。

这中间隔着的，不只是技术能力，还有判断、授权、责任和信任。

第一阶段：把“预设”藏起来

其实早在 2023 年，Coze 的产品先驱（我），就已经开始做各种关于 AI主动的探索。

不得不说，当时的 Coze 是一个非常有创新欲望的团队。虽然某些想法对于当时的模型能力而言有些生不逢时，但也确实做了很多市面上不曾存在的产品功能。其中有一些，直到今天还在这个市场上不断回响。

第一阶段的 AI 主动，非常朴素。

大模型本质上是一个续写机器。输入上文，猜下文。

那如果没有上文，怎么产生下文？

聪明的你很快就会想到：我们把上文藏在人们看不见的地方，不就显得像 AI 在主动说话了吗？

于是在开场问候里，在连续对话中，在奇怪的接口回调时，我们塞入了一些用户看不到的 user message：

“请问候用户。” “请继续。” “请根据下列信息总结。” “请结合刚刚返回的结果进行回复。”

然后把这些内容在 UI 上隐藏。

从表面上看，这确实很像 AI 一直在主动说话。

但聪明的你也很快会发现，这种做法在体验上有一个巨大 Bug。

如果你在过渡 Prompt 里隐藏的信息很少，比如只是发一句“请继续”，那么 LLM 的回复质量和信息密度相比此前不会有任何提升。

于是它看起来是在主动说话，但说出来的全是废话。

如果你在过渡 Prompt 里隐藏的信息很多，比如隐藏了一个完整的 Function Call 召回结果，那么就会出现另一个问题：LLM 看到的信息和用户看到的信息完全不对称。

俗称：聊不到一起去。

用户还停留在上一句话，模型已经读完了后台返回的一整份材料。用户以为自己在聊天，模型以为自己在汇报。用户感受到的是“你怎么突然说这个”，模型感受到的是“我明明已经拿到了上下文”。

这种体验非常割裂。

它不是 AI 主动，更像是信息回来之后，有一个看不见的人主动帮你问了 AI 一句。

因为信息不确定，所以问题不确定。因为问题不确定，所以体验不确定。

后来一些聪明的产品经理又想到了：既然事件触发不稳定，那时间触发能不能解决问题？

于是出现了一套定时 Trigger。

到了某个时间，帮你做一个固定流程，然后把结果总结给你。看起来，这也是某种程度的 AI主动。

但这里同样有问题。

大部分真正需要定时完成的任务，其实并不需要智能，只需要规则。

比如会议提醒、闹钟、日程通知、账单提醒。它们不是不重要，而是不需要大模型来完成。

而那些真正需要 AI 发挥主观能动性的任务，往往又不是定时发生的。

所以定时任务最后最容易跑通的场景，确切来说只有两个：

行业日报，工作周报。

因为它们既需要定时完成，又需要一定程度的整理、筛选和表达。

这也是第一阶段 AI 主动的困境：

它解决的是“AI 什么时候说话”的问题，但没有解决“AI 为什么有资格说这句话”的问题。

第二阶段：Prompt 不够，Context 来凑

经历过第一阶段的产品经理，都会得到一个惨痛教训：

通用模型 + 微量 Prompt，很难产生真正个性化的用户体验增量。

于是到了第二阶段，大家很容易走向另一个极端：

既然 Prompt 不够，那就上 Context。既然信息太少，那就收集更多信息。既然模型不懂用户，那就把用户的一切都交给模型。

于是大家开始做 Always-On，开始吹捧 Context 的重要性。

虽然暂时还不知道那么多信息具体要怎么用，但先拿到手再说。

这也是过去一两年很多 AI 软硬件产品非常微妙的地方：它们看起来是在服务人类，实质上经常是在服务 AI。

AI 需要语音，所以人要接受随身麦克风。AI 需要视觉，所以人要接受随身摄像头。AI 需要长期记忆，所以人要接受不断被记录。AI 需要更多上下文，所以人要主动把生活整理成机器更容易理解的格式。

这不是 AI Native。这是把用户变成模型的传感器外设。

很多产品没有让 AI 融入人的生活，反而在让人的生活适配 AI 的输入格式。用户不再是被服务的人，而变成了给模型持续供料的人。

这件事很荒诞。

因为技术本来应该降低人的负担，但在这个阶段，很多 AI 产品反而要求用户付出更多配合成本。你要授权，你要佩戴，你要录音，你要上传，你要忍受延迟，你要相信它“以后会有用”。

但即便用户真的配合了，产生了海量 Context，很快又会撞到下一面墙。

在真实产品里，Context Window 并没有人们想象中那么慷慨。

这里说的不只是字面上的上下文长度，而是三个东西：容量、成本和推理质量。

你不可能把所有 Context 都塞进去。即便塞进去，也会带来成本和延迟。即便成本和延迟都能接受，大量非结构化信息也会稀释模型的判断质量。

一天的录音、图像、位置、日程、聊天记录和操作行为，并不天然等于一个“可用的生活”。

数据多，不代表理解深。

于是聪明的你又会想到：我可以压缩 Context。

不断总结，压缩文本长度。或者做成文件树和索引，需要的时候再召回。或者用长期记忆，把用户重要信息沉淀下来。

这当然是必要的。

但它依然没有完全解决 AI 主动最核心的问题。

因为主动的本质，是在实际关联尚未显性产生之前，预先建立关联。

而信息召回的本质，是在关联已经被定义之后，再去寻找相关信息。

这两件事方向是反的。

检索系统通常需要一个问题。有了问题，才知道召回什么。但 AI 主动恰恰发生在用户还没有提出问题的时候。

如果问题已经明确了，那为什么还需要主动？

举个简单例子。

我工作了一整天，AI 发现我很累，于是提醒我：

“你今天辛苦了，早点休息。”

这句话主动吗？主动。

有用吗？没有。

因为它说了一句正确但廉价的废话。

真正有价值的主动，应该更像这样：

它知道我今天被客户连续追着改了三版方案；知道我明天上午有一个重要路演；知道我今晚原本约了一个不那么重要的饭局；知道材料里还有两页关键数据没有补齐；知道我最近几天睡眠不足；也知道我通常在这种状态下硬撑到凌晨，第二天表现反而更差。

于是它在晚上七点提醒我：

“今晚的饭局和明天路演目标冲突。我建议你改约，并把剩下两页材料拆成三个步骤。第一步我已经根据历史版本补了一个初稿，你确认后我再继续。”

这才开始接近主动。

但你会发现，要做到这一步，它需要的不只是更多 Context。

它还需要跨应用的信息整合，需要长期偏好，需要任务优先级判断，需要行动权限，需要社交代价评估，甚至需要理解我这个人在压力下通常会做出什么坏选择。

而这些东西并不只是“上下文”。

它们是关于人的判断。

更麻烦的是，AI 一旦开始替用户做判断，它就不再只是一个工具，而开始触碰用户的生活秩序。

错过一个提醒没什么。错发一个通知也没什么。但如果它帮你取消了一场饭局、推迟了一个会议、重排了一天的优先级，它就进入了一个更复杂的责任系统。

这也是为什么很多 AI 主动产品，最后会退回到一种非常安全、但也非常无聊的状态：

提醒你休息。提醒你喝水。提醒你今天很忙。提醒你可能有压力。提醒你关注健康。

正确，温柔，无害。

没用。

第三阶段：人不是 Context 的总和

前面讨论的，还是技术问题。

这些问题也许会随着模型、硬件、端侧推理、长期记忆和工具生态的发展被部分解决。

但更深的问题在于：我们对于 AI 主动的很多想象，建立在一个未必成立的前提上。

这个前提是：

只要系统掌握了足够多的 Always-On 信息，它就可以发现问题，并预测需求。

但人的需求，真的主要来源于 T 时刻之后的图像和音频信息吗？

未必。

人的需求可能来源于很多更遥远、更隐蔽，也更难被数字化的东西。

它可能来自幼年时第一次看到蝴蝶扇动翅膀。来自某一年夏天路边突然闻到的花香。来自小时候被老师当众表扬时，那种兴奋和羞耻混在一起的感觉。来自某次深夜失眠时，别人发来的一句话。来自一次没有被记录的失败。也来自一个人从未讲出口的嫉妒、恐惧、骄傲和不甘心。

这些信息，相比我们今天可以 Always-On 采集到的部分，更难被数字化，甚至无法穷尽。

更重要的是，就算这些信息真的被记录下来了，它们的意义也不是天然存在的。

同样是喝一杯威士忌，对不同的人来说，可能是放松，可能是奖励，可能是逃避，也可能是某种危险信号。

同样是打一场游戏，对不同的人来说，可能是社交，可能是休息，可能是麻痹，也可能是重新找回控制感。

AI 可以看到我今天下班后走向酒柜，但它未必知道我需要的是庆祝，还是逃离。

它可以看到我打开游戏，但它未必知道我是在恢复能量，还是在拖延崩溃。

所以 AI 永远无法仅凭外部记录，稳定判断：今天劳累一天之后，喝一杯威士忌和打一场游戏，哪个能让我更加放松。

这些细节看似微小，实则重要。

因为它意味着，技术的发展或许可以给用户提供一个 80 分的解法，但用户对于 AI 主动的期待，往往是一个一百分的全知全能的上帝。

它不仅要了解万物，还要洞察内心。

比分数差更可怕的是，也许用户永远不会知道，最后缺掉的那二十分到底在哪里。

他只会觉得这个系统大部分时候都挺准。于是慢慢接受它。慢慢依赖它。慢慢把自己的判断交出去。

直到有一天，他不再知道自己真正想要什么。

标准答案就足够了吗？

我经常被人称作一个技术悲观主义者。

但我其实并不反对技术。

我只是越来越怀疑，那些看起来更高效、更轻松、更顺滑的东西，最后到底是在解放人，还是在驯化人。

回顾短视频的崛起，从表现上看，大部分人类似乎确实更愿意接受一个获取成本更低的 80 分。

不需要搜索。不需要判断。不需要等待。不需要忍受复杂。只要不断下滑，就会有下一个还不错的东西出现。

这当然是巨大的产品成功。

抖音是移动互联网最后的绝唱。这是一个蕴含巨大商业价值的产品奇迹。但如果把目光放到更长的人类历史里，这件事真的很难简单说是进步还是退步。

推荐算法不仅是在分发内容，它也在训练人类如何欲望。

它让我们对复杂的事情越来越缺少耐心。让我们越来越习惯被喂养。让我们越来越像彼此。也让我们越来越不愿意从树上下来。

哪怕香蕉越来越少，饿一点也没关系。

别让我移动就好。

人性的下坠力，是低垂的果实，唾手可得。从商业角度看，它是增长；从文明角度看，它也可能是一片温柔的沼泽。

而 AI 主动，某种意义上正试图把短视频的推荐算法带入现实生活。

过去，推荐算法决定你看什么。未来，AI 主动可能决定你做什么。

过去，它推荐下一条视频。未来，它推荐下一步人生。

这比内容推荐更诱人，也更危险。

因为内容推荐消耗的是注意力，而生活推荐塑造的是人格。

未来某一天，我们也许真的可以不动脑子，获得一个 80 分的生活。

80 分的饮食。80 分的工作安排。80 分的社交建议。80 分的休息方式。80 分的消费决策。80 分的情绪管理。

听起来很不错。

毕竟 80 分距离 100 分，好像并不遥远。

但真正的问题是，当一个群体长期满足于 80 分，它可能就再也没有成为 101 分的可能。

100 分是标准答案。

101 分是人自己的偏执、创造、冒险、错误、后悔和突然拐弯。

而这些东西，恰恰是推荐系统最不擅长，也最不喜欢的。

因为它们无法稳定预测，无法规模化复制，也无法被轻易优化。

科技不应让生活更复杂

前两天看完澳门科技展，我的同事总结了一句话：

科技让生活更复杂。

这句话这几天一直在我脑子里转。

过去我们总以为，科技会让生活更简单。但很多时候，科技只是把复杂度换了一个地方。

AI 主动尤其如此。它表面上在帮用户减少决策，实际上可能引入了更多看不见的复杂度：

我该不该授权？它记录了什么？它为什么这么判断？它会不会误解我？它替我做错了，算谁的？我越来越依赖它之后，还能不能重新拿回自己？

所以我对 AI 主动始终有一种复杂的情感。

一方面，它一定会发生。因为人类太渴望省力，商业太擅长利用省力，技术也终究会不断向更低摩擦的方向前进。

另一方面，我也希望我们在兴奋之前，先对这个词保持一点敬畏。

Always-On 不等于 Always-Relevant。

永远在线，不等于永远有用。

知道很多，不等于理解很深。

提前开口，不等于真正主动。

一个好的 AI，不应该是住在摄像头里的上帝，随时准备替你安排人生。

它更应该像一盏灯。

路足够黑的时候，它亮一下。你看清之后，它就安静。它不替你走路，也不把所有路都修成同一种形状。

AI 主动最好的结局，不是让人类获得一个 80 分的自动生活。

而是把那些消耗人的、重复的、无意义的复杂度悄悄拿走，让人重新有力气去做那些无法被预测、无法被推荐、也无法被算法提前安排的事情。

因为一个人真正重要的部分，往往不在他的日程、录音、相册和浏览记录里。

而在他某一次明明可以选择 80 分，却偏要走向 101 分的瞬间。