今晚好兄弟来公司聊新的产品方向,突然聊到了一个词:AI主动。
我当时有一种恍如隔世的感觉。
产品交付压力太大,我已经有一段时间没有认真思考过更下一步的事情了。而“AI主动”这个词,曾经无数次被我用来满足投资人对宏大叙事的想象。毕竟谁也不想在 IC 上说,自己花那么多钱投了一个饮食小项链吧。(自嘲一下,不要当真,我们还是很强)
但我后来意识到,“AI主动”不是一个简单的功能名。它更像是过去几年 AI 产品,尤其是 AI 硬件产品,用来安放焦虑的一个词。
硬件需要它解释:为什么我要把麦克风和摄像头塞进更多地方。
软件需要它解释:为什么我要做长期记忆、上下文、工具调用和用户画像。
创业者需要它解释:为什么我做的不是一个更会聊天的 App,而是某种通往未来生活方式的入口。
这个词很好用,因为它足够大,也足够模糊。
但越是宏大的词,越应该拆开看。
一个真正“主动”的 AI 系统,至少要完成几件事:它要感知环境,理解状态,继承长期记忆,判断用户偏好,选择行动方案,获得必要授权,并且知道什么时候不该打扰用户。
今天大多数产品,往往只完成了第一步或第二步,然后就开始宣称自己走向了第五步。
这也是我觉得“AI主动”越来越像一部科幻片的原因。
它看起来离我们很近,甚至已经出现在每一次产品发布会里;但真正落到用户生活里,又远得像一个尚未开机的电影项目。
Always-On:一个被硬件圈反复使用的美丽词汇
正如咸鱼所说(我真的是粉丝),2023 年 AI 硬件的核心命题,是把麦克风塞在各种地方;2025 年 AI 硬件的核心命题,是把摄像头塞在各种地方。
不管塞麦克风,还是塞摄像头,大家都不约而同地喜欢用一个词:Always-On。
永远在线。
这个词听起来很性感,像是未来生活的基础设施。但问题在于,即便模型上下文窗口并没有大到可以承载一切,即便多模态理解、长期记忆、隐私授权和低延迟推理都还没有完全跑通,Always-On 这个词却已经提前沾染上了硬件圈子里那股熟悉的恶习:
我可以不用,但你不能没有。
不得不说,这句话在某种程度上确实代表了先进生产力的发展方向。
如果没有这种市场共识,智能手机可能在 2018 年就已经停止迭代了。很多今天看起来“理所当然”的硬件能力,最开始也都是以“暂时没什么用,但以后肯定有用”的方式存在的。
但对于一个新品类来说,Always-On 不能永远停留在“以后肯定有用”。
时间久了,用户会问: 你一直开着,到底想干什么?
于是,Always-On 需要一个出口。
这个出口,叫 AI主动。
AI主动到底是什么?
AI主动听起来特别好理解。
假设一个系统拥有足够多的环境信息,经过足够长时间的观察,那么它应该可以模拟人的决策,并提前预判人的需求。
比如它知道你在开会,就不打扰你。 它知道你今天很累,就帮你减少无意义的信息。 它知道你明天要出差,就提前整理行程、天气、材料和交通。 它知道你可能忘了某件事,就在正确的时间提醒你。
乍一听,没有毛病。
但仔细想,这里其实存在一条技术和伦理都很难轻易跨越的鸿沟。
因为 AI主动真正困难的地方,并不是让 AI 在用户没有开口的时候说一句话。
这件事并不难。
真正困难的是:它凭什么判断自己现在应该开口?它凭什么判断这件事对用户重要?它凭什么决定自己应该做到哪一步?它凭什么承担做错之后的后果?
很多产品谈 AI主动,本质上谈的是“触发”。
但主动不是触发。
定时提醒是触发。接口回调是触发。检测到某个事件后自动发消息,也是触发。
真正的主动,是系统在需求尚未显性表达之前,识别出它和用户目标之间的关系,并在合适边界内完成介入。
这中间隔着的,不只是技术能力,还有判断、授权、责任和信任。
第一阶段:把“预设”藏起来
其实早在 2023 年,Coze 的产品先驱(我),就已经开始做各种关于 AI主动的探索。
不得不说,当时的 Coze 是一个非常有创新欲望的团队。虽然某些想法对于当时的模型能力而言有些生不逢时,但也确实做了很多市面上不曾存在的产品功能。其中有一些,直到今天还在这个市场上不断回响。
第一阶段的 AI 主动,非常朴素。
大模型本质上是一个续写机器。输入上文,猜下文。
那如果没有上文,怎么产生下文?
聪明的你很快就会想到:我们把上文藏在人们看不见的地方,不就显得像 AI 在主动说话了吗?
于是在开场问候里,在连续对话中,在奇怪的接口回调时,我们塞入了一些用户看不到的 user message:
“请问候用户。” “请继续。” “请根据下列信息总结。” “请结合刚刚返回的结果进行回复。”
然后把这些内容在 UI 上隐藏。
从表面上看,这确实很像 AI 一直在主动说话。
但聪明的你也很快会发现,这种做法在体验上有一个巨大 Bug。
如果你在过渡 Prompt 里隐藏的信息很少,比如只是发一句“请继续”,那么 LLM 的回复质量和信息密度相比此前不会有任何提升。
于是它看起来是在主动说话,但说出来的全是废话。
如果你在过渡 Prompt 里隐藏的信息很多,比如隐藏了一个完整的 Function Call 召回结果,那么就会出现另一个问题:LLM 看到的信息和用户看到的信息完全不对称。
俗称:聊不到一起去。
用户还停留在上一句话,模型已经读完了后台返回的一整份材料。 用户以为自己在聊天,模型以为自己在汇报。 用户感受到的是“你怎么突然说这个”,模型感受到的是“我明明已经拿到了上下文”。
这种体验非常割裂。
它不是 AI 主动,更像是信息回来之后,有一个看不见的人主动帮你问了 AI 一句。
因为信息不确定,所以问题不确定。 因为问题不确定,所以体验不确定。
后来一些聪明的产品经理又想到了:既然事件触发不稳定,那时间触发能不能解决问题?
于是出现了一套定时 Trigger。
到了某个时间,帮你做一个固定流程,然后把结果总结给你。看起来,这也是某种程度的 AI主动。
但这里同样有问题。
大部分真正需要定时完成的任务,其实并不需要智能,只需要规则。
比如会议提醒、闹钟、日程通知、账单提醒。它们不是不重要,而是不需要大模型来完成。
而那些真正需要 AI 发挥主观能动性的任务,往往又不是定时发生的。
所以定时任务最后最容易跑通的场景,确切来说只有两个:
行业日报,工作周报。
因为它们既需要定时完成,又需要一定程度的整理、筛选和表达。
这也是第一阶段 AI 主动的困境:
它解决的是“AI 什么时候说话”的问题,但没有解决“AI 为什么有资格说这句话”的问题。
第二阶段:Prompt 不够,Context 来凑
经历过第一阶段的产品经理,都会得到一个惨痛教训:
通用模型 + 微量 Prompt,很难产生真正个性化的用户体验增量。
于是到了第二阶段,大家很容易走向另一个极端:
既然 Prompt 不够,那就上 Context。 既然信息太少,那就收集更多信息。 既然模型不懂用户,那就把用户的一切都交给模型。
于是大家开始做 Always-On,开始吹捧 Context 的重要性。
虽然暂时还不知道那么多信息具体要怎么用,但先拿到手再说。
这也是过去一两年很多 AI 软硬件产品非常微妙的地方:它们看起来是在服务人类,实质上经常是在服务 AI。
AI 需要语音,所以人要接受随身麦克风。AI 需要视觉,所以人要接受随身摄像头。AI 需要长期记忆,所以人要接受不断被记录。AI 需要更多上下文,所以人要主动把生活整理成机器更容易理解的格式。
这不是 AI Native。这是把用户变成模型的传感器外设。
很多产品没有让 AI 融入人的生活,反而在让人的生活适配 AI 的输入格式。用户不再是被服务的人,而变成了给模型持续供料的人。
这件事很荒诞。
因为技术本来应该降低人的负担,但在这个阶段,很多 AI 产品反而要求用户付出更多配合成本。你要授权,你要佩戴,你要录音,你要上传,你要忍受延迟,你要相信它“以后会有用”。
但即便用户真的配合了,产生了海量 Context,很快又会撞到下一面墙。
在真实产品里,Context Window 并没有人们想象中那么慷慨。
这里说的不只是字面上的上下文长度,而是三个东西:容量、成本和推理质量。
你不可能把所有 Context 都塞进去。即便塞进去,也会带来成本和延迟。即便成本和延迟都能接受,大量非结构化信息也会稀释模型的判断质量。
一天的录音、图像、位置、日程、聊天记录和操作行为,并不天然等于一个“可用的生活”。
数据多,不代表理解深。
于是聪明的你又会想到: 我可以压缩 Context。
不断总结,压缩文本长度。或者做成文件树和索引,需要的时候再召回。或者用长期记忆,把用户重要信息沉淀下来。
这当然是必要的。
但它依然没有完全解决 AI 主动最核心的问题。
因为主动的本质,是在实际关联尚未显性产生之前,预先建立关联。
而信息召回的本质,是在关联已经被定义之后,再去寻找相关信息。
这两件事方向是反的。
检索系统通常需要一个问题。有了问题,才知道召回什么。但 AI 主动恰恰发生在用户还没有提出问题的时候。
如果问题已经明确了,那为什么还需要主动?
举个简单例子。
我工作了一整天,AI 发现我很累,于是提醒我:
“你今天辛苦了,早点休息。”
这句话主动吗?主动。
有用吗?没有。
因为它说了一句正确但廉价的废话。
真正有价值的主动,应该更像这样:
它知道我今天被客户连续追着改了三版方案;知道我明天上午有一个重要路演;知道我今晚原本约了一个不那么重要的饭局;知道材料里还有两页关键数据没有补齐;知道我最近几天睡眠不足;也知道我通常在这种状态下硬撑到凌晨,第二天表现反而更差。
于是它在晚上七点提醒我:
“今晚的饭局和明天路演目标冲突。我建议你改约,并把剩下两页材料拆成三个步骤。第一步我已经根据历史版本补了一个初稿,你确认后我再继续。”
这才开始接近主动。
但你会发现,要做到这一步,它需要的不只是更多 Context。
它还需要跨应用的信息整合,需要长期偏好,需要任务优先级判断,需要行动权限,需要社交代价评估,甚至需要理解我这个人在压力下通常会做出什么坏选择。
而这些东西并不只是“上下文”。
它们是关于人的判断。
更麻烦的是,AI 一旦开始替用户做判断,它就不再只是一个工具,而开始触碰用户的生活秩序。
错过一个提醒没什么。错发一个通知也没什么。但如果它帮你取消了一场饭局、推迟了一个会议、重排了一天的优先级,它就进入了一个更复杂的责任系统。
这也是为什么很多 AI 主动产品,最后会退回到一种非常安全、但也非常无聊的状态:
提醒你休息。提醒你喝水。提醒你今天很忙。提醒你可能有压力。提醒你关注健康。
正确,温柔,无害。
没用。
第三阶段:人不是 Context 的总和
前面讨论的,还是技术问题。
这些问题也许会随着模型、硬件、端侧推理、长期记忆和工具生态的发展被部分解决。
但更深的问题在于: 我们对于 AI 主动的很多想象,建立在一个未必成立的前提上。
这个前提是:
只要系统掌握了足够多的 Always-On 信息,它就可以发现问题,并预测需求。
但人的需求,真的主要来源于 T 时刻之后的图像和音频信息吗?
未必。
人的需求可能来源于很多更遥远、更隐蔽,也更难被数字化的东西。
它可能来自幼年时第一次看到蝴蝶扇动翅膀。来自某一年夏天路边突然闻到的花香。来自小时候被老师当众表扬时,那种兴奋和羞耻混在一起的感觉。来自某次深夜失眠时,别人发来的一句话。来自一次没有被记录的失败。也来自一个人从未讲出口的嫉妒、恐惧、骄傲和不甘心。
这些信息,相比我们今天可以 Always-On 采集到的部分,更难被数字化,甚至无法穷尽。
更重要的是,就算这些信息真的被记录下来了,它们的意义也不是天然存在的。
同样是喝一杯威士忌,对不同的人来说,可能是放松,可能是奖励,可能是逃避,也可能是某种危险信号。
同样是打一场游戏,对不同的人来说,可能是社交,可能是休息,可能是麻痹,也可能是重新找回控制感。
AI 可以看到我今天下班后走向酒柜,但它未必知道我需要的是庆祝,还是逃离。
它可以看到我打开游戏,但它未必知道我是在恢复能量,还是在拖延崩溃。
所以 AI 永远无法仅凭外部记录,稳定判断:今天劳累一天之后,喝一杯威士忌和打一场游戏,哪个能让我更加放松。
这些细节看似微小,实则重要。
因为它意味着,技术的发展或许可以给用户提供一个 80 分的解法,但用户对于 AI 主动的期待,往往是一个一百分的全知全能的上帝。
它不仅要了解万物,还要洞察内心。
比分数差更可怕的是,也许用户永远不会知道,最后缺掉的那二十分到底在哪里。
他只会觉得这个系统大部分时候都挺准。于是慢慢接受它。慢慢依赖它。慢慢把自己的判断交出去。
直到有一天,他不再知道自己真正想要什么。
标准答案就足够了吗?
我经常被人称作一个技术悲观主义者。
但我其实并不反对技术。
我只是越来越怀疑,那些看起来更高效、更轻松、更顺滑的东西,最后到底是在解放人,还是在驯化人。
回顾短视频的崛起,从表现上看,大部分人类似乎确实更愿意接受一个获取成本更低的 80 分。
不需要搜索。不需要判断。不需要等待。不需要忍受复杂。只要不断下滑,就会有下一个还不错的东西出现。
这当然是巨大的产品成功。
抖音是移动互联网最后的绝唱。这是一个蕴含巨大商业价值的产品奇迹。但如果把目光放到更长的人类历史里,这件事真的很难简单说是进步还是退步。
推荐算法不仅是在分发内容,它也在训练人类如何欲望。
它让我们对复杂的事情越来越缺少耐心。让我们越来越习惯被喂养。让我们越来越像彼此。也让我们越来越不愿意从树上下来。
哪怕香蕉越来越少,饿一点也没关系。
别让我移动就好。
人性的下坠力,是低垂的果实,唾手可得。从商业角度看,它是增长;从文明角度看,它也可能是一片温柔的沼泽。
而 AI 主动,某种意义上正试图把短视频的推荐算法带入现实生活。
过去,推荐算法决定你看什么。 未来,AI 主动可能决定你做什么。
过去,它推荐下一条视频。 未来,它推荐下一步人生。
这比内容推荐更诱人,也更危险。
因为内容推荐消耗的是注意力,而生活推荐塑造的是人格。
未来某一天,我们也许真的可以不动脑子,获得一个 80 分的生活。
80 分的饮食。80 分的工作安排。80 分的社交建议。80 分的休息方式。80 分的消费决策。80 分的情绪管理。
听起来很不错。
毕竟 80 分距离 100 分,好像并不遥远。
但真正的问题是,当一个群体长期满足于 80 分,它可能就再也没有成为 101 分的可能。
100 分是标准答案。
101 分是人自己的偏执、创造、冒险、错误、后悔和突然拐弯。
而这些东西,恰恰是推荐系统最不擅长,也最不喜欢的。
因为它们无法稳定预测,无法规模化复制,也无法被轻易优化。
科技不应让生活更复杂
前两天看完澳门科技展,我的同事总结了一句话:
科技让生活更复杂。
这句话这几天一直在我脑子里转。
过去我们总以为,科技会让生活更简单。但很多时候,科技只是把复杂度换了一个地方。
AI 主动尤其如此。它表面上在帮用户减少决策,实际上可能引入了更多看不见的复杂度:
我该不该授权?它记录了什么?它为什么这么判断?它会不会误解我?它替我做错了,算谁的?我越来越依赖它之后,还能不能重新拿回自己?
所以我对 AI 主动始终有一种复杂的情感。
一方面,它一定会发生。因为人类太渴望省力,商业太擅长利用省力,技术也终究会不断向更低摩擦的方向前进。
另一方面,我也希望我们在兴奋之前,先对这个词保持一点敬畏。
Always-On 不等于 Always-Relevant。
永远在线,不等于永远有用。
知道很多,不等于理解很深。
提前开口,不等于真正主动。
一个好的 AI,不应该是住在摄像头里的上帝,随时准备替你安排人生。
它更应该像一盏灯。
路足够黑的时候,它亮一下。你看清之后,它就安静。它不替你走路,也不把所有路都修成同一种形状。
AI 主动最好的结局,不是让人类获得一个 80 分的自动生活。
而是把那些消耗人的、重复的、无意义的复杂度悄悄拿走,让人重新有力气去做那些无法被预测、无法被推荐、也无法被算法提前安排的事情。
因为一个人真正重要的部分,往往不在他的日程、录音、相册和浏览记录里。
而在他某一次明明可以选择 80 分,却偏要走向 101 分的瞬间。
夜雨聆风