从＂App 货架＂到＂意图引擎＂:AI 时代手机 OS 的范式迁移

从"App 货架"到"意图引擎"：AI 时代手机 OS 的范式迁移

5 月 27 日，旧金山，OpenAI 总部办了一场只持续 6 个小时的语音黑客之夜——Voice Hack Night。几十支队伍带着各自的实时语音项目现场开工，评出 4 强，再由社区投票决出冠军。第一名叫 Agentic OS for a Phone，它给自己的定位只有一句话："a voice-first mobile OS. You talk, it answers, takes action, and builds the right interface in real time."——语音优先的手机操作系统，你说话，它回答、采取行动，并实时生成对应界面。

项目备注里还有一行字，我盯了很久："All built just today."（全部都是当天搭出来的。）

作为产品经理，我的第一反应不是激动，而是冷静下来想了一件事：连一个当天就能复刻的原型，都已经能演示"用语音替代 App、界面按需生成"了，那我们熟了十几年的那套移动端逻辑——主屏图标矩阵、应用商店、漏斗转化——是不是正站在一次范式迁移的门口？

这篇文章想把这个问号拆开：手机 OS 到底会怎么变，意图从哪来，为什么是手机，新的 OS 会长成什么样，以及——这对今天的产品经理意味着什么。

1范式的核心：从"人找功能"到"功能找人"

过去十几年的移动端逻辑是什么。

你想打车，得先在脑子里完成一次"意图翻译"：打车 = 打开滴滴 = 点首页 = 输入目的地 = 选车型 = 确认。你想点外卖、查快递、改签机票，每一次都是同样的动作——人，带着一个意图，去一个个 App 里寻找、匹配能完成它的功能。主屏上密密麻麻的图标矩阵，本质是一个货架；应用商店是更大的货架；产品经理画的漏斗，是在货架前争夺你的注意力。

这套逻辑成立的前提是：机器不懂你的意图，所以"理解和翻译"的工作，全部外包给了人。 你得自己知道"这件事该用哪个 App、点哪个按钮"。

AI 的介入，正在把这个前提反过来。当系统能够理解自然语言、能调用工具、能结合上下文判断你大概率想干什么，"理解意图"这件事，就不必再由人独自承担了。手机 OS 开始有能力反向匹配：不是你去货架上找功能，而是 OS 理解你的意图，主动把最合适的功能调出来、组织好、递到你面前或者帮你完成。

一句话——从"人找功能"到"功能找人"。

这不是把 Siri 做得更聪明那么简单。它动的是移动端最底层的那块地基：交互的发起方，从"人主动检索"变成"系统主动理解与编排"。一旦发起方变了，长在它上面的图标矩阵、应用商店、漏斗，全都要跟着重写。

2意图从哪来：被动输入，和主动预判

"功能找人"的前提，是 OS 得先拿到你的意图。意图从哪来？我把它分成两条路。

第一条是被动获取——等你开口。 你用文字或语音把需求说出来，系统做意图识别，再去执行。黑客松那个 demo 走的就是这条路：你说话，它行动。这条路的好处是精确、可控，意图是你亲口给的，不会跑偏；代价是它永远在"等"，你不开口，它不动。

第二条是主动预判——不等你开口。 系统通过你的历史记录、长期习惯，再结合当下的时间、地点、场景，提前判断你接下来大概率想干什么。早上八点你走进地铁站，它把交通卡和通勤路线提前推到手边；你落地一座陌生城市，它把打车、地图、酒店预订排到最前面。你还没说，它已经准备好了。

真正有想象力的形态，是这两条路的合流：OS 用主动预判铺好大部分日常，再用被动输入兜住那些预判不到的、临时的、随机的需求。

这里要泼一盆冷静的水，也是产品经理最该想清楚的一点：主动输入这条路，永远不能砍掉。 人的意图是高度随机和多变的，而任何单一终端能收集到的信息又是有限的——它不可能真懂你此刻脑子里那个突然冒出来的念头。把宝全押在"猜"上，体验反而会变成灾难（那种"自作聪明"推错东西的功能，你一定用过）。所以未来的 OS 不是"取消输入"，而是让你大多数时候不必输入，但任何时候都能输入。

3谁来采集意图：一场入口之争，以及手机的天然优势

如果"理解意图"是下一个时代的核心能力，那么谁离用户的意图最近、谁能持续且低成本地采集到意图信号，谁就握住了入口。这件事，现在正打得火热。

智能眼镜是最被看好的一极——各家的眼镜大战已经开打，它的逻辑是"第一人称视角"：你看到什么、在做什么，它都同步知道，意图信号几乎贴着感官采集。智能手表走的是"贴身传感器 + 持续学习"路线：心率、运动、位置，外加随时抬腕说一句话。国内云玦科技的 AI 手表（搭载 AgentOS）就是个鲜活案例——有 UP 主戴了它七天，用"主动走进楚门的世界"来形容它如何一点点摸清自己的作息、喜好、日程乃至人际关系，反过来主动替你预判。智能录音类设备（录音豆、yooclaw 这一类）则盯着"对话流"——把你一天里说过的话，变成可被理解的上下文。

这些新入口都很性感，但它们有同一个短板：要么覆盖的场景太窄，要么要用户养成一个全新的携带和使用习惯。 而习惯，是这世界上最贵的东西。

手机的天然优势恰恰在这里。它是当下用户最习惯、携带率最高、信息采集最方便也最全面的终端：位置、应用使用、支付、日程、通讯、传感器……几乎所有意图信号，手机本来就在持续接触。它不需要你养成任何新习惯——它已经在你口袋里待了十几年。

所以这场入口之争里，手机不是没有对手，而是站在一条别人要费很大劲才能追上的起跑线上。眼镜、手表、录音设备，更可能成为手机的"延伸触角"，而不是它的替代者。真正的变量不是"谁取代手机"，而是手机自己愿不愿意、能不能从"App 货架"进化成"意图引擎"。

4那 OS 会长成什么样：UI 即时生成，App 退居"能力"

回到那个让我盯了很久的 demo。它真正激进的地方，不是"语音控制手机"——那个我们听了十年了——而是这一句：builds the right interface in real time（实时生成对应界面）。

把今天的逻辑和它对照一下。今天，每个 App 的每个界面，都是产品和设计团队提前画好、固定下来的。你打开它，看到的是一套为"所有人、所有场景"预先设计的通用界面，然后你自己在里面找你要的那一块。

而 Agentic OS 指向的方向是：界面不再被提前画死，而是 agent 根据这一次任务的结果，临时生成最适合展示它的样子。 你问"我这个月外卖花了多少、都点了啥"，它不必把你丢进某个 App 的某个二级页面，而是当场生成一张为这个问题量身定做的卡片——该是图表就是图表，该是清单就是清单，用完即走。

这背后是一种很有意思的工程范式：不给 agent 一个个固定 UI，而是给它一套设计规范（一份 design.md），让它在规范的约束下实时生成界面。设计团队的工作，于是从"画完所有页面"，变成"定义好生成界面的规则与审美边界"。

顺着这条线推到底，一个更彻底的判断浮现出来：App 会从"目的地"退化成"能力"。 今天 App 是你要去的地方（打开它、进入它、停留在它里面）；未来 App 更可能是一组被 OS 调用的能力与工具——它提供"打车""支付""订票"的能力，但用户不必再"进入"它，调用、编排、呈现，统统交给 OS 这台意图引擎完成。

这，才是标题里"意图引擎"四个字的实指：OS 不再是一个摆满 App 的货架，而是一台接收意图、调度能力、即时生成界面的引擎。

那这台引擎，到底怎么去调度这些被打散成"能力"的 App？业内现在有两条路线，产品经理该听懂它们的区别。

一条叫 GUI Agent：系统级 AI 像个"会用手机的机器人"，直接看屏幕、认按钮、模拟人的点击，把事一步步办完。它最大的好处是不需要 App 配合——存量 App 一个都不用改，拿来就能被指挥；代价是慢、脆、易错，界面一改版它就可能"瞎"一次，本质是隔着一层玻璃在操作。所以它更像过渡形态。

另一条叫 A2A（Agent to Agent）：系统级 Agent 理解意图后不去戳界面，而是直接和各 App 自己的 Agent"对话"，把任务交给对方执行、再拿回结构化结果。它快、稳、可靠，是更彻底的"App 退居能力"——但前提是 App 方愿意开放自己的 Agent 和接口。你看，问题又被逼回了"权限"二字。OPPO 把这条路线说得最直白：GUI Agent 只是中间态，终点是 A2A；而能不能走到终点，取决于生态愿不愿意把门打开——这也为后文那个更尖锐的判断，埋下了伏笔。

5为什么这不是"又一个炫酷 Demo"

每隔一阵就有个惊艳的交互 demo 刷屏，然后没了下文。凭什么这次不一样？我的理由有两条。

第一条，是"造界面"的成本正在趋近于零。 UI 即时生成这件事，三年前并不现实——临时生成一套可用界面的代价太高。但 AI 写代码、生成应用的能力正在陡峭爬升：Anthropic 在《When AI builds itself》里披露，截至 2026 年 5 月其合并的生产代码已有 80%+ 由 Claude 写成，并判断 AI 正逼近"递归式自我改进"——开始设计自己的后继者。当"造软件"本身的成本被一路打下来，"为每一次任务临时造一个界面"才第一次在工程上、成本上都说得通。形态的可能性，是被底层能力解锁的，不是靠一个 demo 拍脑袋拍出来的。

第二条，是严肃的研究力量在往同一个方向走。 Google DeepMind 在它的研究博客里探索过未来人机交互的新范式（如 AI-pointer 这类工作），讨论的同样是"当 AI 足够强，人和设备之间的交互界面，该被重新设计成什么样"。当一个黑客松冠军、一条 AI 自我编程的能力曲线、一个顶级实验室的交互研究——三股力量从不同方向指向同一个落点时，它就不再是一次性的灵光，而更像一个正在逼近的共识。

换句话说：demo 负责让我们"看见"，而真正让我"相信"的，是它背后那两条正在变陡的曲线。

6一个更尖锐的判断，和给产品经理的三件事

写到这，按惯例该收一个温和的"行动指南"。但我想先抛一个可能会被同行反驳的判断：这件事根本不用等"几年内"——2026 就是系统级 Agent 的分水岭，而真正被这波浪潮颠覆的，恰恰不是做 App 的公司，而是今天活得最滋润的那些"超级 App"。

这不是预言，是正在发生的现实。2026 年最热闹的赛道，是一场被戏称为"养虾"的智能体大战——从小米的 miclaw、荣耀的 YOYO Claw、阿里云的 JVS Claw，到腾讯、字节，几乎所有大厂都在做自己的"Claw"智能体。其中最该被产品经理盯住的是小米 miclaw——号称国内首个"手机端智能体"，已在小米 17 系列上封测，干的恰恰是"从对话能力走向系统级执行能力"：你说需求，它自己调系统、开 App、跨服务把流程串起来。另一边，字节的豆包二代手机走的是整机路线：把助手更深嵌进系统底层，为落地甚至要逐一去谈生态权限。当我们还在问"iOS 还是 Android 谁先动手"，国内厂商早已把系统级 Agent 摆上了货架。

而最值得玩味的，是豆包们最难啃的那块骨头——不是技术，是权限：它得一个个去说服打车、外卖、订票平台，把"下单"这一步开放给系统级 Agent。这道坎指向的，正是它的命门。超级 App 的护城河，建在"把用户尽可能多的需求圈在自己一个 App 里"这个前提上——你进来了，就别想出去。可意图引擎的逻辑是釜底抽薪：当入口变成系统级的语音 Agent，当叫车、点餐、付款、订票都能由 OS 跨服务一句话搞定，超级 App 精心搭的那套"App 内闭环"就失去了意义。用户不必再"进入"任何一个 App，"超级"这个入口自然就空了。AI 自主性真正瓦解的，是"流量入口"这个概念本身——而过去十年几乎所有商业模式，都建在争夺入口之上。

我清楚这个判断有争议。有人会说，系统厂商出于商业利益不会自断财路，超级 App 也会反过来自己做 Agent。这些反驳都成立。但历史经验是，范式迁移从不征求既得利益者的同意——当年功能机厂商也不信触屏会赢。

还有人会说：就算入口没了，超级 App 也能变成被 OS 调用的能力——一个 API、一个 MCP Server，照样活。这话只对了一半：活下来的是"能力"，死掉的是"超级"。 当你从用户主动打开的"目的地"，降级成 Agent 按价格择优调用的供应商之一，用户关系、捆绑变现、议价权会一起流失。能不能不被商品化，取决于你 API 之下还有没有真护城河：美团的运力、滴滴的司机、支付牌照这类实体壁垒，能让你当上"强势能力方"；而纯靠聚合与入口撑起来的"超级"，会被打回一个随时可替换的后端调用。

所以我的结论很直接：与其赌哪家超级 App 能转型成功，不如现在就假设"入口会消失"，并据此重构自己的产品。

手机 OS 的范式迁移，不会等某一场盛大发布会来盖棺定论——它正借着一代代还不完美的 AI 手机、一条悄悄变陡的能力曲线，已经发生着。产品经理要做的，是趁它还没成为所有人的常识，先把它写进自己的产品路线图——把产品从"App 货架"上搬下来，接进那台正在启动的"意图引擎"里。

没人会发请柬，但门已经开了。