从"App 货架"到"意图引擎":AI 时代手机 OS 的范式迁移

5 月 27 日,旧金山,OpenAI 总部办了一场只持续 6 个小时的语音黑客之夜——Voice Hack Night。几十支队伍带着各自的实时语音项目现场开工,评出 4 强,再由社区投票决出冠军。第一名叫 Agentic OS for a Phone,它给自己的定位只有一句话:"a voice-first mobile OS. You talk, it answers, takes action, and builds the right interface in real time."——语音优先的手机操作系统,你说话,它回答、采取行动,并实时生成对应界面。
项目备注里还有一行字,我盯了很久:"All built just today."(全部都是当天搭出来的。)
作为产品经理,我的第一反应不是激动,而是冷静下来想了一件事:连一个当天就能复刻的原型,都已经能演示"用语音替代 App、界面按需生成"了,那我们熟了十几年的那套移动端逻辑——主屏图标矩阵、应用商店、漏斗转化——是不是正站在一次范式迁移的门口?
这篇文章想把这个问号拆开:手机 OS 到底会怎么变,意图从哪来,为什么是手机,新的 OS 会长成什么样,以及——这对今天的产品经理意味着什么。


过去十几年的移动端逻辑是什么。
你想打车,得先在脑子里完成一次"意图翻译":打车 = 打开滴滴 = 点首页 = 输入目的地 = 选车型 = 确认。你想点外卖、查快递、改签机票,每一次都是同样的动作——人,带着一个意图,去一个个 App 里寻找、匹配能完成它的功能。主屏上密密麻麻的图标矩阵,本质是一个货架;应用商店是更大的货架;产品经理画的漏斗,是在货架前争夺你的注意力。
这套逻辑成立的前提是:机器不懂你的意图,所以"理解和翻译"的工作,全部外包给了人。 你得自己知道"这件事该用哪个 App、点哪个按钮"。
AI 的介入,正在把这个前提反过来。当系统能够理解自然语言、能调用工具、能结合上下文判断你大概率想干什么,"理解意图"这件事,就不必再由人独自承担了。手机 OS 开始有能力反向匹配:不是你去货架上找功能,而是 OS 理解你的意图,主动把最合适的功能调出来、组织好、递到你面前或者帮你完成。
一句话——从"人找功能"到"功能找人"。
这不是把 Siri 做得更聪明那么简单。它动的是移动端最底层的那块地基:交互的发起方,从"人主动检索"变成"系统主动理解与编排"。一旦发起方变了,长在它上面的图标矩阵、应用商店、漏斗,全都要跟着重写。
"功能找人"的前提,是 OS 得先拿到你的意图。意图从哪来?我把它分成两条路。
第一条是被动获取——等你开口。 你用文字或语音把需求说出来,系统做意图识别,再去执行。黑客松那个 demo 走的就是这条路:你说话,它行动。这条路的好处是精确、可控,意图是你亲口给的,不会跑偏;代价是它永远在"等",你不开口,它不动。
第二条是主动预判——不等你开口。 系统通过你的历史记录、长期习惯,再结合当下的时间、地点、场景,提前判断你接下来大概率想干什么。早上八点你走进地铁站,它把交通卡和通勤路线提前推到手边;你落地一座陌生城市,它把打车、地图、酒店预订排到最前面。你还没说,它已经准备好了。

真正有想象力的形态,是这两条路的合流:OS 用主动预判铺好大部分日常,再用被动输入兜住那些预判不到的、临时的、随机的需求。
这里要泼一盆冷静的水,也是产品经理最该想清楚的一点:主动输入这条路,永远不能砍掉。 人的意图是高度随机和多变的,而任何单一终端能收集到的信息又是有限的——它不可能真懂你此刻脑子里那个突然冒出来的念头。把宝全押在"猜"上,体验反而会变成灾难(那种"自作聪明"推错东西的功能,你一定用过)。所以未来的 OS 不是"取消输入",而是让你大多数时候不必输入,但任何时候都能输入。
如果"理解意图"是下一个时代的核心能力,那么谁离用户的意图最近、谁能持续且低成本地采集到意图信号,谁就握住了入口。这件事,现在正打得火热。

智能眼镜是最被看好的一极——各家的眼镜大战已经开打,它的逻辑是"第一人称视角":你看到什么、在做什么,它都同步知道,意图信号几乎贴着感官采集。智能手表走的是"贴身传感器 + 持续学习"路线:心率、运动、位置,外加随时抬腕说一句话。国内云玦科技的 AI 手表(搭载 AgentOS)就是个鲜活案例——有 UP 主戴了它七天,用"主动走进楚门的世界"来形容它如何一点点摸清自己的作息、喜好、日程乃至人际关系,反过来主动替你预判。智能录音类设备(录音豆、yooclaw 这一类)则盯着"对话流"——把你一天里说过的话,变成可被理解的上下文。
这些新入口都很性感,但它们有同一个短板:要么覆盖的场景太窄,要么要用户养成一个全新的携带和使用习惯。 而习惯,是这世界上最贵的东西。
手机的天然优势恰恰在这里。它是当下用户最习惯、携带率最高、信息采集最方便也最全面的终端:位置、应用使用、支付、日程、通讯、传感器……几乎所有意图信号,手机本来就在持续接触。它不需要你养成任何新习惯——它已经在你口袋里待了十几年。
所以这场入口之争里,手机不是没有对手,而是站在一条别人要费很大劲才能追上的起跑线上。眼镜、手表、录音设备,更可能成为手机的"延伸触角",而不是它的替代者。真正的变量不是"谁取代手机",而是手机自己愿不愿意、能不能从"App 货架"进化成"意图引擎"。

回到那个让我盯了很久的 demo。它真正激进的地方,不是"语音控制手机"——那个我们听了十年了——而是这一句:builds the right interface in real time(实时生成对应界面)。
把今天的逻辑和它对照一下。今天,每个 App 的每个界面,都是产品和设计团队提前画好、固定下来的。你打开它,看到的是一套为"所有人、所有场景"预先设计的通用界面,然后你自己在里面找你要的那一块。
而 Agentic OS 指向的方向是:界面不再被提前画死,而是 agent 根据这一次任务的结果,临时生成最适合展示它的样子。 你问"我这个月外卖花了多少、都点了啥",它不必把你丢进某个 App 的某个二级页面,而是当场生成一张为这个问题量身定做的卡片——该是图表就是图表,该是清单就是清单,用完即走。
这背后是一种很有意思的工程范式:不给 agent 一个个固定 UI,而是给它一套设计规范(一份 design.md),让它在规范的约束下实时生成界面。设计团队的工作,于是从"画完所有页面",变成"定义好生成界面的规则与审美边界"。
顺着这条线推到底,一个更彻底的判断浮现出来:App 会从"目的地"退化成"能力"。 今天 App 是你要去的地方(打开它、进入它、停留在它里面);未来 App 更可能是一组被 OS 调用的能力与工具——它提供"打车""支付""订票"的能力,但用户不必再"进入"它,调用、编排、呈现,统统交给 OS 这台意图引擎完成。
这,才是标题里"意图引擎"四个字的实指:OS 不再是一个摆满 App 的货架,而是一台接收意图、调度能力、即时生成界面的引擎。
那这台引擎,到底怎么去调度这些被打散成"能力"的 App?业内现在有两条路线,产品经理该听懂它们的区别。
一条叫 GUI Agent:系统级 AI 像个"会用手机的机器人",直接看屏幕、认按钮、模拟人的点击,把事一步步办完。它最大的好处是不需要 App 配合——存量 App 一个都不用改,拿来就能被指挥;代价是慢、脆、易错,界面一改版它就可能"瞎"一次,本质是隔着一层玻璃在操作。所以它更像过渡形态。
另一条叫 A2A(Agent to Agent):系统级 Agent 理解意图后不去戳界面,而是直接和各 App 自己的 Agent"对话",把任务交给对方执行、再拿回结构化结果。它快、稳、可靠,是更彻底的"App 退居能力"——但前提是 App 方愿意开放自己的 Agent 和接口。你看,问题又被逼回了"权限"二字。OPPO 把这条路线说得最直白:GUI Agent 只是中间态,终点是 A2A;而能不能走到终点,取决于生态愿不愿意把门打开——这也为后文那个更尖锐的判断,埋下了伏笔。

每隔一阵就有个惊艳的交互 demo 刷屏,然后没了下文。凭什么这次不一样?我的理由有两条。
第一条,是"造界面"的成本正在趋近于零。 UI 即时生成这件事,三年前并不现实——临时生成一套可用界面的代价太高。但 AI 写代码、生成应用的能力正在陡峭爬升:Anthropic 在《When AI builds itself》里披露,截至 2026 年 5 月其合并的生产代码已有 80%+ 由 Claude 写成,并判断 AI 正逼近"递归式自我改进"——开始设计自己的后继者。当"造软件"本身的成本被一路打下来,"为每一次任务临时造一个界面"才第一次在工程上、成本上都说得通。形态的可能性,是被底层能力解锁的,不是靠一个 demo 拍脑袋拍出来的。
第二条,是严肃的研究力量在往同一个方向走。 Google DeepMind 在它的研究博客里探索过未来人机交互的新范式(如 AI-pointer 这类工作),讨论的同样是"当 AI 足够强,人和设备之间的交互界面,该被重新设计成什么样"。当一个黑客松冠军、一条 AI 自我编程的能力曲线、一个顶级实验室的交互研究——三股力量从不同方向指向同一个落点时,它就不再是一次性的灵光,而更像一个正在逼近的共识。
换句话说:demo 负责让我们"看见",而真正让我"相信"的,是它背后那两条正在变陡的曲线。
写到这,按惯例该收一个温和的"行动指南"。但我想先抛一个可能会被同行反驳的判断:这件事根本不用等"几年内"——2026 就是系统级 Agent 的分水岭,而真正被这波浪潮颠覆的,恰恰不是做 App 的公司,而是今天活得最滋润的那些"超级 App"。

这不是预言,是正在发生的现实。2026 年最热闹的赛道,是一场被戏称为"养虾"的智能体大战——从小米的 miclaw、荣耀的 YOYO Claw、阿里云的 JVS Claw,到腾讯、字节,几乎所有大厂都在做自己的"Claw"智能体。其中最该被产品经理盯住的是小米 miclaw——号称国内首个"手机端智能体",已在小米 17 系列上封测,干的恰恰是"从对话能力走向系统级执行能力":你说需求,它自己调系统、开 App、跨服务把流程串起来。另一边,字节的豆包二代手机走的是整机路线:把助手更深嵌进系统底层,为落地甚至要逐一去谈生态权限。当我们还在问"iOS 还是 Android 谁先动手",国内厂商早已把系统级 Agent 摆上了货架。
而最值得玩味的,是豆包们最难啃的那块骨头——不是技术,是权限:它得一个个去说服打车、外卖、订票平台,把"下单"这一步开放给系统级 Agent。这道坎指向的,正是它的命门。超级 App 的护城河,建在"把用户尽可能多的需求圈在自己一个 App 里"这个前提上——你进来了,就别想出去。可意图引擎的逻辑是釜底抽薪:当入口变成系统级的语音 Agent,当叫车、点餐、付款、订票都能由 OS 跨服务一句话搞定,超级 App 精心搭的那套"App 内闭环"就失去了意义。用户不必再"进入"任何一个 App,"超级"这个入口自然就空了。AI 自主性真正瓦解的,是"流量入口"这个概念本身——而过去十年几乎所有商业模式,都建在争夺入口之上。
我清楚这个判断有争议。有人会说,系统厂商出于商业利益不会自断财路,超级 App 也会反过来自己做 Agent。这些反驳都成立。但历史经验是,范式迁移从不征求既得利益者的同意——当年功能机厂商也不信触屏会赢。
还有人会说:就算入口没了,超级 App 也能变成被 OS 调用的能力——一个 API、一个 MCP Server,照样活。这话只对了一半:活下来的是"能力",死掉的是"超级"。 当你从用户主动打开的"目的地",降级成 Agent 按价格择优调用的供应商之一,用户关系、捆绑变现、议价权会一起流失。能不能不被商品化,取决于你 API 之下还有没有真护城河:美团的运力、滴滴的司机、支付牌照这类实体壁垒,能让你当上"强势能力方";而纯靠聚合与入口撑起来的"超级",会被打回一个随时可替换的后端调用。
所以我的结论很直接:与其赌哪家超级 App 能转型成功,不如现在就假设"入口会消失",并据此重构自己的产品。
手机 OS 的范式迁移,不会等某一场盛大发布会来盖棺定论——它正借着一代代还不完美的 AI 手机、一条悄悄变陡的能力曲线,已经发生着。产品经理要做的,是趁它还没成为所有人的常识,先把它写进自己的产品路线图——把产品从"App 货架"上搬下来,接进那台正在启动的"意图引擎"里。
没人会发请柬,但门已经开了。
夜雨聆风