
想象一下,你拿起一部手机,屏幕上没有微信、没有淘宝、没有携程。只有一个发光的圆点,安静地悬浮在那里。你对它说:"帮我订下周五从北京飞上海的航班,中午前后出发。"几秒钟后,一张航班列表直接"浮现"在屏幕上。没有跳转,没有等待,更没有让你在一堆APP里手忙脚乱。
2026年5月底,OpenAI活动上,独立开发者Isa Usmanov展示了这样一部没有应用图标、没有主屏幕、只有一个发光蓝色球体的手机。全程语音操作,AI实时生成界面。OpenAI已联手联发科定制芯片,目标2027年量产3000万部。Google将Android升级为"智能系统",字节豆包手机二代在路上——三家巨头同时押注同一个方向:让操作系统的中心从"应用"变成"意图"。

要理解这件事的分量,先看看我们现在是怎么用手机的。
你打开手机,面对的是一个APP图标组成的网格。要订机票,点开携程。要看天气,点开天气APP。要发邮件,点开邮箱。每个APP都是一个独立王国——自己的界面、自己的账号、自己的数据。这就像在玩拼图,把一项任务一块一块拼出来。这套模式从2007年iPhone发布算起,快二十年没变过。
Agentic OS的逻辑完全反了过来。你告诉手机想干什么,它自己去完成。需要航班数据?它调API。需要日历权限?它读写日历。需要支付?它走支付通道。所有功能都变成了"服务",不再是"应用"。界面也不是预先设计好的,而是AI根据当前任务实时生成的。
到2026年年中,这条路上已经站着三家巨头,方向一致,走法却截然不同。
第一条路:OpenAI的革命路线。不是改良,是推翻。从零开始自研操作系统,完全不兼容现有APP。AI不是iOS或Android上的一个功能——AI就是这个系统本身。短期策略用联发科定制芯片搭配端云协同(轻任务本地NPU处理,重推理上GPT云端),长期目标是100%自研。为此,OpenAI在2025年花了65亿美元收购了Jony Ive的硬件公司——对,就是当年设计初代iPhone的那个人,现在要给"后iPhone时代"画蓝图了。
Sam Altman的逻辑很直白:ChatGPT有9亿多周活用户,但这9亿人里绝大多数是在iPhone和Android上打开它的。你活在别人的地盘上,人家随时可以改规则。苹果从ChatGPT订阅费里抽成30%,一年躺赚近7亿美元,几乎什么额外的事都不用干。这不是技术问题,是地租问题。
第二条路:Google的进化路线。Google不打算推翻Android,而是把它从"操作系统"升级成"智能系统"。2026年Android Show I/O上,Google发布了Gemini Intelligence——一个能在系统层面跨应用完成复杂任务的智能体。你按住电源键,它读取屏幕上的信息,然后帮你去Gmail找课程大纲、把书加到购物车、填表格。它还搞了个叫Rambler的功能——你把想说的话一股脑倒出来,哪怕结巴、带语气词、中英混杂,它都能帮你整理成干净的文字。
Google的策略很务实:Android几十亿用户已经是我的了,我没必要从零开始。我只需要让AI渗透到每一个交互层级,从"你操作APP"慢慢过渡到"AI帮你操作APP",最后自然滑入"AI替你完成任务"。
第三条路:字节跳动的务实路线。豆包手机走的是GUI Agent路线。不造操作系统,不改Android底层,直接在应用层叠加一个"能看懂屏幕、能模拟点击"的AI层。你告诉豆包"帮我点一份外卖",它识别屏幕上的按钮和文字,然后模拟你的手指去点。这种方案最大的优势是快:不用自研芯片,不用建新生态,甚至理论上不用跟APP厂商谈合作。第一代豆包手机(努比亚M153)2025年12月开卖,3499元,限量3万台秒罄,黄牛炒到几万块。
但它的致命伤也很明显:你是在别人的地盘上"模拟"用户操作。微信、美团、阿里系APP第一波就联手封杀了豆包的GUI Agent。马化腾在年会上公开炮轰"把用户屏幕传到云端极其不安全"。字节随后和部分互联网公司谈了权限合作协议,二代豆包也要来了——但封杀和谈判的拉锯战,会一直跟着这条路线。
三条路,一个终点:让操作系统的中心从"应用"变成"意图"。但每条路都押上了完全不同的赌注。

说到"取代智能手机的AI硬件",有两场著名的失败绕不过去。
Humane AI Pin,2024年4月发布,699美元,前苹果高管做的。无屏幕,激光投影到手掌,纯语音加手势交互。口号大到吓人——"替代智能手机"。知名科技博主MKBHD的评测视频标题就七个字:"这是我评测过最烂的产品。"不到一年,购买量被退货量反超。2025年2月,核心资产卖给惠普,服务器关停,所有设备变砖。从2.3亿美元融资到一文不值,用了一年。
Rabbit R1,2024年CES亮相,199美元,10万多台预订。一个橙色小方盒子,声称能用"大动作模型"帮你叫Uber、订餐厅。结果发售后发现大部分承诺功能根本没实现,本质上就是一个安卓APP塞进了塑料壳。日活从几万跌到几千,第三方集成陆续关停。
这两次失败,至少说明三件事。
第一,不要试图用更差的体验去替代智能手机。手机的电池能撑一天,AI Pin只有4小时。手机秒开微信,AI Pin的语音响应要5到10秒。消费者不会为"AI"两个字忍受体验倒退。
第二,"AI优先"硬件是个伪命题。好的AI硬件往往都是"先做好本职工作,再加AI"——Meta的Ray-Ban眼镜先是一副好眼镜(48克,戴着舒适),然后才有了AI拍照和问答。PLAUD.AI的录音笔先是一支好录音笔,然后才有了AI摘要。消费者买的是产品,不是AI概念演示。
第三,不要做"通用AI智能体"的白日梦。Humane和Rabbit都想一步到位替代手机,结果连"点个外卖"这种基础任务都做不好。反而是那些专注垂直场景的——AI会议纪要、AI宠物、AI眼镜——不仅活下来了,还挺滋润。
好,现在问题来了:OpenAI的Agentic OS,跟Humane AI Pin到底有什么区别?
第一个区别是逻辑。AI Pin要你放弃手机,去换一个更差的东西。Agentic OS的逻辑截然不同——手机硬件还在,但它运行的软件体系翻篇了。你不是从"好用的手机"降级到"不好用的穿戴设备",你是从"APP拼图模式"升级到"AI直接服务模式"。
第二个区别是时间。2024年的AI Pin和Rabbit R1,用的还是GPT-4级别的模型。两年后,底层能力已经完全不同:GPT-5级别的推理、端侧模型从几亿参数涨到几十亿参数、语音延迟从秒级压到毫秒级——当年做不成的事,现在未必做不成。
但这不代表此路必胜。真正的挑战有三块。
第一块:端侧模型的能力。Agentic OS的核心承诺是"界面实时生成"——这意味着本地端必须有足够聪明的模型,能快速理解意图、生成界面、执行操作。云端大模型再强,也解决不了"每次交互都等网络"的体验问题。目前端侧模型的语言理解在几十亿参数区间已经相当可用,但视觉生成、多模态推理、复杂任务规划仍然需要云端。OpenAI选择的"端云协同"架构,本质上就是承认了这个问题:日常轻任务本地做,重活扔给GPT。但问题是:用户日常用手机的场景,有多少是真正的"轻任务"?今天你打开20个APP,每个都在处理相当复杂的状态和交互。如果本地模型处理不了,"端云协同"就变成了"什么都往云端扔"——延迟回到秒级,体验又被普通手机吊打。这块的技术拐点可能在2027年左右到来。台积电新工艺量产后,端侧NPU算力有望翻倍。联发科给OpenAI定制的芯片据称用了双NPU异构架构——视觉理解一个NPU,语言推理一个NPU,并行跑。方向是对的,但能不能跑出让人"无感"的体验,现在没人敢打包票。
第二块:应用生态的抵抗。APP生态不只是一种技术方案,它是一个年产值数千亿美元的既得利益结构。苹果2025年仅从生成式AI应用的订阅费中,就靠30%的佣金收了近9亿美元——其中七成五是ChatGPT贡献的。再加上所有其他APP的佣金,App Store一年贡献的服务收入超过850亿美元。如果Agentic OS真普及了,这个抽成体系该怎么办?当用户不再通过APP而是直接通过语音指令获取服务,当界面由AI实时生成而不是在App Store上下载,那30%的过路费找谁收?这不是技术问题,而是商业利益的重组。APP厂商、广告平台、应用商店——每一个环节的既得利益者都会抗拒。如果说服不了他们接受新的利益分配方式,Agentic OS就不会有生态接力。
但它的杀手锏其实很朴素:绕过中间商,直接连接用户和服务。对服务提供方来说,如果能省下30%的佣金,换成给AI智能体5%的交易费,这笔账很好算。对开发者来说,如果不需要同时维护iOS和Android两套代码,而是只写一套智能体接口,维护成本至少砍半。所以Agentic OS的商业逻辑不是"没人愿意配合",而是"太多人想省那30%的苹果税"。
第三块:用户习惯的惯性。你已经用了十五年智能手机。你习惯了点开微信、刷抖音、打开淘宝。这些行为已经刻进了肌肉记忆。Agentic OS要求你换一种完全不同的交互方式:不是"看到图标→点开APP→操作",而是"心里有件事→说出来→AI帮你去办"。听起来更自然。实际上很别扭。因为你必须精准表达你想要什么。你说"帮我订个航班"——AI会追问:从哪里飞哪里?哪天?几个人?经济舱还是商务舱?你发现你其实更喜欢在APP里翻来翻去,自己比较时间、价格、航司——因为你也不知道自己想要哪个航班,你需要"看一圈"再做决定。
语音交互和视觉浏览的矛盾本质在这里:语音适合目标明确的任务("帮我发微信给张三说明天开会"),视觉浏览适合探索性任务("看看有什么好玩的新APP"、"逛逛淘宝")。这个问题没有万能解。唯一的出路是两种交互模式并存——在Agentic OS里,AI生成的界面可能需要比我们现在看到的更接近"可浏览"的形态,而不是单一的语音问答。Isa Usmanov原型里"航班卡片""日历视图"这类实时生成的视觉界面,已经暗示了这个方向。

我们把目光拉回那笔9亿美元——2025年,苹果从生成式AI应用的佣金中收走近9亿美元。ChatGPT一个APP就贡献了其中的约6.75亿美元。而OpenAI为了维持ChatGPT的运行,每年要投入数十亿美元的计算成本。换个角度看这个数字:OpenAI烧钱建模型,苹果啥也不用干,就收走了ChatGPT订阅收入的30%。难怪Altman想自己造手机。
但这不止是"OpenAI反抗苹果暴政"的故事,背后有个更致命的问题:当AI成为新的服务入口,旧平台的收费模式还能持续吗?
苹果的态度很明确:不急。2026年1月,苹果宣布把Google的Gemini集成进Siri,据传每年收Google约10亿美元合作费。还是同一个策略——自己不造大模型,但从所有造大模型的人手里收租。AppMagic和《华尔街日报》的数据显示,2025年苹果来自AI应用的总收入有望突破10亿美元,而苹果在AI基础设施上的投入远低于微软、Google、Meta任意一家。
这个策略的风险在于,它假设"App Store永远是AI触达用户的主渠道"。如果OpenAI、Google、字节跳动任何一家成功地让用户通过AI智能体而非APP获取服务,这个假设就碎了。
Google的处境最微妙。它既要从别人的生态里收租(Google Play),又要防别人收自己的租(Android上跑AI智能体)。Android转向"智能系统"的背后,是Google看清了一件事:与其等着别人颠覆我,不如我自己来。而且Google Play的佣金收入远低于苹果——Google的主营业务是搜索广告,不是应用商店抽成。转型的包袱反而比苹果小。
苹果反而最尴尬。它的核心商业模式是"靠生态位置收费",但AI能力却最弱——新版Siri屡次跳票,至今没有拿得出手的自研大模型。2026年被曝与Google合作让Gemini接管Siri,几乎等于承认了自己的AI能力不足。如果Agentic OS真能省下那30%的佣金,苹果是这场变革里损失最大的玩家,也是抵抗最顽固的玩家。
所以一个合理的推演是:苹果会是Agentic OS的最后一个拥抱者,但也是最受伤的那一个。

第一个变量:模型能力曲线。Agentic OS的生死线是端侧模型的能力。如果2027年底之前,端侧模型能稳定做到多步推理、视觉理解加低延迟语音交互,那么Agentic OS就有了技术可行性。如果做不到,不管商业逻辑多完美,体验都过不了关。目前英伟达、联发科、高通都在往这个方向押注。训练算力的持续翻倍,最终会传导到端侧推理。保守估计,2027到2028年是端侧模型能力的关键拐点。
第二个变量:生态迁移的意愿。APP生态迁移到智能体生态,需要千千万万个服务提供方配合。这事能多快,取决于省钱的效应有多强。如果智能体渠道能把交易成本从30%压到5%以下,对绝大多数APP来说,迁移的动机非常强。但前提是智能体渠道得先把用户量做起来——又一个先有鸡还是先有蛋的问题。OpenAI的解法是:先做硬件。3000万部的出货量,哪怕只卖出预期的一半——1500万——也足以让服务方认真考虑接入了。
第三个变量:监管的态度。APP生态涉及太多监管维度。隐私、安全、支付合规、反垄断——每一个都可能成为Agentic OS推进路上的减速带。欧盟的《数字市场法案》(DMA)已经在逼苹果开放第三方应用商店。如果DMA继续加码,要求开放系统级AI权限,对Agentic OS反而是利好。中国大陆的情况则更复杂——APP厂商的生态封锁能力远强于海外,豆包手机被围剿就是前车之鉴。
第四个变量:用户的切换成本。这个最难判断。手机是当下普及率最高的个人计算设备。从APP模式切换到智能体模式的摩擦成本,取决于智能体模式到底能省多少事。一个可参考的类比是:从功能机到智能机,切换成本巨大——键盘没了、物理按键没了、整个交互逻辑都变了。但因为智能机带来的体验提升足够大(全屏触摸、APP生态、移动互联网),用户愿意承受这个切换成本。Agentic OS需要证明的是:它能带来不低于当年"功能机→智能机"级别的体验飞跃。
乐观情景(概率约15%):OpenAI的量产手机大获成功,3000万部首年售罄。端侧模型能力提前到2027年达到可用水平。APP厂商在"省30%佣金"的诱惑下主动接入智能体生态。苹果被迫在2028到2029年推出自己的Agentic OS,但已经慢了半步。到2030年,约30%的手机用户将主要用智能体方式而非APP完成任务。
中性情景(概率约55%):Agentic OS在早期用户群体中获得认可,但主流用户迁移缓慢。APP和智能体两种模式长期共存——用户在处理事务性任务时用智能体(订票、日程、搜索),在社交、娱乐、浏览时继续用APP。手机操作系统变成"双模":一个APP层,一个智能体层,用户根据场景切换。到2030年,智能体交互占手机使用时长的20%到30%,但APP仍是移动互联网的主力界面。
悲观情景(概率约30%):Agentic OS重复Humane AI Pin的教训——概念超前,体验跟不上。端侧模型能力不及预期,语音交互在某些场景下别扭感太强,用户新鲜感过后回归APP。OpenAI的手机沦为又一个"有意思但卖不动"的硬件实验。真正改变手机的,不是Agentic OS,而是Google在Android上的渐进式AI渗透——不是革命,是改良。
中性情景概率最高。Agentic OS确实解决了一个真实问题——"为什么要在几十个APP之间跳来跳去才能完成一件事"。但它不是唯一的解法。Google的"AI在APP之间替你跳"也是一种解法,甚至对大多数用户来说可能更平滑、更容易接受。革命需要体验质变,进化只需要体验渐变。
变量从来不是技术,是谁先让用户觉得"回不去了"。当年iPhone做到这一点,靠的是多点触控、全屏显示和App Store。Agentic OS需要找到自己的那个"回不去时刻"。
是什么?不是"能用语音订机票",而是"我发现手机比我自己更知道接下来该做什么"。当一个Agentic OS不仅能执行你的指令,还能预判你的需求——在你开口之前就把航班值机提醒推到你面前,在你想起之前就帮你把明天的会议材料调出来——那个时候,"回不去"的感觉才会真的降临。
在那一天到来之前,APP还会在,App Store还会在,30%的苹果税还会在。但我们正在见证它们经历诞生以来最大的一次挑战。问题从来不是"会不会",是"什么时候、以什么形态"。
本文基于OpenAI Voice Hack Night公开演示、天风国际郭明錤供应链报告、AppMagic及《华尔街日报》App Store收入数据、Android Show I/O 2026公开信息、字节跳动豆包手机公开报道、Humane及Rabbit公开资料等多方信息来源整理而成,仅作信息分享与观点交流,不代表任何机构立场;文中引用数据及案例均来自公开来源,相关版权归原作者和原发布机构所有。

夜雨聆风