谷歌版“豆包手机”官宣:跨App自动订餐叫车,后台多任务运行,晚了三个月但跟上了!
我有个同事,三个月前花三千多抢了台努比亚M153工程机,就为尝鲜字节那个“豆包手机助手”。当时我们都说他“花钱当小白鼠”。结果前两天,他拿着手机在我面前晃:“看,谷歌三星发布会,跟我这玩意是不是一模一样?我这算不算超前体验了三个月?”
你还别说,真挺像。
2月25号三星旧金山发布会,Galaxy S26系列登场。但全场最大爆点不是硬件,而是谷歌安卓总裁上台演示的那个Gemini智能体——对着手机说句话,它能自己把群聊里大家讨论的披萨订单搞定:读取每个人口味、打开外卖App、加购物车、生成订单,全程后台运行,你该回微信回微信,完事了确认一下就行。

官方说法叫“智能体AI”,说白了就是手机助手从“听懂人话”进化到“替人办事”。
如果你关注过国内AI动态,这一幕肯定眼熟。去年12月1号,字节豆包团队发的那个技术预览版,干的就是一模一样的事:系统级唤醒、跨App自动操作、后台执行任务。当时努比亚M153那批3万台机器一夜售罄,二手市场溢价冲到3000以上。
现在谷歌带着Gemini跟进,而且技术路径也出奇一致。
⚙️ 背后怎么实现的?不是简单的“AI读屏”
很多人以为这类功能就是AI开个“无障碍权限”,模拟人眼看手点。谷歌这次披露的方案其实更复杂,核心是三块:
第一是“安全虚拟窗口”。Gemini会在手机上单独开个隔离环境跑目标应用,不直接动你主界面。相当于给AI划了个“沙盒”,既保证任务流畅,又防止它乱翻你手机。

第二是多模态视觉理解,圈内叫“GUI Agent”(图形界面智能体)。Gemini能像人一样“看懂”App界面里的按钮、输入框,然后模拟点击滑动。好处是不用等应用开发者专门做适配,理论上所有App都能操作。
第三是多步骤推理规划。比如订披萨,AI得先理解群聊上下文,提取出谁要什么口味、几份、送哪,然后规划“打开外卖App→搜餐厅→加购物车→确认地址→生成订单”这条执行路径,中间遇到意外还得会处理。
谷歌还留了个后手:一套叫“AppFunctions”的底层框架,让开发者可以主动定义功能接口,让Gemini调用更准。同时也在搞“UI自动化框架”,给没官方适配的应用用视觉识别兜底。
这套组合拳,既想通用,又想安全,还想拉着开发者一起玩。
🧠 共识:手机智能体是下一站,但路线有分歧
谷歌动手不意外。今年1月苹果已经官宣,下一代Siri要用Gemini大模型驱动。CNBC说这笔交易每年大概10亿美元。三星S26更是直接塞了三套AI:谷歌Gemini干重活,Perplexity管搜索问答,自家Bixby做本地基础交互。
全球两大手机系统,安卓和iOS,AI基座都要用Gemini。这赛道热度彻底起来了。
IDC预测,2026年中国新一代AI手机出货量1.47亿台,占整体市场53%。谁能在“智能体”能力上卡住位置,谁就握住了下一代人机交互的门票。
但具体怎么走,现在有两条路摆在面前。
一条是谷歌这次选的“混合路径”:主力推AppFunctions(类似苹果意图框架)让开发者主动接入,同时用UI automation(读屏自动化)做补充。好处是隐私风险低、不容易触发App安全弹窗,坏处是——初期只能跑通少数几个合作App。谷歌自己也承认,目前只支持Uber、DoorDash、Grubhub等几家,希望今年晚些时候能有更多开发者加入。

另一条是字节豆包那套“视觉路径”:主要靠GUI Agent理解屏幕、模拟点击,通用性强,跨App不用等授权。但代价也明显——需要获取屏幕内容,隐私争议大,而且容易触发微信、支付宝、银行App的安全弹窗拦截。之前就有用户反馈,豆包手机操作时被各种金融App弹窗“劝退”。
谷歌的选择其实透了个底:作为安卓系统的掌控者,它没有为了AI功能去动系统底层权限。宁愿慢一点,也要拉着开发者共建,而不是单方面用“无障碍”通道硬闯。
先行者低调,跟跑者高调,然后呢?
现在局面有点微妙。
字节豆包团队去年12月发了技术预览版,抢了三个月的先发优势,验证了市场对“手机智能体”的真实需求——3万台工程机秒没,二手溢价,这热度不是假的。
但到目前,豆包手机助手还没有公布任何正式版或新品的消息。在谷歌苹果相继高调入局的时候,这位先行者反而显得安静。
中兴努比亚总裁倪飞发了一条博文,说“高兴看到国际巨头正式跟进”,虽然晚了三个月,但印证了方向是对的。同时也点了一句:三星S26实现的只是努比亚M153的“局部能力”。
这话有两层意思。一是技术能力上,豆包展示的场景确实更丰富,比如直接语音修图(删除人物、清理杂物)、购物比价、多平台物流查询。二是产品逻辑上,两者都是侧边键唤醒、AI后台运行、用户随时可干预,但豆包更依赖纯视觉方案,谷歌则想两条腿走路。
对于用户来说,到底哪条路体验更好,现在下结论还早。
谷歌的方案更稳妥,但生态铺开需要时间,初期能操作的App有限。豆包的方案更激进,通用性强,但要过隐私关、App开发者关、还有各种安全弹窗的关。
一位手机厂商负责人私下说,AppFunctions和UI automation都需要用户和App双重授权,设计初衷其实是给App减负,不是给AI开绿灯。谷歌现在小心试探,也是在评估开发者态度和适用场景。
现在该怎么看?
如果你正动心想换台“能自己办事”的AI手机,我建议先按住钱包。
谷歌的Gemini智能体3月11号随Galaxy S26发售,首批只有美国和韩国,支持Pixel 10系列。想在国内体验到,还得等。
豆包那边,技术预览版之后一直没动静,下一步是出正式版还是直接落地到量产机,官方没给准话。
我的建议是:别冲着“AI功能”现在就下单。到手实测前,流畅度、成功率、支持App数量,都只能算推断。尤其是跨App操作的稳定性,和支付环节的体验,必须摸过真机才知道。
你可以先想清楚一个问题:
你是愿意等谷歌这种“拉着开发者一起适配”的稳妥路线,慢慢丰富生态,还是更看好豆包这种“AI自己看懂一切”的激进路线,哪怕偶尔被弹窗拦截?
评论区聊聊你的选择。把这篇文章转发给身边也在纠结换机的朋友,到时候一起蹲实测,省得一个人踩坑。
夜雨聆风
