谷歌版“豆包手机”官宣:跨App自动订餐叫车,后台多任务运行,晚了三个月但跟上了!

我有个同事，三个月前花三千多抢了台努比亚M153工程机，就为尝鲜字节那个“豆包手机助手”。当时我们都说他“花钱当小白鼠”。结果前两天，他拿着手机在我面前晃：“看，谷歌三星发布会，跟我这玩意是不是一模一样？我这算不算超前体验了三个月？”

你还别说，真挺像。

2月25号三星旧金山发布会，Galaxy S26系列登场。但全场最大爆点不是硬件，而是谷歌安卓总裁上台演示的那个Gemini智能体——对着手机说句话，它能自己把群聊里大家讨论的披萨订单搞定：读取每个人口味、打开外卖App、加购物车、生成订单，全程后台运行，你该回微信回微信，完事了确认一下就行。

官方说法叫“智能体AI”，说白了就是手机助手从“听懂人话”进化到“替人办事”。

如果你关注过国内AI动态，这一幕肯定眼熟。去年12月1号，字节豆包团队发的那个技术预览版，干的就是一模一样的事：系统级唤醒、跨App自动操作、后台执行任务。当时努比亚M153那批3万台机器一夜售罄，二手市场溢价冲到3000以上。

现在谷歌带着Gemini跟进，而且技术路径也出奇一致。

⚙️ 背后怎么实现的？不是简单的“AI读屏”

很多人以为这类功能就是AI开个“无障碍权限”，模拟人眼看手点。谷歌这次披露的方案其实更复杂，核心是三块：

第一是“安全虚拟窗口”。Gemini会在手机上单独开个隔离环境跑目标应用，不直接动你主界面。相当于给AI划了个“沙盒”，既保证任务流畅，又防止它乱翻你手机。

第二是多模态视觉理解，圈内叫“GUI Agent”（图形界面智能体）。Gemini能像人一样“看懂”App界面里的按钮、输入框，然后模拟点击滑动。好处是不用等应用开发者专门做适配，理论上所有App都能操作。

第三是多步骤推理规划。比如订披萨，AI得先理解群聊上下文，提取出谁要什么口味、几份、送哪，然后规划“打开外卖App→搜餐厅→加购物车→确认地址→生成订单”这条执行路径，中间遇到意外还得会处理。

谷歌还留了个后手：一套叫“AppFunctions”的底层框架，让开发者可以主动定义功能接口，让Gemini调用更准。同时也在搞“UI自动化框架”，给没官方适配的应用用视觉识别兜底。

这套组合拳，既想通用，又想安全，还想拉着开发者一起玩。

🧠 共识：手机智能体是下一站，但路线有分歧

谷歌动手不意外。今年1月苹果已经官宣，下一代Siri要用Gemini大模型驱动。CNBC说这笔交易每年大概10亿美元。三星S26更是直接塞了三套AI：谷歌Gemini干重活，Perplexity管搜索问答，自家Bixby做本地基础交互。

全球两大手机系统，安卓和iOS，AI基座都要用Gemini。这赛道热度彻底起来了。

IDC预测，2026年中国新一代AI手机出货量1.47亿台，占整体市场53%。谁能在“智能体”能力上卡住位置，谁就握住了下一代人机交互的门票。

但具体怎么走，现在有两条路摆在面前。

一条是谷歌这次选的“混合路径”：主力推AppFunctions（类似苹果意图框架）让开发者主动接入，同时用UI automation（读屏自动化）做补充。好处是隐私风险低、不容易触发App安全弹窗，坏处是——初期只能跑通少数几个合作App。谷歌自己也承认，目前只支持Uber、DoorDash、Grubhub等几家，希望今年晚些时候能有更多开发者加入。

另一条是字节豆包那套“视觉路径”：主要靠GUI Agent理解屏幕、模拟点击，通用性强，跨App不用等授权。但代价也明显——需要获取屏幕内容，隐私争议大，而且容易触发微信、支付宝、银行App的安全弹窗拦截。之前就有用户反馈，豆包手机操作时被各种金融App弹窗“劝退”。

谷歌的选择其实透了个底：作为安卓系统的掌控者，它没有为了AI功能去动系统底层权限。宁愿慢一点，也要拉着开发者共建，而不是单方面用“无障碍”通道硬闯。

先行者低调，跟跑者高调，然后呢？

现在局面有点微妙。

字节豆包团队去年12月发了技术预览版，抢了三个月的先发优势，验证了市场对“手机智能体”的真实需求——3万台工程机秒没，二手溢价，这热度不是假的。

但到目前，豆包手机助手还没有公布任何正式版或新品的消息。在谷歌苹果相继高调入局的时候，这位先行者反而显得安静。

中兴努比亚总裁倪飞发了一条博文，说“高兴看到国际巨头正式跟进”，虽然晚了三个月，但印证了方向是对的。同时也点了一句：三星S26实现的只是努比亚M153的“局部能力”。

这话有两层意思。一是技术能力上，豆包展示的场景确实更丰富，比如直接语音修图（删除人物、清理杂物）、购物比价、多平台物流查询。二是产品逻辑上，两者都是侧边键唤醒、AI后台运行、用户随时可干预，但豆包更依赖纯视觉方案，谷歌则想两条腿走路。

对于用户来说，到底哪条路体验更好，现在下结论还早。

谷歌的方案更稳妥，但生态铺开需要时间，初期能操作的App有限。豆包的方案更激进，通用性强，但要过隐私关、App开发者关、还有各种安全弹窗的关。

一位手机厂商负责人私下说，AppFunctions和UI automation都需要用户和App双重授权，设计初衷其实是给App减负，不是给AI开绿灯。谷歌现在小心试探，也是在评估开发者态度和适用场景。

现在该怎么看？

如果你正动心想换台“能自己办事”的AI手机，我建议先按住钱包。

谷歌的Gemini智能体3月11号随Galaxy S26发售，首批只有美国和韩国，支持Pixel 10系列。想在国内体验到，还得等。

豆包那边，技术预览版之后一直没动静，下一步是出正式版还是直接落地到量产机，官方没给准话。

我的建议是：别冲着“AI功能”现在就下单。到手实测前，流畅度、成功率、支持App数量，都只能算推断。尤其是跨App操作的稳定性，和支付环节的体验，必须摸过真机才知道。

你可以先想清楚一个问题：

你是愿意等谷歌这种“拉着开发者一起适配”的稳妥路线，慢慢丰富生态，还是更看好豆包这种“AI自己看懂一切”的激进路线，哪怕偶尔被弹窗拦截？

评论区聊聊你的选择。把这篇文章转发给身边也在纠结换机的朋友，到时候一起蹲实测，省得一个人踩坑。

谷歌版“豆包手机”官宣:跨App自动订餐叫车,后台多任务运行,晚了三个月但跟上了!

wang

猜你喜欢

评论抢沙发

wang

猜你喜欢

评论 抢沙发

评论抢沙发