OpenAI正式启动Robotics团队,机器人重新回到前沿模型公司的主线战场;苹果下月WWDC将重点展示Siri和设备端AI升级,端侧隐私与外部模型依赖并行推进;Google把Nano Banana系列图像模型推向生产环境,图像生成能力继续从样张展示走向API调用;OpenAI推出实时翻译模型,并已在智能眼镜场景中运行,语音AI开始靠近随身交互;阿里云与Qwen成为UEFA官方合作伙伴,AI能力进入全球体育赛事运营链路。
OpenAI把机器人重新拉回主线战场
OpenAI正式启动OpenAI Robotics团队,并开始招聘全栈硬件、系统和机器学习工程师,方向是“编程和制造能服务社会的机器人”。这个项目由Aditya Ramesh负责,他此前的世界模拟研究计划已经演进到机器人研究,重点放在硬件与机器学习系统的协同设计上。短期目标是支持技术工人建设未来基础设施,长期愿景则是让每个人都能拥有个人机器人。
这件事释放出的信号很清楚:大模型公司正在把竞争范围继续从数字世界推向物理世界。过去几年,OpenAI更多被外界理解为模型、聊天入口、代码工具和企业API公司;但机器人意味着另一套更复杂的能力组合,包括感知、规划、控制、硬件、供应链、制造和真实环境反馈。它不是单靠模型参数提升就能解决的问题,而是要把模型能力变成真实行动能力。
对OpenAI来说,重新进入机器人领域,也意味着它要回答一个更关键的问题:通用智能到底如何在现实世界里执行任务。聊天机器人可以生成答案,代码模型可以操作软件,机器人则需要在动态环境中完成动作、应对不确定性,并承担更高安全风险。随着OpenAI亲自下场,具身智能很可能会从实验室叙事继续走向产业资源争夺期。
苹果AI升级背后,端侧隐私与外部依赖并行
苹果下月WWDC的重点之一,是展示延迟已久的Siri和设备端AI升级。核心方案是在iPhone芯片本地运行由Google Gemini蒸馏而来的小模型,用本地推理强调隐私,并降低token成本。更复杂的查询则会被路由到Google Cloud处理,同时还采用Nvidia的机密计算技术。苹果也在寻找小型设备端AI初创公司,以加速模型缩减和本地部署能力。
这套组合很有苹果特色。前台强调隐私、端侧体验和系统级入口,后台则用外部模型、云基础设施和安全计算把能力补齐。对苹果来说,端侧AI并不只是把一个模型塞进手机里,而是模型压缩、云端兜底、成本控制、隐私承诺和用户信任之间的系统工程。每一层都要成立,Siri和Apple Intelligence才有机会重新进入用户日常。
这也解释了苹果为什么会选择更谨慎的AI路线。它不急着把某个模型品牌推到最前面,而是更希望用户在iPhone、Mac和可穿戴设备上自然感受到体验改善。真正的挑战,是把Siri、系统入口、第三方App和端云协同重新组织成一个可持续的AI平台。到这个阶段,苹果拼的不是单次模型演示,而是能不能把AI稳定地嵌进自己的生态节奏。
Nano Banana系列进入生产环境,图像模型竞争继续提速
Google AI for Developers宣布Nano Banana Pro,也就是gemini-3-pro-image,以及Nano Banana 2,也就是gemini-3.1-flash-image,已经正式发布,并可通过Gemini API投入生产使用。两个模型面向开发者开放,重点不是单纯展示生成效果,而是让社区和企业能把图像生成能力接入自己的应用、产品和工作流。
图像模型正在从“好看样张”进入“可调用基础设施”阶段。Pro和Flash的区分,也延续了大模型平台常见的双线策略:一条追求能力上限,一条追求速度、成本和高频调用。对于开发者来说,这种分层很重要,因为不同场景对质量、延迟和价格的要求并不相同。广告创意、商品图生成、教育演示、设计迭代和应用内生成体验,都需要更稳定的API能力支撑。
这也说明,图像生成的竞争正在越来越工程化。早期大家关注的是模型能不能生成足够惊艳的图,现在更关键的是能不能稳定接入业务系统,能不能控制成本,能不能在高并发和多场景调用下保持一致体验。谁能把模型、API、价格和稳定性打包好,谁就更容易占住生产场景。
OpenAI实时翻译模型把语音AI推向可穿戴场景
OpenAI推出实时翻译模型gpt-realtime-translate,支持70多种输入语言,并可翻译成13种输出语言的语音。这个模型面向特定用例设计,接收任意语言的语音输入,再输出目标语言语音。Greg Brockman还提到,这项能力正在智能眼镜上运行,说明它的目标不只是桌面端或手机端翻译,也在靠近随身、实时、免手动操作的交互场景。
实时翻译是语音模型商业化里非常具体的一类入口。用户需求明确,使用场景高频,体验门槛也非常苛刻。只要延迟过高、断句不自然、翻译不稳定,产品价值就会迅速下降。OpenAI把这项能力单独做成实时模型,说明语音AI已经开始从“听懂和转写”继续走向“实时理解、翻译和回应”。
把实时翻译放到智能眼镜上,意义会更大。翻译从“打开App查询”变成“边走边听边交流”,交互方式会轻很多,也更接近真实跨语言沟通。这个方向会推动语音识别、低延迟生成、多语种覆盖和端云协同一起进化,也给智能眼镜提供了一个比拍照、通知更强的AI使用理由。
阿里云与Qwen拿下UEFA合作,AI进入全球体育运营链路
阿里云和Qwen成为UEFA官方独家AI、云计算与电子商务合作伙伴,合作覆盖2027/2028至2032/2033赛季的UEFA男子俱乐部赛事,以及UEFA EURO 2028。阿里巴巴集团主席蔡崇信表示,将投入云计算、全栈AI和全球电商平台能力,支持赛事运营。合作会利用Qwen大语言模型部署AI技术,增强球迷互动与媒体内容体验,并依托阿里云基础设施打造全球沉浸式观赛体验。
体育赛事是AI商业化很适合落地的场景。它有大规模流量、海量内容、多语言用户、强实时性和复杂商业生态,背后还连接票务、电商、转播、会员、广告和社交传播。Qwen进入UEFA体系,意味着大模型不只是作为聊天工具出现,而是开始参与内容生产、观众运营、跨语言互动和云基础设施打包交付。
对阿里云和Qwen来说,这类合作也有明显的海外市场意义。全球顶级体育赛事本身就是高曝光场景,如果AI能力能在赛事内容、球迷服务和电商转化中跑出稳定效果,就会成为中国云厂商和模型厂商面向海外企业级客户的重要案例。AI商业化往往需要可验证的大场景,而体育赛事正好提供了这样的舞台。
OpenAI重启机器人团队,说明前沿模型公司正在把“智能”推向物理世界;苹果借力Gemini和端侧小模型,说明手机厂商要在隐私、成本和体验之间重新组织系统能力;Google和OpenAI分别把图像生成、实时翻译推向生产环境和可穿戴场景,AI能力正在进入更具体的使用链路。与此同时,阿里云与Qwen进入UEFA合作,也说明AI商业化越来越需要大场景验证。
👇欢迎关注艾瑞网获取更多内容
👇欢迎关注艾瑞消费观察获取更多内容
👇欢迎关注艾瑞数智获取更多内容

👇点击阅读原文
免费查看及下载更多PDF高清完整版报告
夜雨聆风