
26年5月20日 星期三 AI日报EDITORIAL NOTES
Gemini代理
谷歌在I/O发布Gemini 3.5 Flash,面向复杂长周期代理工作流,在编程、智能体和工具使用上超越3.1 Pro,速度最高提升12倍。该模型已上线OpenRouter和AI Studio,支持百万上下文、多模态,价格保持Flash级别。不过Arena榜单显示,开源权重模型GLM、Mimo在部分编码排名中仍领先。
谷歌在 Google I/O 大会上正式推出 Gemini 3.5 系列模型,首个上线的是 Gemini 3.5 Flash。该模型面向复杂、长周期的代理工作流,重点覆盖编程、智能体和工具使用场景,已上线 OpenRouter 和 AI Studio,定位仍保持 Flash 级别。
Gemini 3.5 Flash 在 Terminal-Bench、MCP Atlas 等编程与代理基准测试中得分超过 3.1 Pro,运行速度最高可达其他前沿模型的 4 倍;在 Google Antigravity 环境中使用时,速度提升最高可达 12 倍。模型支持 百万上下文 与多模态,可部署协同工作的子代理,通过高频迭代循环处理现实世界的大规模问题。

https://x.com/JeffDean/status/2056793419033588091谷歌在I/O大会发布Antigravity 2.0并向全球开放,主打多智能体与自然语音交互,Gemini 3.5 Flash运行提速12倍。6月18日起,Gemini CLI将面向个人停服,由基于Go开发、共享新后端架构的Antigravity CLI接替。
谷歌在 I/O 大会上发布 Antigravity 2.0,并宣布向全球开放。该平台主打多智能体协作和自然语音交互,定位为面向 2026 年多智能体复杂任务的 agent-first 平台。同时,谷歌确认将逐步停用 Gemini CLI,由新的 Antigravity CLI 接替命令行入口。
按照公告,自 2026年6月18日 起,Gemini CLI 将面向个人暂停服务。接替它的 Antigravity CLI 由 Go 语言开发,并与 Antigravity 2.0 共享同一套后端架构。摘要信息还提到,Gemini 3.5 Flash 在新体系下运行速度提升 12倍,相关调整将把命令行工具迁移到更适合多智能体任务的新平台上。

https://developers.googleblog.com/an-important-update-transitioning-gemini-cli-to-antigravity-cli/ https://linux.do/t/topic/2209572 https://x.com/testingcatalog/status/2056790818451607984Google在I/O 2026宣布Gemini迈入自主代理时代,推出全天候个人AI代理Gemini Spark与Daily Brief每日简报,可整合邮件、日历和任务,自动安排日程、管理信息、生成报告并建议行动,帮助用户减少重复操作、提升效率。
Google 在 I/O 2026 上宣布,Gemini 将进入自主代理方向,并推出全天候个人 AI 代理 Gemini Spark 以及 Daily Brief 每日简报。官方称,Gemini Spark 不再只是回答问题的助手,而是在用户指导下代表用户完成工作的助手,面向需要管理日程、信息与任务的个人场景。
根据发布信息,Gemini Spark 可帮助用户处理数字生活中的重复操作,包括整合邮件、日历和任务,自动安排日程、管理信息、生成报告并给出行动建议。Daily Brief 则用于提供每日简报,帮助用户集中查看与当天相关的信息。

https://x.com/GeminiApp/status/2056801918018564538 https://x.com/GeminiApp/status/2056800978343764238 https://blog.google/innovation-and-ai/sundar-pichai-io-2026谷歌开发生态
Google Tensor ML SDK 测试版发布,开发者可直接在 Pixel 10 的 TPU 上构建、部署高性能机器学习模型。SDK 集成 LiteRT,支持 PyTorch 与 TFLite 模型转换、编译和运行,并提供稳定回退机制。同步推出的模型库涵盖超 100 个经典及生成式 AI 模型,助力低延迟、隐私友好的语音、视觉与文本应用。
Google Tensor ML SDK 已进入测试版,面向开发者开放在 Pixel 10 设备 TPU 上构建和部署高性能机器学习模型的能力。该 SDK 集成边缘部署框架 LiteRT,提供统一工作流,支持将 PyTorch 或 TFLite 模型进行转换、编译并在设备端运行。
同步推出的模型库包含超过 100 个经典及生成式 AI 模型,包括 Gemma 3 等,可用于语音识别、计算机视觉与文本生成等场景。SDK 还提供稳定回退机制,在设备端能力或运行条件受限时保持可用性,服务于低延迟、注重隐私的本地应用开发。

https://developers.googleblog.com/google-tensor-sdk-beta-with-litert谷歌在I/O 2026期间发布多项开发者更新:AI Studio新增构建原生Android应用能力,进一步降低开发门槛;Android Studio也加入iOS应用移植支持,帮助开发者更高效地跨平台拓展应用。
Google 在 I/O 2026 期间面向开发者发布多项更新,重点包括 AI Studio 新增构建原生 Android 应用的能力。该功能让开发者可以在 AI 开发平台内直接生成面向 Android 的原生应用,进一步降低移动应用开发门槛。
同时,Android Studio 也加入对 iOS 应用移植的支持,帮助开发者更高效地将既有应用拓展到跨平台场景。此次更新覆盖 AI 辅助开发、原生 Android 应用构建以及 iOS 到 Android 相关迁移流程,面向希望提升移动应用开发效率的开发者。

https://9to5google.com/2026/05/19/google-ai-studio-android-apps/谷歌正将Gemini能力深度融入Play Store,推出“Ask Play”聊天机器人,帮助用户搜索、发现和使用应用;同时Gemini也开始参与应用推荐,进一步强化AI在安卓生态中的入口作用。
Google 正在把 Gemini 能力进一步接入 Play Store,新增名为 Ask Play 的聊天机器人,用于改变用户在应用商店中搜索、发现和使用应用的方式。该功能面向安卓生态内的应用商店用户,核心是让对话式助手参与应用查找和使用相关流程。
除 Ask Play 外,Gemini 也开始参与应用推荐环节,帮助用户在 Play Store 中发现可能需要的应用。原文未披露具体上线范围、支持语言、入口位置或推荐机制细节,但可以确认的是,Google 正在将生成式 AI 从系统与搜索体验延伸到应用分发场景,强化其在安卓应用发现链路中的作用。

https://9to5google.com/2026/05/19/google-play-store-gets-new-ask-play-chatbot-as-gemini-starts-recommending-apps/Google推进AI代理购物生态:发布Agent Payments Protocol,支持AI代理完成下单支付;同时推出由Gemini驱动的Universal Cart,可整合全网商品,连接Gmail、YouTube等场景,提供比价追踪、优惠提醒和智能推荐,提升购物自动化体验。
Google 推进 AI 代理购物生态,发布 Agent Payments Protocol,用于支持 AI 代理完成下单与支付流程。该协议面向购物场景中的自动化结账需求,让代理在用户授权后可参与从选购到支付的链路,减少跨站点跳转和手动操作环节。
同时,Google 推出由 Gemini 驱动的 Universal Cart,可整合全网商品,并连接 Gmail、YouTube 等使用场景。该功能支持商品汇总、比价追踪、优惠提醒和智能推荐,服务于跨平台购物决策与结账流程自动化。原帖未提供更完整的技术参数、支付范围、上线节奏或商户接入限制。


https://9to5google.com/2026/01/11/gemini-ai-mode-checkout/ https://9to5google.com/2026/05/19/google-gemini-universal-cart-web-shopping-tool/生成与科研
谷歌在I/O大会发布Gemini Omni全能模型,可处理文本、图像、音频、视频等多模态输入并生成任意输出,支持用自然语言对话式修改视频。首个衍生版Omni Flash已接入Gemini App、Google Flow和YouTube Shorts,Flow视频与音乐创作工具也将获升级并推出独立安卓App。
谷歌在 2026 年 I/O开发者大会上正式推出 Gemini Omni 模型,定位为 Gemini 家族迄今最全面的多模态模型。“Omni”意为全能,可处理文本、图像、音频、视频等多种信息输入,并实现“从任何输入生成任何输出”。该模型面向需要跨模态生成与编辑的应用场景,重点能力包括通过自然语言指令进行对话式视频修改。
同时,谷歌发布首款衍生模型 Gemini Omni Flash,目前已接入 Gemini App、Google Flow 和 YouTube Shorts,后续还将提供 API 服务。原文还提到,Google Flow 视频与音乐创作工具将获得升级,并计划推出独立安卓 App,用于支持音视频创作流程。

https://9to5google.com/2026/05/19/google-flow-video-music-ai-apps/NVIDIA研究员开源LongLive 2.0,首个支持4-bit量化并覆盖训练、推理全流程的长视频生成基础设施。其通过FP4量化与并行加速,在5B模型上实现45.7 FPS,支持真实视频训练、多镜头生成、KV缓存优化等,突破长视频生成效率瓶颈。
NVIDIA 研究员开源 LongLive 2.0,这是一个面向长视频生成的端到端基础设施,覆盖训练与推理全流程,并首次支持 4-bit 量化。该框架面向需要生成长视频内容的模型开发与部署场景,目标是缓解以往长视频生成速度慢、能力多停留在短片生成的问题。
LongLive 2.0 的核心包括 FP4 量化与并行加速,在 5B 模型上实现 45.7 FPS 的生成速度。框架支持真实视频训练、蒸馏、多镜头生成、序列并行、KV缓存 优化以及异步解码部署,覆盖从训练数据适配到推理加速的多个环节,用于提升长视频生成效率与可部署性。

https://x.com/yukangchen_/status/2056746978365657502Google推出面向科研的Gemini for Science实验工具套件,帮助科学家提出假设、验证工作并解析文献。同时,基于Gemini的经验研究助手ERA论文登上《Nature》,可搜索文献、生成代码、优化实验流程,加速计算发现,现已开放可信测试者试用。
Google 推出面向科研场景的 Gemini for Science 实验性工具套件,目标用户是科学家和研究人员。该套件希望借助 AI 辅助科研流程,帮助研究者探索更多假设、大规模验证工作,并更轻松地解析科研文献,用于支持发现下一个重大突破。
同时,基于 Gemini 的经验研究助手 ERA 相关论文已登上 《Nature》。据介绍,ERA 可搜索文献、生成代码,并优化实验流程,用于加速计算发现。目前该助手已向可信测试者开放试用,仍处于受控测试阶段。

https://x.com/GoogleDeepMind/status/2056808869242826957 https://research.google/blog/empirical-research-assistance-era-from-nature-publication-to-catalyzing-computational-discoveryLuma AI宣布,Luma Agents现已接入Seedance 2.0生成能力。用户可在现有工作流程中直接调用该模型,为项目创作提供更多可用内容与生成选择。
Luma AI 宣布,Luma Agents 现已支持调用 Seedance 2.0 进行生成。用户可以在 Luma Agents 的现有工作流程中,将下一个项目指向该模型,直接测试其生成结果,并把产出继续用于后续创作流程。

https://x.com/LumaLabsAI/status/2056766837430600099搜索办公
谷歌在I/O大会宣布搜索迎25年来最大改版,以Gemini 3.5 Flash驱动AI化升级。搜索将从关键词转向自然语言和多模态输入,支持连续追问、智能体后台追踪目标,并扩展至98种语言。AI Mode月活已超10亿,正加速改变用户搜索习惯。
谷歌在2026年I/O开发者大会上宣布,搜索业务迎来25年来最大改版,将以Gemini 3.5 Flash为核心支撑,用 AI 重塑搜索入口与交互方式。新版搜索面向全球用户,把传统关键词输入升级为更自然的需求描述,并支持文本、图片、视频等多模态输入。
主要变化包括:搜索框可随输入动态扩展,用户能从AI概览继续追问,形成聊天式连续对话;新引入的搜索智能体可在后台24小时运行,追踪用户设定的目标。谷歌还将生成式界面功能引入搜索,并把个人智能扩展至98种语言、近200个国家。目前AI Mode月活用户已突破10亿,查询量每季度翻倍。

https://blog.google/products-and-platforms/products/search/ai-mode-us-insightsGoogle在I/O 2026发布Workspace多项AI更新:Docs与Keep新增语音对话创作能力,推出新应用Google Pics;Gmail上线Live语音搜索体验,并将AI Inbox扩展至AI Plus和AI Pro用户。
Google 在 I/O 2026 上发布了面向 Workspace 的多项 AI 更新,覆盖文档、笔记、邮箱和新应用。除 Gmail 相关功能外,Docs 与 Keep 将新增语音对话式创作能力,用户可通过语音与 AI 交互来生成或整理内容。公司还推出了新的 Workspace 应用 Google Pics。
在邮箱侧,Gmail 上线 Live 语音搜索体验,并将 AI Inbox 扩展至 AI Plus 和 AI Pro 用户。此次更新的范围主要集中在 Workspace 内部的办公与沟通场景,包括文档创作、笔记记录、邮箱搜索与收件箱辅助;原文未披露这些功能的具体上线时间、支持语言、价格变化或企业版适用范围。


https://9to5google.com/2026/05/19/google-keep-docs-live-pics/ https://9to5google.com/2026/05/19/gmail-live/安全与端侧
OpenAI与Google同步加强AI生成内容识别。Google将把SynthID检测扩展至搜索和Chrome,覆盖照片、视频、音频;OpenAI推出融合Content Credentials与SynthID的溯源体系及验证工具,帮助公众辨别AI内容,提升媒体可信度与生态透明度。
OpenAI 与 Google 正在同步推进 AI 生成内容的溯源与检测。随着 Nano Banana 等工具让生成式内容更常见,Google 在 I/O 上宣布,将基于 SynthID 增加新的 AI 验证检查;OpenAI 也推出融合多种溯源标准的体系和验证工具,面向公众、媒体与平台识别 AI 内容。
Google 的计划是把 SynthID 检测扩展到搜索和 Chrome,覆盖照片、视频、音频等内容形态。OpenAI 方案则结合 Content Credentials 与 SynthID,通过内容凭证和水印检测等机制提供来源验证。两家公司都把重点放在可识别、可验证的内容标记上,用于帮助用户判断内容是否由 AI 生成,并提升媒体内容的可信度与生态透明度。


https://9to5google.com/2026/05/19/google-is-adding-ai-detection-for-photos-videos-and-audio-to-search-and-chrome/ https://openai.com/index/advancing-content-provenance企业与平台
著名AI研究员Andrej Karpathy已加入Anthropic,重返大语言模型前沿研发一线。他曾是OpenAI核心成员、特斯拉Autopilot架构师,称未来几年LLM研究将极具塑造性。其未回归OpenAI,被视为后者人才流失的重要信号。
著名 AI 研究员 Andrej Karpathy 已加入 Anthropic,重返大语言模型前沿研发一线。他曾是 OpenAI 核心团队成员,也是 特斯拉 Autopilot 架构师。Karpathy 表示,自己希望回到研发前线,并认为未来几年围绕 LLM 前沿的研究将“尤其具有塑造性”。
此次选择加入 Anthropic,而不是回到前东家 OpenAI,被外界视为 OpenAI 在核心研究人才上的一次明显损失。原文未披露 Karpathy 在 Anthropic 的具体职位、团队归属或研究方向,但其过往经历覆盖大模型研究与自动驾驶系统架构,因此这次流向也被放在 LLM 前沿竞争和研究人才流动的背景下观察。
https://the-decoder.com/prominent-ai-researcher-andrej-karpathy-picks-anthropic-over-former-home-openai-to-get-back-into-frontier-llm-researchOpenRouter宣布,平台上支持工具调用的模型现已可自主使用网络搜索和网页抓取功能,模型能自行判断何时搜索、搜索内容及次数。同时,OpenRouter新增@p0作为网络搜索服务提供商。
OpenRouter 宣布,平台上的任何 工具调用模型 现在都可以自主调用 网络搜索 和 网页抓取 功能。该能力面向已支持工具调用的模型开放,模型不再只依赖预设流程触发联网步骤,而是可在运行过程中自行判断是否需要访问网络信息。
具体来看,模型可以自主决定何时发起搜索、搜索什么内容,以及连续搜索多少次;在需要读取网页内容时,也可配合使用 网页抓取 获取页面信息。此次更新还新增 p0 作为网络搜索服务提供商,用于为平台内相关模型提供搜索能力。

https://x.com/OpenRouter/status/2056758698400452705微软前高管马特·韦洛索批评微软AI战略投入巨大但成效有限:与OpenAI合作虽带来约300亿美元收入,却付出约1000亿美元成本;必应AI转型未撬动搜索份额,Copilot付费使用率不足3%,人才布局也遭质疑。尽管微软称企业付费用户超2000万,仍计划2026年最高投入1460亿美元建设AI基础设施,盈利前景引发市场担忧。
微软 前高管 马特·韦洛索 批评称,微软近年在 AI 战略上投入巨大但成效有限。其与 OpenAI 的合作在 2023 至 2025 年间带来约 300 亿美元 营收,但相关成本高达约 1000 亿美元,盈利前景仍不清晰。他还指出,微软押注 必应 搜索 AI 转型,并未有效撬动搜索市场份额。
在具体产品层面,韦洛索称 Copilot 付费用户实际使用率不足 3%,并质疑微软在人才任用和布局上的选择。微软方面此前表示,Copilot 企业付费用户已超过 2000 万家。尽管市场对其 AI 投入的盈利路径存在担忧,微软仍计划在 2026 年最高投入 1460 亿美元 建设 AI 基础设施。

https://www.ithome.com/0/952/463.htm以上内容根据公开信息整理,部分功能仍在灰度或早期阶段,欢迎留言补充和纠错。
夜雨聆风