AI+DB 早报
2026年05月26日 · AI+DB 早报 28 条
AI+DB 早报 · 28 条
1.Google I/O 2026:Gemini 3.5 Flash 发布,推理速度达同类前沿模型 4 倍,性能全面超越 Gemini 3.1 Pro
Google 在 I/O 大会上发布 Gemini 3.5 Flash,在几乎全部 benchmark 上超越前代旗舰 Gemini 3.1 Pro,同时在输出 tokens/秒指标上领先同级别前沿模型 4 倍。Sundar Pichai 称其在"智力-速度"象限中独树一帜。该模型已用于驱动全新的 AI 搜索体验和信息代理。
原文: https://venturebeat.com/technology/google-just-redesigned-the-search-box-for-the-first-time-in-25-years-heres-why-it-matters-more-than-you-think
2.Google 搜索框 25 年来首次重大改版:支持多模态输入,融合 AI Overviews 与 AI Mode
新版搜索框支持上传图片、PDF、视频和 Chrome 标签页,AI 驱动的查询建议系统可帮助用户构建复杂问题。AI Overviews(月活 25 亿)与 AI Mode(月活超 10 亿,查询量逐季翻倍)合二为一,用户无需在传统搜索与 AI 搜索间切换。底层由 Gemini 3.5 Flash 驱动。
原文: https://venturebeat.com/technology/google-just-redesigned-the-search-box-for-the-first-time-in-25-years-heres-why-it-matters-more-than-you-think
3.Google 推出 Generative UI:搜索可动态生成交互式可视化与迷你应用
基于 Gemini 3.5 Flash 的实时代码生成系统(与 DeepMind 联合开发),搜索可根据用户问题动态构建自定义 widget、交互式可视化和迷你应用。例如提问"黑洞如何影响时空"会生成交互式物理模拟。该功能将于今夏免费向全球推出。
原文: https://venturebeat.com/technology/google-just-redesigned-the-search-box-for-the-first-time-in-25-years-heres-why-it-matters-more-than-you-think
4.Google 发布信息代理(Information Agents):24/7 自主监控网络并主动推送结果
用户可在搜索中配置 AI 代理,全天候监控特定市场动向、房源、限量商品发布等,条件满足时主动推送综合报告。今夏向 Google AI Pro/Ultra 订阅用户开放。Google 同时发布 Agent Payments Protocol(AP2),让代理可安全执行购买。
原文: https://venturebeat.com/technology/google-just-redesigned-the-search-box-for-the-first-time-in-25-years-heres-why-it-matters-more-than-you-think
5.Google 发布 Antigravity 开发者平台与 Gemini Spark 个人代理
Antigravity 扩展为完整的自主 AI 代理开发生态系统。Gemini Spark 是 24/7 运行的个人 AI 代理,在 Google Cloud 专属虚拟机上运行。同时发布 Universal Cart 智能跨商家购物车。
原文: https://venturebeat.com/technology/google-just-redesigned-the-search-box-for-the-first-time-in-25-years-heres-why-it-matters-more-than-you-think
6.Microsoft 提出 SkillOpt:自进化 Agent 技能的自动化优化框架
SkillOpt 使用前端优化器模型将 agent 执行轨迹转化为有限的 add/delete/replace 技能编辑,再通过 held-out gate 筛选仅保留验证性能提升的编辑。被拒编辑作为负反馈供后续更新。这是 agent 技能程序化自进化的关键一步,来自微软研究院与 SJTU/同济/复旦联合团队。
原文: https://arxiv.org/html/2605.23904
7.从原始经验到技能消费:模型生成的 Agent 技能系统性研究(Fudan + Microsoft Research)
系统梳理了从执行日志中自动蒸馏领域级 agent 技能的完整管线,包括 Trace2Skill(单轨迹蒸馏)和 CoEvoSkills(多文件技能包+协同进化验证器)。指出现有方法的五个关键瓶颈,为 agent 技能标准化提供路线图。
原文: https://arxiv.org/html/2605.23899
8.阿里巴巴提出 DAR:扩散 Transformer 的跨层信息路由替代残差连接
通过分析 DiT 中残差流的前向幅度膨胀、反向梯度衰减和块级冗余三个问题,提出 Diffusion-Adaptive Routing(DAR)——可学习的、时间步自适应的、非增量式的跨层信息聚合。ImageNet 256×256 上 SiT-XL/2 FID 从 9.67 降至 7.56,训练迭代减少 8.75 倍。
原文: https://arxiv.org/html/2605.20708
9.浙江大学发布 SciAtlas:4300 万篇论文构建的超大规模科学知识图谱
覆盖 26 个学科,含 1.57 亿实体和 30 亿三元组。提出神经-符号检索算法(三路径协同召回+图谱重排序),实现从语义匹配到确定性关联发现的过渡。支持文献综述、研究趋势合成、idea 定位和学术轨迹探索。代码已开源。
原文: https://arxiv.org/html/2605.22878
10.StepAudio 2.5 技术报告:统一音频语言基础模型在 ASR/TTS/实时对话三项达到 SOTA
以 RLHF 为核心后训练范式,将单一共享 backbone 分为三种运行模式:ASR 分支通过可验证多 token 解码提升效率;TTS 分支通过偏好 RLHF 实现可控表现力合成;实时分支通过生成式奖励建模实现低延迟+人格一致的对话。在所有三个标准 benchmark 上匹配或超越专用系统。
原文: https://arxiv.org/html/2605.23463
11.Microsoft Lens:重新思考基础文生图模型的训练效率
提出训练效率由模型规模、每批数据信息密度和收敛速度三因素共同决定。Lens 通过同时降低模型规模、提升批次学习价值和加速收敛,试图在远低于 Z-Image(需约 314K H800 GPU 小时)的算力下达到 foundation 级 T2I 质量。
原文: https://arxiv.org/html/2605.21573
12.Decoupling Perception and Reasoning:将 VLM 后训练拆分为感知→视觉推理→文本推理三阶段
发现 VLM 视觉任务的瓶颈主要在于视觉感知而非推理。阶段性训练(感知用 RL、视觉推理和文本推理各用专用数据)相比合并训练提升 1.5% 推理准确率,推理链长度缩短 20.8%。开源模型在 WeMath +5.2%、RealWorldQA +3.7%。
原文: https://arxiv.org/html/2605.20177
13.ETCHR:面向推理增强的解耦式图像编辑模型(上海 AI Lab + CUHK)
将图像编辑器与下游理解模型解耦,通过两阶段训练(推理模仿 SFT + VLM 奖励驱动推理增强)使编辑器学会根据问题自动选择合适的视觉变换。在 5 类任务上,Qwen3-VL-8B 提升 4.82%、Gemini-3.1-Flash-Lite 提升 5.47%、Kimi K2.5(1T MoE)提升 4.61%。
原文: https://arxiv.org/html/2605.23897
14.RankE:首个端到端离散文生图后训练框架,同时优化 AR 策略与 VQ 解码器(西湖大学/清华)
发现传统仅优化策略的方法会引发 Latent Covariate Shift(奖励分数上升但图像质量下降),提出 RankE 通过交替优化同时改进策略和解码器。LlamaGen-XL FID 15.21 + CLIP 33.76,Janus-Pro 1B 同样验证有效。
原文: https://arxiv.org/html/2605.21195
15.Pion 优化器:修复 Muon 在 VLA 和 RLVR 训练中的频谱失效(MSU + Cisco + IBM Research)
Muon 的均匀频谱白化在跨模态 VLA 训练中放大噪声尾方向,在 RLVR 中破坏 per-head 专业化。Pion 通过频谱高通滤波器保留主导方向并抑制噪声分量,在真实机器人 VLA 和推理 RLVR 任务上均优于 AdamW 和 Muon。
原文: https://arxiv.org/html/2605.19282
16.VGenST-Bench:通过主动视频合成评估 MLLM 时空推理(成均馆大学 + 延世大学)
提出 3×2×2 视频分类体系(空间尺度×视角×场景动态),用多 agent 管线+人工质控主动合成测试视频和 QA 对,替代传统被动整理视频数据的方式。细粒度诊断 MLLM 的时空理解能力。
原文: https://arxiv.org/html/2605.22570
17.LatentUMM:统一多模态模型的双重潜在对齐框架(CMU)
针对 UMM 的理解-生成功能不一致问题,提出跨模态对齐(用更强的嵌入模型施加结构化语义)和双向容量对齐(生成与重编码一致性),结合潜在动态稳定化提升鲁棒性。代码已开源。
原文: https://arxiv.org/html/2605.17766
18.PhotoFlow:首个语言驱动的 3D 虚拟摄影 AI Agent(上海交大 + 上海 AI Lab)
提出 Director-Reviewer-Reflector 三模块闭环相机搜索 agent,在无预设机位和参考图的 Blender 场景中根据语言意图完成摄影。发布 VPhotoBench(47 场景、141 任务),在 6 轮渲染预算下超越单次预测和随机搜索等基线。
原文: https://arxiv.org/html/2605.23771
19.SCOPE:多游戏 FPS 世界模型(Tencent + UCAS + NUS)
提出在预训练视频扩散模型每层插入条件模块,实现空间选择性的动作响应(近景射击/换弹 vs 远景环境),无需分割标注。同步发布 CrossFPS——首个多游戏 FPS 数据集,含 7 款游戏 69K 片段,10-DoF 控制器信号。
原文: https://arxiv.org/html/2605.23345
20.ClickUp 大规模裁员:用数千 AI Agent 替代数百名员工
成立九年的项目管理 SaaS 公司 ClickUp 进行大规模裁员,以数千个 AI agent 取代数百名员工,被视为 AI 替代白领工作的标志性事件。
原文: https://techcrunch.com/2026/05/25/what-clickups-mass-layoff-tells-us-about-the-future-of-work/
21.SpaceX 提交 S-1 上市文件,目标估值 1.75 万亿美元
SpaceX 正式提交 IPO 申请,S-1 文件含 36 页风险因素。目标市场总额标称 28 万亿美元,CEO 薪酬方案与火星殖民地建设挂钩,将成为美国历史上最大 IPO。Elon Musk 旗下 xAI 同步转向天然气为数据中心供电。
原文: https://techcrunch.com/podcast/elon-musk-cant-hear-you-over-the-sound-of-his-1-75-trillion-ipo/
22.VC 与创始人如何用膨胀的"ARR"为 AI 初创公司造王
TechCrunch 调查披露部分 AI 初创公司在公开场合拉伸传统收入指标,背后的投资人也完全知情,引发对 AI 公司真实估值和收入质量的广泛讨论。
原文: https://techcrunch.com/2026/05/22/how-vcs-and-founders-use-inflated-arr-to-kingmake-ai-startups/
23.教皇利奥十四世发布首份 AI 通谕《Magnifica Humanitas》
通谕以 AI 为透镜诊断更深层的权力集中、民主侵蚀和科技精英塑造世界的问题,而非单纯讨论 AI 技术本身。
原文: https://techcrunch.com/2026/05/25/the-popes-ai-encyclical-isnt-really-about-ai/
24.亚马逊 Bee AI 可穿戴设备体验评测:便利与隐私焦虑并存
亚马逊推出的 AI 可穿戴硬件 Bee 引发两极化反应,被评价为"既令人着迷又让人不安"。
原文: https://techcrunch.com/2026/05/24/i-tried-amazons-bee-wearable-and-am-both-intrigued-and-slightly-creeped-out/
25.Google AI 眼镜原型评测:Gemini 驱动的实时翻译、导航已接近实用水平
Google 在 I/O 上展示的 Android XR 眼镜原型,通过 Gemini 在视野中叠加实时翻译和导航信息,体验已"几乎到位"。
原文: https://techcrunch.com/2026/05/22/we-tried-googles-ai-glasses-and-theyre-almost-there/
26.Ferrari 与 IBM 合作,用 AI 打造 F1 超级粉丝体验
IBM 为法拉利 F1 车队定制 AI 系统,重新定义车迷互动体验,TechCrunch 独家报道了幕后细节。
原文: https://techcrunch.com/2026/05/23/ferrari-is-using-ai-to-create-f1-superfans/
27.AI 被用于"复活"已故飞行员的声音,NTSB 紧急封锁档案系统
有人用 AI 对驾驶舱录音频谱图进行重建,迫使美国国家运输安全委员会(NTSB)暂时关闭其档案系统。
原文: https://techcrunch.com/2026/05/22/ai-is-being-used-to-resurrect-the-voices-of-dead-pilots/
28.Google AI 安全实验:AI 搜索更新后搜索 "disregard" 导致界面崩溃
Google 搜索 AI 更新后,输入单词"disregard"会使搜索界面出现异常,被认为是 AI 系统误将用户输入当作指令解析所致。
原文: https://techcrunch.com/2026/05/22/you-can-no-longer-google-the-word-disregard/
夜雨聆风