AiWeekly | 每周AI热点精选 05.06-05.10

技术动态

百度：发布基础大模型文心大模型5.1

5月9日，百度发布基础大模型文心大模型5.1。

文心5.1基于文心5.0 训练而得，从文心5.0子模型矩阵中提取最优子结构，充分继承文心5.0知识，显著降低预训练成本。创新性提出Once-for-All 的弹性训练框架，在单次预训练中，便可通过动态采样机制，同时优化大量参数各异的子模型，构建出覆盖多种参数规模与计算开销的子模型矩阵。

技术报告：

https://yiyan.baidu.com/blog

原文链接>> 文心 5.1正式上线！

阶跃星辰：发布实时语音大模型 StepAudio 2.5 Realtime

5月8日，阶跃星辰发布实时语音大模型 StepAudio 2.5 Realtime，主打真人级对话体验与高效率语音处理。

模型通过多Token预测（MTP）技术实现极速响应，5分钟音频可1秒完成转写。其创新点在于支持千万级人设自定义，并集成32K超长上下文理解能力，能一次性转写30分钟连续音频，避免传统分段拼接导致的语义断裂问题。目前已在阶跃星辰开放平台全量上线，适用于语音助理、实时字幕等场景。

开放平台：

https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-realtime

https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-chat

原文链接>> StepAudio 2.5 Realtime 上线！真人级实时语音对话能力，千万人设任你打造

小米：开源多语言语音克隆TTS模型OmniVoice

5月7日，小米开源多语言语音克隆TTS模型OmniVoice，支持超过600种语言，包括低资源小语种和方言。

OmniVoice采用创新的单阶段非自回归架构，仅需一个双向Transformer网络即可实现文本到语音的直接转换。其核心优势在于快速克隆（3-10秒参考音频即可生成相似语音）、高精度（中文WER仅0.84%）和超快合成速度（实时因子RTF达0.025，比实时快40倍）；模型还支持声音设计、非语言符号插入及拼音纠正等功能，适用于实时交互场景。

论文：

https://arxiv.org/abs/2604.00688

Github：

https://github.com/k2-fsa/OmniVoice

Huggingface Model：

https://huggingface.co/k2-fsa/OmniVoice

原文链接>> 超600种语言，一个模型全搞定! 小米开源 OmniVoice 多语言语音克隆 TTS

腾讯混元：发布多模态深度搜索智能体方案OpenSearch-VL

5月6日，腾讯混元携手加州大学洛杉矶分校（UCLA）、香港中文大学等学府，联合发布 OpenSearch-VL多模态深度搜索智能体方案，通过强化学习（RL）技术，打造具备前沿能力的深度搜索智能体。

OpenSearch-VL核心创新在于自动化生成包含搜索动作和验证过程的训练数据，并提供裁剪、OCR、超分等工具集，使模型能像人一样"边看图边查资料"。OpenSearch-VL 提出利用维基百科的超链接图谱，执行多跳实体路径采样，将中间实体重写为模糊描述，并将锚点实体锚定至源图像，从而抑制单步检索捷径，鼓励智能体学习多跳搜索与推理行为。

论文地址：

https://arxiv.org/pdf/2605.05185

开源地址：

https://github.com/shawn0728/OpenSearch-VL

原文链接>> 腾讯发布OpenSearch-VL，代码数据全公开

火山引擎：Doubao-Seed-2.0-lite升级新版本

5月6日，Doubao-Seed-2.0-lite升级为豆包家族首款全模态理解模型，原生统一处理视频、图像、音频、文本，Agent、Coding 与 GUI 能力同步升级。

融入语音理解后，新版本可同时理解多种输入模态，并完成跨模态联合推理，支持19个语种的精准语音转写、中英文与其他14个语种互译。Agent、Coding、GUI能力同步升级，可承担长程任务自我拆解与跨应用操作，覆盖电竞教练、在线教育、海外电商等场景。

模型主页：

https://seed.bytedance.com/seed2

原文链接>> Doubao-Seed-2.0-lite升级，支持全模态理解

Ai2：发布视觉-语言-动作（VLA）模型MolmoAct2

近日，艾伦人工智能研究所（Ai2）联合华盛顿大学等机构发布面向真实世界部署的完全开源视觉-语言-动作（VLA）模型MolmoAct2。

MolmoAct2核心突破在于专用的具身推理视觉骨干Molmo2-ER，通过3.3M样本训练提升空间理解能力。采用三阶段训练：预训练使VLM学会预测离散动作token；后训练接入连续动作专家，用流匹配生成平滑动作轨迹；再通过特定机械臂微调部署。该模型配套开源了720小时双臂操作数据集，覆盖折叠毛巾、充电等28项真实任务。

论文地址：

https://arxiv.org/abs/2508.07917

项目主页：

https://allenai.org/blog/molmoact

代码仓库：

https://github.com/allenai/MolmoAct

模型下载：

https://huggingface.co/allenai/MolmoAct-7B-D-0812

原文链接>> AI2团队新作：让机器人学会"空间推理"，MolmoAct开源复现全程解读

行业动态

Claude：正式接入Office全家桶

5月8日，Claude官方宣布正式接入微软Excel、PowerPoint和Word，并在Outlook中开放了公测版。

用户无需切换网页版，可直接在Office内调用Claude完成邮件处理、文档草拟、表格分析、汇报生成全流程。此外，用户在不同Office应用中操作时，Claude能记住之前的上下文，实现从邮件分类、文档起草到数据分析和汇报生成的全流程连贯协作。

原文链接>> Claude正式接入Office全家桶，跨应用还能共享记忆

OpenAI：推出Realtime API三款音频模型

5月7日，OpenAI在Realtime API中推出三款音频模型——GPT‑Realtime‑2、GPT‑Realtime‑Translate和GPT‑Realtime‑Whisper，分别面向复杂推理、实时翻译和流式转录场景，旨在帮助开发者构建能够倾听、推理、翻译、转录并实时行动的“语音代理”智能体。

GPT‑Realtime‑2是OpenAI首个集成GPT‑5级推理的语音模型，与上一代GPT‑Realtime‑1.5相比，该模型专为处理更复杂的用户请求而设计，能够调用工具、处理打断、在长语音会话中保持上下文连贯。

GPT‑Realtime‑Translate是一款专为实时语音翻译设计的模型，该模型能够“跟上说话者的节奏”进行对话式实时翻译，并支持从70多种语言翻译成13种输出语言，面向客户支持、教育等场景。

GPT‑Realtime‑Whisper是一个全新的流式语音转录模型，该模型提供实时语音转文字功能，可在说话者讲话的同时生成字幕、会议记录和工作流程更新。

原文链接>> OpenAI首发GPT-5级推理语音模型，传统同传不存在了？

宇树科技：开放UniStore宇树应用平台

5月7日，宇树科技宣布全面开放人形机器人任务动作应用商店——UniStore宇树应用平台。

该平台可以让用户像下载手机APP一样开发、下载和使用机器人新应用，其内设用户广场、动作库、数据集、开发者中心四大核心模块，致力于“共建未来机器人服务，让智能与创造力融为一体”。目前，UniStore宇树应用平台动作库已引入杰克逊、整活扭动机器人、欢呼、蹦迪、比心、螳螂拳、查尔斯顿舞等24个执行动作，且均可限时免费体验。

原文链接>> 王兴兴给机器人搞的App Store，开放了

Genesis AI：发布机器人基础模型系统GENE-26.5

5月7日，机器人创业公司Genesis AI发布机器人基础模型系统GENE-26.5，专注于实现人类级别的物理操作能力。

该模型通过流匹配技术整合视觉、触觉、动作等多模态数据，支持烹饪、实验室移液、解魔方等复杂任务。其核心创新包括专用数据引擎、仿人机械手及低延迟控制系统，能快速从少量任务数据中学习。数据引擎依托手套数据、第一视角与第三人称视频，已积累超20万小时跨模态数据，主要由真实人类操作数据训练，仿真负责闭环评估与迭代。

原文链接>> Genesis AI 发布新模型：机器人开始挑战西红柿炒鸡蛋

阿里：千问上线PC侧AI语音输入能力

5月7日，千问上线PC侧AI语音输入能力。

使用快捷键即可唤醒（Windows用户长按右Alt、Mac用户长按右Command）；不仅能在千问PC端使用，各类应用、网页中也都能直接调用。目前，该功能已向所有用户免费开放。

原文链接>> 你的电脑，能用千问AI语音输入了！

TRAE.ai：推出AI编程助手的独立端版本TRAE SOLO

5月6日，TRAE.ai推出AI编程助手的独立端版本TRAE SOLO，支持移动、桌面和网页三端同步使用，提供Code和MTC双模式。

Code模式专为开发者设计，支持代码生成、调试和文档编写；MTC模式覆盖产品、运营、数据分析等产研场景，能处理PRD生成、数据清洗等任务。其核心特点是AI智能体可自主拆解任务并调度工具，支持语音交互和跨设备协同，国内版已全量免费开放。

原文链接>> TRAE SOLO 三端全量免费开放

政策趋势

四部门：印发《关于促进人工智能与能源双向赋能的行动方案》

5月8日，国家能源局会同国家发展改革委、工业和信息化部、国家数据局印发《关于促进人工智能与能源双向赋能的行动方案》。

《行动方案》以能源支撑人工智能发展、人工智能赋能能源转型为主线，聚焦保障算力设施安全可靠的能源供给、推动算力设施绿色低碳转型、促进算力电力高效经济协同、开放能源领域人工智能高价值应用场景、挖掘能源领域数据价值、强化能源领域人工智能模型创新等方面部署了29项重点任务，着力促进能源、算力、场景、数据、模型等人工智能发展各要素高效协同。

原文链接>> 国家发展改革委国家能源局工业和信息化部国家数据局印发《关于促进人工智能与能源双向赋能的行动方案》的通知

三部门：印发《智能体规范应用与创新发展实施意见》

5月8日，国家网信办、国家发展改革委、工业和信息化部联合印发《智能体规范应用与创新发展实施意见》，旨在促进智能体规范应用与创新发展。

《实施意见》明确智能体发展要坚持安全可控、规范有序、创新驱动、应用牵引的基本原则，并提出了4个方面举措：一是夯实发展基础，完善技术底座，构建标准协议。二是守牢安全底线，明确产品准则，防范安全风险，完善治理体系，强化行业自律。三是强化应用牵引，围绕科学研究、产业发展、提振消费、民生福祉、社会治理等方向，提出19个典型应用场景。四是建设创新生态，促进产业合作，强化应用推广。