
技术动态
01
百度:发布基础大模型文心大模型5.1
5月9日,百度发布基础大模型文心大模型5.1。
文心5.1基于文心5.0 训练而得,从文心5.0子模型矩阵中提取最优子结构,充分继承文心5.0知识,显著降低预训练成本。创新性提出Once-for-All 的弹性训练框架,在单次预训练中,便可通过动态采样机制,同时优化大量参数各异的子模型,构建出覆盖多种参数规模与计算开销的子模型矩阵。
技术报告:
https://yiyan.baidu.com/blog

原文链接>> 文心 5.1正式上线!
02
阶跃星辰:发布实时语音大模型 StepAudio 2.5 Realtime
5月8日,阶跃星辰发布实时语音大模型 StepAudio 2.5 Realtime,主打真人级对话体验与高效率语音处理。
模型通过多Token预测(MTP)技术实现极速响应,5分钟音频可1秒完成转写。其创新点在于支持千万级人设自定义,并集成32K超长上下文理解能力,能一次性转写30分钟连续音频,避免传统分段拼接导致的语义断裂问题。目前已在阶跃星辰开放平台全量上线,适用于语音助理、实时字幕等场景。
开放平台:
https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-realtime
https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-chat

03
小米:开源多语言语音克隆TTS模型OmniVoice
5月7日,小米开源多语言语音克隆TTS模型OmniVoice,支持超过600种语言,包括低资源小语种和方言。
OmniVoice采用创新的单阶段非自回归架构,仅需一个双向Transformer网络即可实现文本到语音的直接转换。其核心优势在于快速克隆(3-10秒参考音频即可生成相似语音)、高精度(中文WER仅0.84%)和超快合成速度(实时因子RTF达0.025,比实时快40倍);模型还支持声音设计、非语言符号插入及拼音纠正等功能,适用于实时交互场景。
论文:
https://arxiv.org/abs/2604.00688
Github:
https://github.com/k2-fsa/OmniVoice
Huggingface Model:
https://huggingface.co/k2-fsa/OmniVoice

04
腾讯混元:发布多模态深度搜索智能体方案OpenSearch-VL
5月6日,腾讯混元携手加州大学洛杉矶分校(UCLA)、香港中文大学等学府,联合发布 OpenSearch-VL多模态深度搜索智能体方案,通过强化学习(RL)技术,打造具备前沿能力的深度搜索智能体。
OpenSearch-VL核心创新在于自动化生成包含搜索动作和验证过程的训练数据,并提供裁剪、OCR、超分等工具集,使模型能像人一样"边看图边查资料"。OpenSearch-VL 提出利用维基百科的超链接图谱,执行多跳实体路径采样,将中间实体重写为模糊描述,并将锚点实体锚定至源图像,从而抑制单步检索捷径,鼓励智能体学习多跳搜索与推理行为。
论文地址:
https://arxiv.org/pdf/2605.05185
开源地址:
https://github.com/shawn0728/OpenSearch-VL

原文链接>> 腾讯发布OpenSearch-VL,代码数据全公开
05
火山引擎:Doubao-Seed-2.0-lite升级新版本
5月6日,Doubao-Seed-2.0-lite升级为豆包家族首款全模态理解模型,原生统一处理视频、图像、音频、文本,Agent、Coding 与 GUI 能力同步升级。
融入语音理解后,新版本可同时理解多种输入模态,并完成跨模态联合推理,支持19个语种的精准语音转写、中英文与其他14个语种互译。Agent、Coding、GUI能力同步升级,可承担长程任务自我拆解与跨应用操作,覆盖电竞教练、在线教育、海外电商等场景。
模型主页:
https://seed.bytedance.com/seed2

06
Ai2:发布视觉-语言-动作(VLA)模型MolmoAct2
近日,艾伦人工智能研究所(Ai2)联合华盛顿大学等机构发布面向真实世界部署的完全开源视觉-语言-动作(VLA)模型MolmoAct2。
MolmoAct2核心突破在于专用的具身推理视觉骨干Molmo2-ER,通过3.3M样本训练提升空间理解能力。采用三阶段训练:预训练使VLM学会预测离散动作token;后训练接入连续动作专家,用流匹配生成平滑动作轨迹;再通过特定机械臂微调部署。该模型配套开源了720小时双臂操作数据集,覆盖折叠毛巾、充电等28项真实任务。
论文地址:
https://arxiv.org/abs/2508.07917
项目主页:
https://allenai.org/blog/molmoact
代码仓库:
https://github.com/allenai/MolmoAct
模型下载:
https://huggingface.co/allenai/MolmoAct-7B-D-0812

行业动态
01
Claude:正式接入Office全家桶
5月8日,Claude官方宣布正式接入微软Excel、PowerPoint和Word,并在Outlook中开放了公测版。
用户无需切换网页版,可直接在Office内调用Claude完成邮件处理、文档草拟、表格分析、汇报生成全流程。此外,用户在不同Office应用中操作时,Claude能记住之前的上下文,实现从邮件分类、文档起草到数据分析和汇报生成的全流程连贯协作。

02
OpenAI:推出Realtime API三款音频模型
5月7日,OpenAI在Realtime API中推出三款音频模型——GPT‑Realtime‑2、GPT‑Realtime‑Translate和GPT‑Realtime‑Whisper,分别面向复杂推理、实时翻译和流式转录场景,旨在帮助开发者构建能够倾听、推理、翻译、转录并实时行动的“语音代理”智能体。
GPT‑Realtime‑2是OpenAI首个集成GPT‑5级推理的语音模型,与上一代GPT‑Realtime‑1.5相比,该模型专为处理更复杂的用户请求而设计,能够调用工具、处理打断、在长语音会话中保持上下文连贯。
GPT‑Realtime‑Translate是一款专为实时语音翻译设计的模型,该模型能够“跟上说话者的节奏”进行对话式实时翻译,并支持从70多种语言翻译成13种输出语言,面向客户支持、教育等场景。
GPT‑Realtime‑Whisper是一个全新的流式语音转录模型,该模型提供实时语音转文字功能,可在说话者讲话的同时生成字幕、会议记录和工作流程更新。

03
宇树科技:开放UniStore宇树应用平台
5月7日,宇树科技宣布全面开放人形机器人任务动作应用商店——UniStore宇树应用平台。
该平台可以让用户像下载手机APP一样开发、下载和使用机器人新应用,其内设用户广场、动作库、数据集、开发者中心四大核心模块,致力于“共建未来机器人服务,让智能与创造力融为一体”。目前,UniStore宇树应用平台动作库已引入杰克逊、整活扭动机器人、欢呼、蹦迪、比心、螳螂拳、查尔斯顿舞等24个执行动作,且均可限时免费体验。

原文链接>> 王兴兴给机器人搞的App Store,开放了
04
Genesis AI:发布机器人基础模型系统GENE-26.5
5月7日,机器人创业公司Genesis AI发布机器人基础模型系统GENE-26.5,专注于实现人类级别的物理操作能力。
该模型通过流匹配技术整合视觉、触觉、动作等多模态数据,支持烹饪、实验室移液、解魔方等复杂任务。其核心创新包括专用数据引擎、仿人机械手及低延迟控制系统,能快速从少量任务数据中学习。数据引擎依托手套数据、第一视角与第三人称视频,已积累超20万小时跨模态数据,主要由真实人类操作数据训练,仿真负责闭环评估与迭代。

05
阿里:千问上线PC侧AI语音输入能力
5月7日,千问上线PC侧AI语音输入能力。
使用快捷键即可唤醒(Windows用户长按右Alt、Mac用户长按右Command);不仅能在千问PC端使用,各类应用、网页中也都能直接调用。目前,该功能已向所有用户免费开放。

原文链接>> 你的电脑,能用千问AI语音输入了!
06
TRAE.ai:推出AI编程助手的独立端版本TRAE SOLO
5月6日,TRAE.ai推出AI编程助手的独立端版本TRAE SOLO,支持移动、桌面和网页三端同步使用,提供Code和MTC双模式。
Code模式专为开发者设计,支持代码生成、调试和文档编写;MTC模式覆盖产品、运营、数据分析等产研场景,能处理PRD生成、数据清洗等任务。其核心特点是AI智能体可自主拆解任务并调度工具,支持语音交互和跨设备协同,国内版已全量免费开放。

原文链接>> TRAE SOLO 三端全量免费开放
政策趋势
01
四部门:印发《关于促进人工智能与能源双向赋能的行动方案》
5月8日,国家能源局会同国家发展改革委、工业和信息化部、国家数据局印发《关于促进人工智能与能源双向赋能的行动方案》。
《行动方案》以能源支撑人工智能发展、人工智能赋能能源转型为主线,聚焦保障算力设施安全可靠的能源供给、推动算力设施绿色低碳转型、促进算力电力高效经济协同、开放能源领域人工智能高价值应用场景、挖掘能源领域数据价值、强化能源领域人工智能模型创新等方面部署了29项重点任务,着力促进能源、算力、场景、数据、模型等人工智能发展各要素高效协同。

原文链接>> 国家发展改革委 国家能源局 工业和信息化部 国家数据局印发《关于促进人工智能与能源双向赋能的行动方案》的通知
02
三部门:印发《智能体规范应用与创新发展实施意见》
5月8日,国家网信办、国家发展改革委、工业和信息化部联合印发《智能体规范应用与创新发展实施意见》,旨在促进智能体规范应用与创新发展。
《实施意见》明确智能体发展要坚持安全可控、规范有序、创新驱动、应用牵引的基本原则,并提出了4个方面举措:一是夯实发展基础,完善技术底座,构建标准协议。二是守牢安全底线,明确产品准则,防范安全风险,完善治理体系,强化行业自律。三是强化应用牵引,围绕科学研究、产业发展、提振消费、民生福祉、社会治理等方向,提出19个典型应用场景。四是建设创新生态,促进产业合作,强化应用推广。

原文链接>> 智能体重点应用领域有哪些?三部门发文明确
03
四川:印发《四川省加快推进“人工智能+”一号创新工程实施方案》
5月6日,四川省人民政府办公厅印发《四川省加快推进“人工智能+”一号创新工程实施方案》。
《方案》明确了发展目标、重点任务和工作要求,为四川“人工智能+”划定清晰的时间表和“施工图”,部署了20个“人工智能+”重点领域,涵盖科学研究、制造、农业、低空、医疗、文旅、教育、就业、康养等领域,并配套算力券、词元券等政策保障。

原文链接>> 四川“人工智能+”重磅方案出炉!
声明:资料素材均来源官方媒体/网络,如有侵权,请联系删除。
✦
✦
END
南京新一代人工智能研究院
Nanjing Research
Institute of Next-generation Artificial Intelligence

南京新一代人工智能研究院,是中国信息通信研究院在人工智能、大数据领域投资组建的控股企业,是江苏省人工智能产业公共技术服务平台的落地运营单位。
研究院以“服务国家战略实施,促进地方产业升级”为导向,在人工智能和大数据领域,开展前沿技术研究、标准制定、评测工具开发、实验能力建设等工作,可为企业提供全方位的诊断、咨询、培训、评估服务。

联系方式
吴老师 17788386765(微信同号)
杨老师 15221125491(微信同号)
夜雨聆风