2026年5月8日AI日报 | 语音Agent、多模态开源、企业插件,AI产品密集更新

AI日报

2026.5.8日资讯速递

1. OpenAI 发布三款实时音频模型，GPT-Realtime-2 具备 GPT-5 级推理

OpenAI 在 Realtime API 中正式上线三款实时音频模型，包括旗舰语音模型 GPT-Realtime-2、实时翻译模型 GPT-Realtime-Translate，以及流式转录模型 GPT-Realtime-Whisper，面向语音 Agent、实时字幕和跨语言交互等场景开放。

GPT-Realtime-2 支持 128K 上下文、并行工具调用和可调节推理力度
高推理版本在 Big Bench Audio 基准中得分 96.6%，较上一代明显提升
GPT-Realtime-Translate 支持超 70 种输入语言，Whisper 主打低延迟实时转录

2. 小米开源 MiMo-V2.5，支持百万上下文和多模态输入

小米团队上线 MiMo-V2.5 开源权重，采用 310B 总参数、15B 激活参数的稀疏混合专家架构，支持文本、图像、视频和音频输入，最长上下文达到 100 万 token，面向复杂多模态任务和本地部署场景。

模型采用 MoE 架构，兼顾大规模能力与推理效率
视觉编码器、音频编码器和多令牌预测模块参数细节一并公开
适合多模态理解、复杂上下文处理和高负载应用场景

3. Codex 上线 Chrome 扩展，并新增 Vim 模式

OpenAI 为编程 Agent Codex 发布 Chrome 扩展，支持在后台跨标签页并行执行 Web 任务，同时对应用进行更新，加入 Vim 模式、键盘映射调试、PR 状态行等功能，进一步增强开发者工作流体验。

Chrome 扩展支持后台跨标签页并行执行网页操作任务
安全上加入每站点访问控制，减少网页自动化风险
应用更新还包含原始回滚、会话选择器和性能优化

4. Amp 发布新版 CLI Neo，转向长链路 Agent 架构

Amp Code 推出新版 CLI Neo，从陪伴式 Agent 转向更适合持续任务的长链路 Agent 模式。新版重点增强远程控制、自动上下文压缩、插件扩展和消息排队机制，明显降低长线程资源占用。

本地线程可在网页端远程查看与管理，支持更长任务链路
上下文占用达 90% 时自动压缩总结，替代手动交接
长线程 CPU 占用下降 79%，内存占用下降 70%

5. OpenAI 推出 GPT-5.5-Cyber，面向网络安全防御人员

OpenAI 发布面向关键基础设施防御人员的 GPT-5.5-Cyber 受限预览版，并同步通过 TAC 框架提供 GPT-5.5 模型。该版本主要服务于受控环境中的高风险网络安全工作流，访问权限更严格。

GPT-5.5-Cyber 面向红队演练、渗透测试等高风险场景
官方建议多数防御工作流优先从 TAC 授权的 GPT-5.5 开始
个人可在线验证身份，企业可通过官方代表申请访问

6. Atlas 开源推理引擎发布，单卡性能号称超 vLLM 三倍

Atlas 推理引擎正式开源，采用纯 Rust 与 CUDA 架构实现，摆脱传统 Python 运行时。官方称其在 DGX Spark 上运行 Qwen3.5 时可持续输出每秒 111 个 token，性能约为 vLLM 的三倍。

纯 Rust 架构使镜像体积压缩到约 2.5GB
支持原生量化精度和多令牌预测投机解码
API 兼容主流接口，便于接入现有编码和推理工具链

7. Zyphra 发布 ZAYA1-74B-Preview，基于 AMD 硬件训练

Zyphra 发布预览模型 ZAYA1-74B-Preview，采用 740 亿总参数、40 亿激活参数的混合专家架构，基于 AMD 硬件端到端训练。该版本尚未完成 RL 后训练和指令调优，完整版本预计数周内发布。

这是一个预推理 RL 检查点，主要展示底模潜力
当前 pass@1 表现落后于已完成 RL 的竞品，但 pass@4 竞争力较强
后续完整 RL 训练完成后，性能仍有较大提升空间

8. Google 发布 Gemini 3.1 Flash-Lite 正式版，预览版本月下线

Google 正式发布 Gemini 3.1 Flash-Lite 的 GA 版本，主打速度、规模和成本效率，适合高吞吐 Agent 任务、翻译和基础数据处理。与此同时，Gemini API 的预览版本将于本月 25 日关闭。

官方将其定位为当前最具成本效益的 Gemini 模型之一
适合高并发、轻量级 Agent 场景和简单处理任务
使用预览版的开发者需要尽快迁移到正式版

9. Hermes Agent v0.13.0 发布，新增多 Agent 协作看板

Nous Research 发布 Hermes Agent v0.13.0，核心更新是持久化多 Agent Kanban 协作看板和跨轮次锁定目标的 /goal 指令，同时集中修复 8 个 P0 级安全漏洞，并新增 Google Chat 接入能力。

多 Agent 看板支持僵尸检测、幻觉恢复和持久化协作
安全层面默认启用 Secret 脱敏，并修复多个高危漏洞
Google Chat 成为其接入的第 20 个消息平台

10. Mirage 开源，为 AI Agent 提供统一虚拟文件系统

strukto-ai 团队开源 Mirage，面向 AI Agent 提供统一虚拟文件系统，可将 S3、GitHub 等多种云服务挂载成单一目录树，让 Agent 直接使用 cat、grep 等 Unix 命令跨后端读写数据。

支持双层缓存、快照和版本化，提升跨源访问效率
提供 SDK 和 CLI，已适配 LangChain 等框架
适合多数据源环境下的 Agent 工具调用和文件处理

11. Anthropic 发布 Claude for Microsoft 365 插件正式版

Anthropic 正式发布 Claude for Microsoft 365 插件，其中 Excel、Word 和 PowerPoint 插件转为正式版，Outlook 进入公测。所有 Claude 付费用户无需额外付费即可使用。

Claude 可直接在 Office 应用内处理文档、图表和数据
核心优势是跨应用保留上下文，减少来回切换
Outlook 插件目前处于公测阶段，后续场景空间较大

12. Grok 推出 Connectors，支持第三方应用集成

xAI 为 Grok 推出 Connectors 功能，已在 Web 端上线，首批支持 SharePoint、Outlook、Google Workspace 等 7 款第三方应用，还支持自定义 MCP 服务器接入。

可直接读写邮件、文档和日历，打通端到端工作流
同步推出 Bring Your Own MCP，方便企业接入自定义系统
官方表示后续会扩展到 iOS、Android，并继续增加连接器

13. TRAE SOLO 移动端正式上线，打通手机与 PC 端 Agent 协同

TRAE SOLO 移动端正式上线，支持手机、PC 和 Web 端全量互联，用户可在手机端下达任务，在电脑端跟进执行过程，还支持语音交互、飞书文档处理和定时任务。

一个账号可接入两部手机，一部手机可连接多台 PC
支持自动生成调研 PPT、会议纪要和待办清单
打通飞书文档权限识别与编辑链路，适合移动办公场景

14. Anthropic 在 HackerOne 公开漏洞赏金计划

Anthropic 宣布其在 HackerOne 的安全漏洞赏金计划结束私密阶段，正式向公众开放。研究者可提交基础设施和代码层面的漏洞报告，最高可获得 1 万美元赏金。

官方承诺在收到有效报告后 1 个月内支付赏金
为善意研究者提供安全港保护，降低披露顾虑
模型内容安全、越狱类问题不在该计划范围内

声明：本内容由AI生成，可能包含不准确或推测性信息，请读者自行甄别并谨慎参考。

欢迎点赞收藏

持续关注每日AI前沿动态

- 立即扫码 -

更多资讯，

点击下方卡片关注赛凡智云协作平台

▲ 赛凡云盒，一款超好用的企业私有云盘