
1. 阿里发布 Wan-Streamer v0.1:端到端实时音视频交互模型
阿里 Wan 团队发布 Wan-Streamer v0.1,定位为低延迟、全双工的实时音视频交互基础模型。该模型在单个 Transformer 架构内统一处理文本、音频与视频输入输出,目标是实现更自然的实时对话和同步视频生成。
模型端响应延迟约 200 毫秒,整体交互延迟约 550 毫秒。 支持原生流式、全双工通信,可持续感知输入并支持随时打断。 v0.1 当前分辨率为 192p,官方称其是开源领域内少数可在 1 秒内端到端输出同步音视频的模型。
2. 马斯克称 Grok 4.5 已内测:性能或接近 Opus
马斯克透露,Grok 4.5 已在 SpaceX 和 Tesla 内部测试。该模型基于 1.5T V9 foundation model 训练,并在补充训练中加入 Cursor 数据,早期评估显示其性能接近甚至可能超过 Opus。
强化学习仍在持续提升 Grok 4.5 的能力,Grok Build harness 也在每日迭代。 马斯克称今年接下来每个月都会发布一个从零训练的新模型。 相关性能结论目前来自马斯克公开表态,仍需等待正式评测和公开报告验证。
3. DeepSeek 开源 DSpark:用推测解码加速大模型推理
DeepSeek 发布 DSpark 推测解码框架,用 “草稿生成 + 目标模型校验” 的方式提升大模型推理速度。官方同步开源 DeepSpec 训练与评估代码库,以及附加 DSpark 模块的 DeepSeek-V4 系列 checkpoint。
DSpark 采用半自回归生成架构,结合并行 draft backbone 与轻量 sequential head,缓解并行草稿器后缀接受率下降问题。 引入置信度调度校验机制,可根据前缀存活概率和引擎吞吐特征动态调整校验长度。 论文称在同等整体吞吐下,DSpark 可将 V4-Flash 单用户生成速度提升 60%–85%,将 V4-Pro 提升 57%–78%。
4. Un-0 开源:用耦合振荡器探索低能耗图像生成
Unconventional AI 发布并开源图像生成模型 Un-0。该模型由模拟的耦合振荡器物理动力系统驱动,重点不是短期追赶主流扩散模型,而是探索物理计算基板在 AI 能耗上的潜力。
官方开源了模型权重、训练代码和消融实验代码。 Un-0 在 ImageNet 64x64 基准上达到 FID 6.74,官方称可对标部分传统图像生成方法早期版本。 官方承认其在大参数规模下仍落后于高性能传统模型,但长期目标是将现代 AI 能耗降低约 1000 倍。
5. Google AI Studio 改进 Gemini TTS 音频流能力
Google 改进了 Gemini TTS 的音频流功能,重点降低实时语音输出延迟,同时保留声音表现力。用户现在可以在 Google AI Studio 中直接体验该能力。
更新后音频流延迟更低,更适合实时语音交互场景。 仍支持完整声音表现力,不牺牲语气、情绪和自然度。 保留内联音频标签能力,例如可处理带情绪提示的 “[laughs excitedly]”。
6. Google AI Studio 推出 Design Variations:一键生成 UI 方案
Google AI Studio 推出 Design Variations 功能,帮助用户快速探索不同 UI 布局和视觉方案。该功能通过专门按钮触发,降低了用提示词描述审美风格的难度。
用户可一键生成、探索并应用新的 UI 布局。 适合原型设计、界面改版和多方案对比场景。 功能已在 AI Studio 上线,可直接试用。
7. Nous Research 推出 Hermes Agent MoA 2.0:组合多个模型做虚拟模型
Nous Research 在 Hermes Agent 中推出 Mixture of Agents 2.0,允许用户把不同提供商的模型组合成一个虚拟模型。其核心思路不是模型路由,而是并行执行多个模型,再整合结果以提升表现。
官方称该方案在即将发布的 HermesBench 中,比 Opus 4.8 高 8%,比 GPT-5.5 高 11%。 组合 Opus 与 GPT 的实际成本约为单用 Opus 的 1.5 倍,且需要等待最慢模型返回。 团队正在测试开源模型组合,希望用更低成本接近顶级闭源模型效果。
8. 新华社发布 “新华语典”:面向政务场景的时政 AI 智能体
由新华社主导、新华网运营的时政 AI 智能体 “新华语典” 正式发布。该产品依托新华社长期积累的权威数据,面向政务工作者提供问答、订阅、知识库和文稿辅助能力。
产品包含智能问答、订阅推送、知识库和智能体广场四大模块。 支持新闻溯源查证、舆情简报、公文撰写等七类功能。 官方强调其基于权威数据构建低幻觉技术路径,重点服务政务信息处理和文稿起草。
9. Epoch AI 发布 MirrorCode:测试 AI 端到端重写程序能力
Epoch AI 与 METR 合作发布 MirrorCode 长周期编码基准,用于评估 AI 在无法访问原始源代码时,能否根据文档、执行权限和测试用例从零重写整个程序。该基准同步公开论文和部分开源代码库。
MirrorCode 覆盖 Unix 工具、数据序列化、生物信息学、解释器、静态分析、密码学和压缩等领域。 基准包含 25 个目标程序,支持 6 种编程语言,共 132 个任务实例。 当前 Claude Opus 4.7 得分为 56%,但官方提醒开源程序重实现任务可能存在数据污染导致的虚高问题。
10. XLANG Lab 推出 OSWorld 2.0:长周期真实任务仍是 Agent 短板
XLANG Lab 发布 OSWorld 2.0 基准测试,专注评估 Agent 在长周期、复杂真实世界任务中的表现。该基准包含论文、代码和开源数据集,任务覆盖多个专业工作流。
OSWorld 2.0 包含 108 项真实任务,熟练人类平均完成时间约 1.6 小时。 Agent 平均需要约 318 次工具调用,说明长链路操作仍然成本高、稳定性弱。 在 500 步限制下,表现最好的 Claude Opus 4.8 完成率仅为 20.6%,GPT-5.5 稳定在约 13%。
声明:本内容由AI生成,可能包含不准确或推测性信息,请读者自行甄别并谨慎参考。
欢迎点赞收藏


夜雨聆风