乐于分享
好东西不私藏

AI科技日报-2026年4月29 日

AI科技日报-2026年4月29 日

昨夜至今日清晨,AI 领域迎来多项关键发布:NVIDIA 推出全新多模态模型 Nemotron 3 Nano Omni,Google Cloud 托管 MCP 服务器正式可用,百度 GenFlow 4.0 升级企业级 Agent 能力,pip 26.1 正式支持锁文件。与此同时,OpenAI 与微软完成合作协议修订,行业格局面临重组。以下为详细报道。

1. NVIDIA 发布 Nemotron 3 Nano Omni 多模态模型,30B MoE 架构支持本地部署

NVIDIA 正式推出 Nemotron 3 Nano Omni 多模态模型,采用 30B 参数 MoE(混合专家)架构,具备图像输入理解、推理和工具调用三大核心能力。该模型本地运行约需 25GB 显存,现已在 LM Studio、Fireworks AI、Amazon SageMaker 和 NVIDIA NIM API 上线,其中 NIM API 提供免费测试额度。该模型的推出标志着 NVIDIA 正式进入开源多模态模型竞争,进一步完善了其 AI 技术栈的端到端覆盖。该多模态模型支持本地部署意味着对隐私敏感的企业和开发者可以在不依赖云端的情况下处理图像+文本+工具调用的复杂任务,扩展了 AI 应用场景的边界。

2. OpenAI 与微软解除云合作独家限制,知识产权条款转为非独家

OpenAI 与微软完成合作协议重大修订,解除双方在云服务领域的独家合作限制,知识产权条款从独家授权转为非独家,并重新划分了收入分成比例。这一变化结束了多年来外界对 OpenAI 是否受制于微软资本约束的猜测。该条款的移除意味着 OpenAI 可自由与其他云服务商合作,而微软则可引入更多第三方 AI 技术。对整个 AI 行业而言,这意味着大型云厂商与 AI 模型公司之间的绑定关系正在松动,竞争格局将更加开放。

3. Google Cloud 50+ 托管 MCP 服务器正式可用,加速 Agent 生产落地

Google Cloud 宣布 50 多个托管 MCP(Model Context Protocol)服务器正式可用,帮助 AI Agent 访问真实数据并解决复杂问题。MCP 是连接 AI 模型与外部数据源的关键协议,托管服务器的推出大幅降低了企业构建生产级 Agent 的门槛,开发者无需自行维护服务器即可调用真实数据源。这一更新处于 Google Cloud Next ’26 期间发布的 AI 基础设施升级系列中,代表了主流云厂商对 Agent 时代的基础设agenda 已从概念验证进入规模化部署阶段。

4. pip 26.1 正式发布,新增锁文件功能解决依赖一致性难题

Python 包管理工具 pip 正式发布 26.1 版本,新增锁文件功能,可记录精确的依赖版本及哈希值,确保不同环境间的依赖一致性。在此之前,Python 开发者通常依赖 conda 或 poetry 等第三方工具实现锁文件功能,而 pip 作为 Python 官方包管理器的这一补全,对 AI 开发场景意义重大。AI 模型的训练和推理环境对依赖版本有严格要求,pip 锁文件的引入将大幅提升环境可复现性,降低”在我机器上能跑”(works on my machine)问题的发生频率。

5. 百度发布 GenFlow 4.0:Office Agent 并行调用,月活超 1 亿

百度文库与网盘联合发布 GenFlow 4.0,核心升级为 Office Agent,可并行调用 PPT、Excel 和 Word Agent 完成复杂办公任务,并与 OpenClaw 深度集成。百度同时披露该平台月活跃用户已超过 1 亿,日均处理数千万次办公任务请求。GenFlow 4.0 的并行 Agent 架构意味着 AI 可以同时操控多种办公软件完成跨应用工作流,这是 AI 原生办公工具的重要进步,也是百度在 AI 产品化方面的重要里程碑。

6. 小米 MiMo-V2.5 全系列开源 MIT 许可,代码竞技场开源第三

小米 MiMo-V2.5 全系列模型已完整开源,采用 MIT 许可证,允许自由商用和二次训练。同日发布的还有 Orbit 100T Token 激励计划,面向 AI builder 的”百万亿 Token 创造者激励计划”最高提供 16 亿 Credits。在 Code Arena 前端设计排行榜中,MiMo-V2.5 位列第 11 名(开源第 3),Pro 版本在文本竞技场排名开源第 2、视觉竞技场开源第 7。小米此举将高性能模型开放给社区,配合大规模激励计划,将进一步推动 AI 开发者生态的活跃度。

7. talkie:基于 1930 年前文本训练的 13B 复古语言模型,探索知识边界

Alec Radford 等联合推出 talkie 系列模型,仅使用 1930 年前公共版权文本训练,参数规模 13B,提供基础模型和对话模型两个版本(Apache 2.0 许可)。该项目意在探索一个核心问题:当模型完全无法学习互联网数据时,它能否预测未来、发明新知识。talkie 的实验性质使其成为 AI 研究社区的重要案例,其复古语料库排除了一切现代互联网内容,为理解语言模型的知识边界提供了一个独特的对照实验。

8. 微软 VibeVoice 本地语音转录:5.71GB 显存、9 分钟转录 1 小时音频

微软 VibeVoice 语音转文本模型(MIT 许可)在 M5 MacBook 上实测表现突出,4bit MLX 版本仅需约 5.71GB 存储空间,峰值内存约 60GB,转录 1 小时音频仅需约 9 分钟,并具备说话人分离功能,可准确区分不同说话人的语音内容。这一本地运行能力意味着用户在完全不依赖云端的情况下即可完成高质量语音转写,对隐私敏感场景(如医疗、法律记录)具有重要实用价值。

总结

本期涵盖基础设施升级、监管政策、开源生态与商业化布局多条主线。基础设施层面,NVIDIA、Google Cloud 和 pip 的更新标志着 AI 开发工具链持续完善;开源生态中,小米 MiMo-V2.5 全系列 MIT 开源,显示开源力量正快速缩小与闭源顶尖模型的差距;商业格局方面,OpenAI 与微软解除独家合作、百度 GenFlow 4.0 月活过亿,意味着 AI 行业竞争关系正经历结构性重组。本期呈现的多个趋势将在接下来数周内持续塑造 AI 行业走向。