AI 领域每日简报 · 2026年5月3日-夜雨聆风

AI 领域每日简报 · 2026年5月3日

① OpenAI Codex 升级为通用智能体，AI 可接管整台电脑

📝 OpenAI 将 Codex 从代码工具升级为通用智能体，具备全系统级计算机操控能力，可在 macOS 后台独立运行，模拟鼠标点击与键盘输入，直接操作桌面应用程序，支持多实例并行执行。开发者实测：原本需 2 小时的人工任务，Codex 8 分钟完成，全程零操作。Sam Altman 明确表示这是 AI 时代”通用工具”的起点，意味着 AI 编程正式迈入系统级自主执行阶段。

🔗 OpenAI 官方博客 | https://help.openai.com/zh-hans-cn/articles/6825453-chatgpt-release-notes

🏷️ #AI智能体 #OpenAI #编程工具

② 英伟达 Nemotron 3 Nano Omni 开源：推理吞吐量提升 9 倍

📝 英伟达于 4 月 28 日发布开源全模态推理模型 Nemotron 3 Nano Omni，首次将视频、音频、图像、文本统一整合至单一架构中，无需拼接多个专用模型。采用 30B-A3B 混合专家（MoE）架构，在保持高质量多模态理解的同时，推理吞吐量较同类开源模型提升 9 倍，已在 Hugging Face、OpenRouter 等 25 + 平台上线，富士康、甲骨文等企业率先采用。

🔗 NVIDIA 官方博客 | https://blogs.nvidia.com/blog/nemotron-3-nano-omni-multimodal-ai-agents/

🏷️ #开源 #多模态 #英伟达

③ 字节豆包大模型 4.5 发布：推理速度提升 40%

📝 字节跳动于 5 月 1 日发布豆包大模型 4.5 版本，重点强化长文本理解与逻辑推理能力，响应速度较上一代提升 40%。此次更新进一步拉近了与国内头部模型的性能差距，豆包系列正加速向企业级 AI 应用场景渗透。

🔗 今日头条科技频道 | http://m.toutiao.com/group/7635209214536811049/

🏷️ #LLM #字节跳动 #国产模型

④ DeepSeek V4 正式发布：API 成本仅为 GPT-4o 的十分之一

📝 DeepSeek V4 于 4 月 24 日发布，参数规模达 1.6 万亿，多项基准测试接近 GPT-4o 水平，API 成本却约为后者的 1/10（每百万 Token 输入仅 2 分钱）。同时完成从英伟达向华为昇腾平台的完整迁移，标志着国产 AI 芯片在大模型训练领域的实质性突破。开源权重同步放出，支持本地部署。

🔗 DeepSeek 官网 | https://www.deepseek.com/zh/

🏷️ #开源 #成本革命 #国产芯片

⑤ 四大科技巨头 AI 资本支出合计达 7250 亿美元

📝 Alphabet、亚马逊、微软、Meta 四家公司联合公布 2026 年 AI 相关资本支出，较此前预判高出 1025 亿美元，总规模达 7250 亿美元。巨额投入将持续推动全球 AI 基础设施建设进入新一轮高峰，算力芯片、光模块、AI 服务器产业链全面受益。谷歌千亿级 AI 投入计划尤为激进，5 月 I/O 大会预计将进一步兑现承诺。

🔗 Daily AI Brief | https://enoumen.com/2026/04/30/ai-daily-news-rundown-725b-big-tech-capex

🏷️ #AI投资 #算力 #产业

⑥ Google I/O 2026 进入倒计时：Gemini 4 有望亮相

📝 谷歌年度开发者大会 I/O 2026 将于 5 月 19 日至 20 日在加州山景城举行，届时 Gemini 将获重大多模态能力提升和智能体编程功能更新。坊间预测 Gemini 4 可能具备 200 万 token 上下文、跨会话长期记忆与低于 300ms 推理延迟，同时 Android 17 与第八代 TPU 也将首次披露。这将是近三年最重磅的一届 I/O。

🔗 Google Android Developers Blog | https://tech.tom.com/202604/1539007390.html

🏷️ #Gemini #Google #多模态

以上资讯基于过去 24 小时公开信息整理。