AI 领域每日简报 · 2026年5月3日
① OpenAI Codex 升级为通用智能体,AI 可接管整台电脑
📝 OpenAI 将 Codex 从代码工具升级为通用智能体,具备全系统级计算机操控能力,可在 macOS 后台独立运行,模拟鼠标点击与键盘输入,直接操作桌面应用程序,支持多实例并行执行。开发者实测:原本需 2 小时的人工任务,Codex 8 分钟完成,全程零操作。Sam Altman 明确表示这是 AI 时代”通用工具”的起点,意味着 AI 编程正式迈入系统级自主执行阶段。
🔗 OpenAI 官方博客 | https://help.openai.com/zh-hans-cn/articles/6825453-chatgpt-release-notes
🏷️ #AI智能体 #OpenAI #编程工具
② 英伟达 Nemotron 3 Nano Omni 开源:推理吞吐量提升 9 倍
📝 英伟达于 4 月 28 日发布开源全模态推理模型 Nemotron 3 Nano Omni,首次将视频、音频、图像、文本统一整合至单一架构中,无需拼接多个专用模型。采用 30B-A3B 混合专家(MoE)架构,在保持高质量多模态理解的同时,推理吞吐量较同类开源模型提升 9 倍,已在 Hugging Face、OpenRouter 等 25 + 平台上线,富士康、甲骨文等企业率先采用。
🔗 NVIDIA 官方博客 | https://blogs.nvidia.com/blog/nemotron-3-nano-omni-multimodal-ai-agents/
🏷️ #开源 #多模态 #英伟达
③ 字节豆包大模型 4.5 发布:推理速度提升 40%
📝 字节跳动于 5 月 1 日发布豆包大模型 4.5 版本,重点强化长文本理解与逻辑推理能力,响应速度较上一代提升 40%。此次更新进一步拉近了与国内头部模型的性能差距,豆包系列正加速向企业级 AI 应用场景渗透。
🔗 今日头条科技频道 | http://m.toutiao.com/group/7635209214536811049/
🏷️ #LLM #字节跳动 #国产模型
④ DeepSeek V4 正式发布:API 成本仅为 GPT-4o 的十分之一
📝 DeepSeek V4 于 4 月 24 日发布,参数规模达 1.6 万亿,多项基准测试接近 GPT-4o 水平,API 成本却约为后者的 1/10(每百万 Token 输入仅 2 分钱)。同时完成从英伟达向华为昇腾平台的完整迁移,标志着国产 AI 芯片在大模型训练领域的实质性突破。开源权重同步放出,支持本地部署。
🔗 DeepSeek 官网 | https://www.deepseek.com/zh/
🏷️ #开源 #成本革命 #国产芯片
⑤ 四大科技巨头 AI 资本支出合计达 7250 亿美元
📝 Alphabet、亚马逊、微软、Meta 四家公司联合公布 2026 年 AI 相关资本支出,较此前预判高出 1025 亿美元,总规模达 7250 亿美元。巨额投入将持续推动全球 AI 基础设施建设进入新一轮高峰,算力芯片、光模块、AI 服务器产业链全面受益。谷歌千亿级 AI 投入计划尤为激进,5 月 I/O 大会预计将进一步兑现承诺。
🔗 Daily AI Brief | https://enoumen.com/2026/04/30/ai-daily-news-rundown-725b-big-tech-capex
🏷️ #AI投资 #算力 #产业
⑥ Google I/O 2026 进入倒计时:Gemini 4 有望亮相
📝 谷歌年度开发者大会 I/O 2026 将于 5 月 19 日至 20 日在加州山景城举行,届时 Gemini 将获重大多模态能力提升和智能体编程功能更新。坊间预测 Gemini 4 可能具备 200 万 token 上下文、跨会话长期记忆与低于 300ms 推理延迟,同时 Android 17 与第八代 TPU 也将首次披露。这将是近三年最重磅的一届 I/O。
🔗 Google Android Developers Blog | https://tech.tom.com/202604/1539007390.html
🏷️ #Gemini #Google #多模态
以上资讯基于过去 24 小时公开信息整理。
夜雨聆风