AI 晨报
OpenAI 三连出击:实时翻译+Codex 自治+Windows 支持,AI 正从工具变成"同事"
📰 要闻一览
5月30日,今天的AI新闻几乎被OpenAI包揽。第一弹:gpt-realtime-translate 发布——这是一个专门为实时翻译场景设计的新模型,能接收70多种语言的语音输入,翻译成13种目标语言的语音输出,Greg Brockman 特别提到已经在智能眼镜上实测运行。这标志着 OpenAI 在专用模型方向的又一步落地:通用大模型很强,但特定场景需要专用模型。第二弹:Codex 获得自我管理能力——你可以把一堆任务扔给 Codex,它会自己创建对话线程、搜索相关线程、整理归档、把重要的线程固定置顶,还能为并行任务开启独立的工作树。过去你要手动管理几十个对话,现在 Codex 自己搞定。第三弹:Codex 支持 Windows 端计算机使用——用户可以通过 ChatGPT 手机应用远程启动 Windows 上的任务,Codex 在 PC 端自主执行,你在路上用手机就能审查和引导任务进度。
🧠 底层逻辑是什么
这三个更新背后有一条清晰的产品逻辑:OpenAI 正在把 AI 从"被动响应工具"升级为"主动执行同事"。实时翻译模型说明了一件事:通用大模型不是终点,垂直场景需要专门训练的模型,OpenAI 现在开始向"专用模型矩阵"转型。Codex 的自我管理能力则代表了一个更根本的转变:过去你用 AI 就像用搜索引擎,一问一答;现在 AI 变成了一个能自主管理工作流的执行层——它记得你的任务、知道哪些在进行、哪些需要等待、哪些可以并行。Windows 端的计算机使用能力,则把这种自治延伸到了操作系统层面:AI 不只是在对话框里回答你,而是直接在你的电脑上操作文件、运行程序、完成任务。三者叠加,AI 的角色正在发生质变:从工具,变成了有主动性的数字同事。
🏭 对行业有什么影响
对 AI 编程工具市场,Codex 自我管理能力的上线是一个强烈信号:Cursor、Windsurf 等竞品也将被迫跟进类似的任务自治功能,否则用户很快就会觉得手动管理对话是"老派操作"了。对翻译行业,gpt-realtime-translate 已经在智能眼镜上运行,这意味着同声传译设备和耳机厂商的商业模式面临冲击——当 OpenAI 提供 API 级别的实时翻译,硬件厂商的护城河就只剩硬件本身了。对企业 AI 部署,Codex 支持 Windows 端计算机操控,意味着 AI 可以接管 Windows 工作流:处理 Excel、操作 Office、运行内部系统——企业不需要把数据迁移到云端,AI 可以直接在本地 Windows 上干活。这对微软 Copilot 是直接的竞争压力。
👤 对我们有什么影响
对普通用户,最快能感受到的变化是出行翻译体验:实时语音翻译模型跑在智能眼镜上,意味着戴着眼镜出国旅游、开会,完全实时的双向翻译将成为现实,不再需要拿出手机举着说话。对每天用 AI 写代码的开发者,Codex 自我管理线程意味着你的任务清单不再会乱:一个任务交出去,Codex 自动归档、追踪状态、必要时并行跑,你可以开更多任务而不会失控。对在路上经常需要处理工作的人,Codex Windows 操控是一个实实在在的"远程助理":你在手机上告诉它任务,它在家里的 Windows 电脑上帮你干,出差在外也不耽误事。一句话总结:AI 正在从"你去找工具"变成"工具主动帮你干",今天 OpenAI 的三连发,是这个方向最清晰的一次宣示。
国内动态
阶跃星辰发布了 Step 3.7 Flash,专门为智能体工作流设计,198B参数的MoE架构但只激活11B,支持256K超长上下文。在工具调用可靠性测试上跑到98%以上,还能在 Mac Studio M4 Max 上本地跑,全部开源。
小米开源了一个叫 ControlFoley 的视频配音模型,可以用文字描述或者参考音频来控制配音效果,不是随机生成而是「按你想要的来」。在多个基准上拿了开源最好成绩,代码、模型权重和在线Demo都开放了。
阿里发布了 Qwen-VLA,是一个视觉语言行动模型,不只能理解图像和视频,还能在现实世界里采取行动。相当于把 Qwen 从「看懂」升级到了「做到」,朝着具身智能又走了一步。
国外动态
OpenAI出了个专门做实时翻译的新模型 gpt-realtime-translate,支持70多种语言说进去、翻成13种语言说出来。Greg Brockman 说这个已经跑在智能眼镜上了——以后出国旅游戴着眼镜就能实时翻译,不用掏手机了。
Codex 现在不用你手动管理对话了——它自己会创建线程、搜索旧对话、整理归档、把重要任务固定置顶,还能为同时跑的多个任务开独立的工作树。扔给它一堆任务,它自己理清楚。
Gemini Omni 现在可以把你随手画的草图变成真实场景的视频了。上传一段画圆的视频,输入「当我画完这个圆时,它变成了___」,它就能真的生成出来。在 Gemini 应用里就能玩。
共收录 24 条 AI 资讯,涵盖 5 大主题版块
数据来源:aihot.virxact.com
夜雨聆风