OpenAI 发布三款实时语音 API 模型

OpenAI 通过 API 平台推出了三款全新的实时音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,面向开发者构建语音 Agent、实时翻译工具和流式转录产品。
GPT-Realtime-2 是核心升级。OpenAI 表示该模型可以处理更复杂的请求、在对话中自动纠错、同时调用多个工具,并保持更自然的实时交互节奏。上下文窗口也从 32K 扩展到 128K tokens,能承载更长的对话和客户历史记录。
GPT-Realtime-Translate 支持 70+ 语言的实时多语翻译,GPT-Realtime-Whisper 则专注于实时语音转文字。
Zillow、Priceline、Vimeo、Deutsche Telekom 等公司已开始测试这些模型,应用于客户支持、旅行辅助、实时翻译和语音工作流等场景。
为什么重要: 语音 AI 长期面临一个两难——响应快的模型往往听起来自然但容易出错,推理强的模型又会出现尴尬的停顿。OpenAI 试图通过让语音系统实时思考并响应来弥合这一差距。更大的机会在于,语音可能成为软件的重要交互界面,尤其在客服、排程、医疗、销售和旅行等仍以语音为主的领域。
AI 研究者押注「世界模型」,而非聊天机器人

越来越多 AI 研究者认为,仅靠语言模型无法实现真正的智能。
Yann LeCun 的 AMI Labs、李飞飞的 World Labs、以及 Skild AI 等公司正在构建「世界模型」——通过视频、模拟和真实交互来理解物理世界运作方式的系统。
核心思路是:聊天机器人从互联网文本学习了语言,而世界模型则要学习运动、物理、因果关系和物体在真实环境中的行为。
一些研究者指出,当前 AI 仍缺乏基本的物理理解,因为它只从文本学习而非直接经验。这一局限在新版 ARC-AGI 测试中暴露无遗——OpenAI 的 o3 在原版基准上得分 87.5%,但新版测试将顶级模型压到 1% 以下,而人类依然轻松应对。
为什么重要: 当前 AI 擅长预测语言,但在理解真实世界运作方式方面要弱得多。一旦系统进入机器人、自动化和现实决策领域,这就成为重大问题。挑战在于物理世界数据远比互联网文本难收集,机器人需要大量关于物体运动、碰撞、反应的示例。如果能解决数据问题,世界模型可能成为 AI 的下一个重大范式转移。
Anthropic 与 SpaceXAI 签署超级算力协议

SpaceXAI 宣布与 Anthropic 达成一项重大协议,将向其开放位于田纳西州孟菲斯的 Colossus 1 数据中心全部容量。
该数据中心提供超过 300 兆瓦 电力和 220,000 块 NVIDIA GPU,Anthropic 预计将在本月内开始使用这些算力。
此举正值 Elon Musk 宣布 xAI 将并入新实体「SpaceXAI」,将公司 AI 业务与其基础设施和航天运营深度绑定。
Anthropic 同时宣布将提升 Claude Code 和 Claude API 的使用限额——Pro、Max 和 Team 用户的 Claude Code 5 小时限制将翻倍。公司年化收入上月已突破 300 亿美元,CEO Dario Amodei 更表示业务今年可能增长 80 倍。
为什么重要: AI 行业的最大挑战正从需求转向基础设施。算力正在成为行业内最有价值的资产之一。SpaceXAI 的定位也在转变——从传统 AI 实验室转向大规模 AI 基础设施供应商。
美国政府将提前审查前沿 AI 模型

Google DeepMind、Microsoft 和 xAI 已同意向美国政府提供未发布 AI 模型的早期访问权限,用于国家安全测试。
评估将通过美国商务部的 AI 标准与创新中心(CAISI) 进行,该中心表示已测试超过 40 个模型,包括从未公开发布的系统。
这些协议部分源于对 AI 在网络安全等国家安全领域高级能力的担忧。
为什么重要: AI 公司不再「先开发后应对监管」。政府开始在模型面向公众之前就获得可见性。前沿 AI 正在被当作战略基础设施而非普通消费软件来对待。
Genesis AI 发布人类级手部控制机器人模型
Genesis AI 推出 GENE-26.5,一款专为精确手部动作和协调设计的机器人模型。
为训练该系统,公司还构建了机器人手和动捕手套——人类只需戴着手套执行任务,即可生成训练数据。这是机器人推理与控制领域的重大进步。
Genesis 表示该硬件成本约为传统系统的 1/100,且数据采集速度大幅提升。演示中,机器人完成了打鸡蛋、切番茄、做实验、解魔方、弹钢琴等操作,手部控制流畅度令人惊讶。
为什么重要: 机器人领域最大的瓶颈正变成数据。Genesis 尝试将人类日常活动转化为训练数据——如果成功,机器人进步速度将大幅加快,因为每一次交互都成为学习的一部分。
其他要闻
Google AI 健康教练正式上线:整合 Fitbit、Health Connect、可穿戴设备数据和美国医疗记录,此前已测试数月 Claude for Microsoft 365 正式发布:可在 Excel、PowerPoint、Word 和 Outlook 中直接使用(Outlook 为 beta) Spotify 推出 Save to Spotify:命令行工具,允许 AI Agent 直接将 AI 生成的播客上传至平台
夜雨聆风