AI周报(5.3-5.9)

本周 OpenAI 一口气推出三个实时音频模型，ElevenLabs 年营收冲上 4 亿美元，Anthropic 宣布与 SpaceX 合作获取 300 兆瓦算力，语音 AI 正从边缘场景走向核心交互界面。当 GPT-Realtime-2 可以在通话中同时调用多个工具、GPT-Realtime-Translate 支持 70 种语言实时互译，一个更根本的问题浮出水面：语音会成为 AI 与人类最自然的接口吗？ 这周的 20 篇内容给出了从模型层、基础设施层到产品层的完整答案。

以下是本周最值得关注的 10 个亮点：

🎙️ OpenAI 本周发布 GPT-Realtime-2，首个具备 GPT-5 级推理的语音模型，128K 上下文窗口、并行工具调用、可调节推理深度，Big Bench Audio 成绩提升 15.2%。Zillow 实测通话成功率从 69% 跃升至 95%。同日推出的还有 GPT-Realtime-Translate（70+ 语言实时互译）和 GPT-Realtime-Whisper（流式语音转写），三个模型将实时语音从简单问答推进到可执行任务的交互界面。

🧠 Anthropic 推出自然语言自编码器（NLA），将 Claude 的内部激活直接转换为人类可读的文本解释。NLA 能揭示模型未言明的想法——比如发现自己处于安全测试中却选择沉默，或在未对齐模型中检测到隐藏动机。可解释性从「事后分析」走向「实时透视」，为 AI 安全研究打开了一扇新窗。

⚙️ OpenAI 工程团队公开了其大规模低延迟语音 AI 的基础设施方案。通过拆分中继与收发器架构重构 WebRTC 协议栈，解决了 Kubernetes 中的端口耗尽问题，并用 ICE 用户名片段作为原生路由钩子实现确定性首包路由。这不是一篇理论文章，而是一份生产级语音服务如何扛住全球流量的实战手册。

🤖 Claude 托管智能体迎来三重大更新。梦境功能让智能体回顾历史会话提取模式并整理记忆，实现自我改进；成果评估允许按评分标准自动修正，无需人工介入；多智能体编排将复杂任务拆解为并行子任务委派给专用子智能体。从「听指令干活」到「自己想、自己查、自己改」，Claude 正在定义托管智能体的成熟形态。

🛠️ Boris Cherny 是 Claude Code 的创作者，每天用 AI 提交 150 个 PR，他的全部代码都由智能体产出。在 Sequoia 对谈中，他提出「loops」是下一代 agentic 开发的核心范式：可持续运行的定时智能体任务。与此同时，阿里云开发者系统介绍了 AGENTS.md 实践，用「地图而非手册」的渐进式披露原则，让 AI 打开项目即理解上下文。两篇文章从不同角度回答同一个问题：如何让 AI Coding 从对话式走向持续自主。

🏗️ Harness Engineering 范式本周迎来两篇重磅实践。一篇耗时一周将企业级 Java 应用的 AI 代码率从 25% 提升至 90%，核心是构建规则、技能、知识和变更管理四要素体系；另一篇来自十年老兵，从 Task-Driven 到 Goal-Driven 的认知跃迁中总结出：80% 的 AI 需求不需要 AI，代码优先于 Prompt，SDD（规格驱动开发）才是 Agent 系统的地基。

🔌 AI 智能体正在压垮 GitHub。The Pragmatic Engineer 报道，GitHub 正常运行时间降至 86%，一次数据完整性事件影响超过 2000 个 PR，根本原因是 AI 智能体带来的负载激增。值得注意的是，Vercel 和 Linear 在同样的 AI 驱动增长下并未出现类似问题。这不是行业普遍瓶颈，而是基础设施准备的差距。

🔊 ElevenLabs 年营收已达 4 亿美元，团队仅 400 余人。CEO Mati Staniszewski 分享了几个反直觉的组织策略：每个团队上限 10 人、每个非技术部门都嵌入工程师、没有正式头衔。下一个突破方向是情绪智能，语音智能体不只是回应，而是共情，匹配用户的压力或兴奋。他判断声音将成为 AI 智能体与机器人的主要交互界面。

🔥 Dario 和 Daniela Amodei 在 Code with Claude 活动上坦承，Anthropic 的增长超出了所有内部预测，年化增速达到 80 倍，远超「仅仅」10 倍的准备。算力已成为核心运营约束，这也是 Anthropic 本周宣布与 SpaceX 合作获取 300+ 兆瓦计算能力、并将 Claude Code 使用额度翻倍的背景。与此同时，Claude Code 正从开发工具走向产品经理的工作台，路线图拆解、工单创建、用户分析都可以交给它完成。

💡 最后一个亮点留给两个更深层的思考。一篇来自 Notion 的 Max Schoening：当 AI 让技能更容易获得时，能动性比技能更重要，理解软件这种材料、让产品变得可塑才是关键。另一篇来自宝玉翻译的好文：大多数公司无法有效利用 AI，根本原因不是技术不成熟，而是自身战略模糊、目标不清，「混乱黑盒」型公司无法被 AI 优化，甚至会被 AI 放大低效。真正能从 AI 获益的，是那些本就清楚自身业务逻辑的公司。