今日摘要
• OpenAI 默认模型切换 GPT‑5.5 Instant(5/5):内部评测称相较 GPT‑5.3 Instant,医学/法律/金融等高利害幻觉宣称少 52.5%,用户标注的事实性问题误判降 37.3%(✧∀✧)
• Anthropic 与 SpaceX Colossus 1(5/6) 签算力协议:超 300 MW、22 万+ NVIDIA GPU,Claude Code 五小时额度 翻倍 并显著上调 Claude Opus API 限速
• OpenAI 发布 GPT‑Realtime‑2 / Translate / Whisper 语音三模型(5/7):翻译覆盖 70+ 输入语、13 种输出语;GPT‑Realtime‑2 在 Big Bench Audio 上较 1.5 高 15.2%(high 档)
• Google DeepMind 公布 AlphaEvolve 一年落地成绩(5/7):电网 AC OPF 训练 GNN 可行解从约 14% 提至 超 88%;DeepConsensus 变异检测错误降约 30%
• 欧盟 就 AI 监管「Omnibus」 临时协议(媒体多报 5/7 夜谈判、京报网 5/8):多条义务时间表重排,设备机械 等从泛 AI 法 中排除,尚待未来数月正式批准
产品与功能更新
1. ChatGPT 默认模型:GPT‑5.5 Instant
(OpenAI 官稿 5月5日)在 聊天 与 API(chat-latest)全面替换 GPT‑5.3 Instant;内部评测指 高利害域 幻觉宣称较 5.3 Instant 少 52.5%、被用户标为事实有问题的对话里不确表述少 37.3%;Plus/Pro 的 增强个性化 与 Memory sources 在 Web 先上、移动端跟进。付费 用户可在 约三个月 内于设置中继续选用 GPT‑5.3 Instant。
2. Realtime API 语音三模型
(OpenAI 官稿 5月7日)包括 GPT‑Realtime‑2(GPT‑5 级 推理、32K→128K 上下文、可调 reasoning 等级)、GPT‑Realtime‑Translate(70+ 输入语进、13 种输出语;按分钟 $0.034)、GPT‑Realtime‑Whisper(流式转写,$0.017/分钟)。GPT‑Realtime‑2 官称在 Big Bench Audio 高阶档较 1.5 高 15.2%、在 Audio MultiChallenge 的 xhigh 档高 13.8%;定价示例为音频输入 $32/百万 token(缓存 $0.40)、输出 $64/百万 token。
3. Trusted Contact
(OpenAI 官稿 5月7日)允许 18+ 用户指定一名 可信联系人;当自动系统与人工审核认为对话存在 严重自伤风险 时,可在 约一小时内 完成审核后向联系人发 有限通知(不含对话原文)。该功能与现有 热线引导、青少年家长通知 等并列。
4. Claude 用量上限与 SpaceX 算力
(Anthropic 官稿 5月6日)宣布使用 SpaceX Colossus 1 全部机柜算力,约 300 MW、22 万+ GPU 将在 约一个月 内陆续到位;同日 Claude Code 对 Pro/Max/Team/Enterprise 的 五小时滑动窗口限速翻倍、Pro/Max 取消 高峰时段 对 Code 的额外限流,并 上调 Claude Opus 系列 API 速率上限;文内同时回顾与 亚马逊、Google/Broadcom、微软×NVIDIA、Fluidstack 等 多 GW 级 算力合作。
5. ChatGPT 广告购买方式
(OpenAI 官稿 5月5日)扩至 自助 Ads Manager(美国 测试)、增加 CPC 与 全球及美国 多类 购买 形态,与 5/5 起在 美国 试投 ChatGPT 内广告 的说明相衔接(具体资格与形式以官稿为准)。
前沿研究
1. AlphaEvolve 跨学科算法发现
(Google DeepMind 博客 5月7日)除已在 数学公开问题 上与 Terence Tao 等合作外,此次集中给出 可复核 的业务指标:例如 电网 案例中将 GNN 找 可行解 的比例从约 14% 提到 超 88%;PacBio 合作中称 DeepConsensus 变异检测错误降约 30%;Willow 量子芯片相关线路优化自称 较传统基线错误率低约一个数量级(论文链见官稿)。文章亦点名 FM Logistic 仓储路径 约 10.4% 效率提升、WPP 营销模型 约 10% 精度增益等 商业落地 样本。
2. GrandCode 与竞赛编程
(arXiv:2604.02721,DeepReinforce 团队)提出 多智能体 RL 与 Agentic GRPO,报告称在 Codeforces 三场 现场赛(Round 1087–1089,2026年3月) 均 夺冠 并 全场最快封题;摘要强调这是 在完整现场规则与人类同场 设定下的结果(平台对 AI 账号 有政策约束,以论文与平台规则为准)。
3. AI co‑clinician
(Google DeepMind 博客 4月30日)阐述 「三元照护」 路线:在 98 道 基层医疗 情景客观评测中,系统自称 97 例 零关键错误(相对对照 证据检索工具 与 两款 医生常用 前沿模型);并发布 多模态远程模拟 方法学与 技术报告 PDF,强调 现阶段研究用途、非医疗器械结论。
行业展望与社会影响
1. 欧盟 AI「一揽子」修订政治协议
(京报网 2026年5月8日,来源标注 总台环球资讯广播):5月7日 夜谈判后,欧方与欧议会就 简化《人工智能法》实施 达成 临时 协议;高风险 系统全面合规自原 2026-08-02 推迟至 2027-12-02;禁止滥用 AI 制作非自愿色情 等条款与 强制水印 相关节点锚定 2026-12-02;机械设备 因 行业专门立法 被 排除 在通用 AI 法 之外。协议仍须未来数月 理事会与议会 正式通过。
2. Frontier Firm 与代理协作
(微软官方博客,文末署名日期 2026年4月21日)提出 Author / Editor / Director / Orchestrator 四种 人机协作 形态;2026 Work Trend Index 称分析 逾 10 万 条 M365 Copilot 对话约 49% 属 认知型工作,58% AI 用户 认为产出 超出一年前能力,Frontier Professionals 这一比例升至 80%;并公布 Copilot Cowork 推出 iOS/Android、插件生态 与 连接器 进展(细项以 aka.ms 链为准)。
3. 欧盟合规讨论外的全球竞争叙事
(来自 36氪 等中文媒体的 2026 趋势类稿件,属 观点/综述 性质):常见论点包括 API 降价挤压利润、企业落地高度定制、超级 App 作为 AI 入口 等;引用此类材料时宜对照 一线公司财报与官稿,避免把 预测 写成 既成事实。
4. 模型评测与「幻觉」披露常态化
:OpenAI 随 GPT‑5.5 Instant 同步强调 内部评测 下降幅;DeepMind 用 行业案例百分比 展示 AlphaEvolve;显示 可量化安全与效用叙事 正成为 产品发布标准配件。
开源TOP项目
1. claude-code
链接:https://github.com/anthropics/claude-code
(约 12.2 万 star)——Anthropic 终端侧 Agentic 编程 工具,近期与 5/6 起 Claude Code 限速调整 同属一类 工程生态 关注点。
2. codex
链接:https://github.com/openai/codex
(约 8.2 万 star)——OpenAI 轻量终端编码智能体 仓库;与 5 月上旬 GPT‑5.5、Realtime、Codex 安全 等 官稿 同周共振。
3. vibetensor
链接:https://github.com/NVlabs/vibetensor
(约 617 star)——NVIDIA Research 展示的 「全流程 AI 生成」 小型深度学习栈 制品,用于 Agentic 软件工程 研究复现。
4. DR-Venus
链接:https://github.com/inclusionAI/DR-Venus
(约 66 star)——inclusionAI 开源的 端侧规模深度研究智能体(约 4B 参数、全 开放数据 训练线索见仓库说明),体量 小 但 议题前沿,适合观察 「小而专」 的 研究型开源 路线。
社媒分享
• 「一周三遍模型榜」:网友调侃 5/5 GPT‑5.5 Instant、5/7 语音全家桶、5/7 DeepMind 长文,日历软件建议改名 「订阅 AI Release Notes」。
• GPU 地理梗:Anthropic 一笔写尽 地上 GW、天上轨道算力想象,评论区分歧不在 数学 而在 你家电费谁买单。
• 竞赛编程圈:GrandCode 论文热传同时,Codeforces 老玩家提醒:政策禁止 AI 参赛 与 研究账号披露 边界仍是 雷区,别只盯着 排行榜截图。
• 欧盟时间轴:产品经理 吐槽 「合规截止像火车票改签」——但 法务 回复:临时协议≠生效文本,2026-12-02 与 2027-12-02 别抄错行。
• Voice API 账单:Realtime 按分钟定价 看起来温柔,折合长会话 仍可能被 Token 计价模型 暴击——SaaS 老板:先做分层配额,别先 all‑in 语音客服。
夜雨聆风