05·23 - AI 午报

今日 AI 动态与开发生态速览

概览

模型产品与开发者工具

#1 DeepSeek 将 V4-Pro 2.5 折优惠转为永久定价
#2 DeepMind 发布 AlphaProof Nexus，OpenAI 内部模型攻克 Erdős 单位距离猜想
#3 发改委推进国产大模型适配国产芯片，OpenBMB 发布昇腾原生 BitCPM-CANN
#4 智谱发布 GLM-5.1-HighSpeed，官方称速度达 400 tokens/s
#5 Claude Code auto mode 面向 Pro 开放，Qwen3.7-Max 上线千问
#6 网易有道推出 Confucius4-TTS 14 语言零样本语音克隆，Perplexity 开源 Bumblebee

安全与基础设施

#7 Anthropic 公布 Project Glasswing 初期成果：Claude Mythos 模型发现逾万高危漏洞
#8 V2Board 面板及其全部分支被曝认证绕过漏洞，影响所有版本
#9 CODA 将 Transformer 块重写为 GEMM-Epilogue，减少中间张量显存读写
#10 NVIDIA 移除游戏收入分类，llama.cpp 新增 Blackwell PDL 支持
#11 社区量化与本地推理合集：Qwen3.6 系列，BeeLlama DFlash 更新
#12 NVIDIA AI-Q 深度研究技能与 Verified Agent Skills 能力治理

政策、公司与研究

#13 Gemini 3.5 Flash 登顶 Frontier-Agent-VN 基准，视觉任务超越 3.1 Pro
#14 NVIDIA 发布合成 3D 医学影像框架 NV-Generate，SynthID 水印扩展
#15 Anthropic 联合创始人 Jack Clark 预测一年内 AI 助力诺贝尔奖级发现
#16 政策与公司快讯：香港证监会、美国绿卡、新加坡 AI 合作、Stratechery 数据中心否决权
#17 本地 Agent 编排实验与提示注入检测：社区周末项目

模型产品与开发者工具

#1 DeepSeek 将 V4-Pro API 2.5 折优惠转为永久定价

DeepSeek 宣布将 DeepSeek-V4-Pro 模型 API 的限时 2.5 折优惠转为永久定价，新价格于 2026 年 5 月 31 日优惠结束后正式生效。 调整后，缓存未命中输入为每百万 tokens 3 元，输出为 6 元，缓存命中输入为 0.025 元，均为原价的 1/4。把限时优惠转为永久定价后，这个价位成为 DeepSeek 菜单中的固定档位。

来源：DeepSeek 官方文档 · 2026-05-22 · 原文

#2 DeepMind 发布 AlphaProof Nexus，OpenAI 内部模型攻克 80 年数学猜想

Google DeepMind 发布 AlphaProof Nexus 框架（arXiv:2605.22763），结合大语言模型与 Lean 编译器进行形式化证明搜索。 其全功能 Agent 自主解决了 9 个 Erdős 开放问题（含两个悬而未决 56 年的问题），证明了 44 个 OEIS 猜想，并解决了代数几何、优化理论等领域的多个开放问题。相关证明代码已在 GitHub 公开。

与此同时，OpenAI 内部通用推理模型自主攻克了困扰数学界近 80 年的 Erdős Unit Distance Problem（平面单位距离猜想），该模型在解题过程中跨领域使用了代数数论工具。数学家 Timothy Gowers 称其为"AI 数学的里程碑"，CEO Sam Altman 面对这一突破表示"感受很复杂"。OpenAI 研究员 Noam Brown 此前数日已暗示 GPT-5.5 Pro 通过大量测试时计算可解决此前难以处理的问题。

来源：arXiv · 2026-05-22 · 论文 · linux.do 论坛转述 · 2026-05-22 · 参考资料

#3 发改委推进国产大模型适配国产芯片，OpenBMB 发布昇腾原生 BitCPM-CANN

国家发展改革委在 5 月新闻发布会上宣布，正指导国产大模型适配国产算力芯片，以确保自主可控。 同时，将谋划出台加快"人工智能+"落地配套文件，推动央国企开放高价值应用场景；加快具身智能训练设施建设；科技再贷款额度扩大至 1.2 万亿元覆盖 AI 等领域；启动集成电路企业税收优惠清单制定。有关部门还明确否认了"要求高科技企业不得接受美国资本投资"的传言。

同一天，OpenBMB 联合面壁智能与清华大学开源 BitCPM-CANN 模型系列——这是业界首个在华为昇腾 910B NPU 上完成端到端原生训练的 1.58-bit 三值大模型。模型涵盖 0.5B、1B、3B 和 8B 四种参数规模，内存占用相比 BF16 降低约 6 倍，在 11 项基准测试中保留全精度 MiniCPM4 约 95% 至 97% 的性能。两条消息放在一起看，政策推动和开源实践正在同时从顶层和社区两端推国产算力栈向前走。

来源：国家发展改革委 · 2026-05-22 · 原文 · X 社媒参考 · 2026-05-22 · 参考资料

#4 智谱发布 GLM-5.1-HighSpeed，官方称速度达 400 tokens/s

智谱发布旗舰模型 GLM-5.1 的高速版本 GLM-5.1-HighSpeed，官方宣称输出速度达 400 tokens/s，刷新全球大模型 API 速度上限。 该版本并非轻量级模型，而是完整保留原模型的综合能力与编程能力。技术层面由 GLM 团队与 TileRT 团队联合打造，采用常驻 Engine Kernel 与异构 Worker 等系统级优化。

目前仅面向智谱 BigModel 开放平台的部分企业客户定向开放。这本质上是一次"不削能力提速度"的工程优化——通过常驻 Engine Kernel 和异构 Worker 等系统级优化，在不降低模型能力的条件下提升了吞吐量。

来源：智谱微信公众号 · 2026-05-22 · 参考资料

#5 Claude Code auto mode 面向 Pro 开放，Qwen3.7-Max 上线千问

Anthropic 旗下 Claude Code 的 auto mode 正式向 Pro 订阅用户开放，同时新增对 Sonnet 4.6 和 Opus 4.7 模型的支持。 用户可通过 Shift+Tab 快捷键启动 auto mode，需运行 claude update 或更新桌面应用至最新版本。

阿里巴巴发布旗舰模型 Qwen3.7-Max，已接入千问 APP（需更新至 6.9.7 及以上版本）及 PC 端、网页端供用户免费体验，阿里云百炼平台同步上线并提供限时五折优惠。两条消息指向同一趋势：高级编码和推理能力正在从"旗舰模型独占"走向中端订阅计划。

作者锐评

知乎测评人 toyama nao 给出了详细的 Qwen3.7-Max 横评：性能跃升至国模第一梯队头部，相比前代 3.6-Preview 提升超过 30%。优势突出在指令遵循和上下文幻觉控制——前者精准但 Token 消耗比 GPT-5.5 和 Opus 4.6 平均高出 1 倍多，后者在国模中名列第一；稳定性已扎进北美御三家水平，中位分差仅 4.6%。不足也很明确：推理效率偏低，Token 消耗比前代增加 50%，输出仍保留推理过程显得冗长；Coding 虽然跨过"可用线"，但呈现典型的知识分布不均——热门前后端可达 B 档，冷门方向可能掉到 D 档，Debug 能力偏弱，接近 100K 上下文时幻觉开始轻微上升。toyama nao 的判断是：基础智力高的模型经过好的专项训练通常能突飞猛进，Qwen 的加速度令人瞩目——半年内从高开低走到重回国模头部，说明万亿模型的潜力正在被逐步兑现。完整分数预计在月底月榜公开。

来源：X 社媒参考 · 2026-05-22 · 参考资料 · Qwen 微信公众号 · 2026-05-22 · 参考资料

#6 网易有道推出 Confucius4-TTS，Perplexity 开源 Bumblebee 供应链扫描器

网易有道发布 Confucius4-TTS，一个基于语音编码器与大语言模型架构的零样本多语种语音克隆系统。 支持 14 种语言，无需参考文本即可实现声音克隆与跨语言音色迁移，保留说话人情感。官方称 3 秒可复刻原声，克隆准确度超 97%，相似度超 85%。代码已在 GitHub 开源，模型权重即将发布，目前在 Hugging Face 提供在线演示。

Perplexity 开源了内部安全工具 Bumblebee，一款专为 macOS 和 Linux 设计的只读供应链扫描器。Bumblebee 能直接读取锁文件、包管理器元数据、编辑器及浏览器扩展清单等磁盘信息，在不执行代码、不调用包管理器的前提下快速匹配已知风险组件。工具以 Go 语言静态单文件发布，支持 baseline、project、deep 三种扫描模式，已在 GitHub 获得 346 星。

来源：Hugging Face · 2026-05-22 · 项目 · GitHub · 2026-05-22 · 代码

安全与基础设施

#7 Anthropic 公布 Project Glasswing 初期成果：Claude Mythos 模型发现逾万高危漏洞

Anthropic 公布 Project Glasswing 初步成果：其未公开发布的模型 Claude Mythos Preview 与约 50 家合作伙伴在关键软件中发现超过一万个高危或严重漏洞。 Project Glasswing 于 2026 年 4 月 7 日启动，初始加入 12 家合作伙伴（包括 AWS、苹果、博通、思科、CrowdStrike、Google、摩根大通、Linux 基金会、微软、NVIDIA 和 Palo Alto Networks），现已扩展至 50 家。Anthropic 承诺向开源安全组织提供最高 1 亿美元使用额度和 400 万美元直接捐款。

Mythos Preview 是一款尚未公开的前沿网络安全模型，CyberGym 基准得分 83.1%，远超 Opus 4.6 的 66.6%。在超过 1000 个开源项目的扫描中，估算发现 6202 个高危或严重漏洞，经独立机构验证的真实阳性率为 90.6%（1752 个已评估漏洞中确认 1587 个）。典型案例包括一个 27 年未发现的 OpenBSD 漏洞、一个 16 年的 FFmpeg Bug（500 万自动化测试未检出）、Linux 内核提权链，以及 wolfSSL 中可伪造任意域名证书的漏洞（CVE-2026-5194）。

合作方反馈也具说服力：Cloudflare 发现 2000 个 Bug（其中 400 个高危或严重），假阳性率优于人类测试员；Mozilla 在 Firefox 150 中发现并修复 271 个漏洞，是使用 Opus 4.6 时的 10 倍；英国 AI 安全研究所确认 Mythos 是首个独立完成两个网络靶场全程攻防的模型。由于模型能力过于强大，Anthropic 暂不公开发布 Mythos 级别模型，但在 Claude Security 公开测试版中推出了基于 Opus 4.7 的漏洞扫描工具，三周内已修复 2100 余个漏洞。

来源：Anthropic Blog · 2026-04-07 · 原文 · Anthropic Research · 2026-05-22 · 原文

#8 V2Board 面板及其全部分支被曝认证绕过漏洞

V2Board 面板及其所有分支被曝存在严重认证绕过漏洞（CVE 待分配），攻击者可通过 API 发送伪造 JSON 请求重置任意已注册用户密码。 漏洞位于 /api/v1/passport/auth/forget 端点，将 email_code 字段设为 false 即可绕过验证码校验。该漏洞源于对 email_code 字段的校验缺失，影响 V2Board 全版本。

已有 PoC 公开，修复方案是将验证码字段改为 required|string|digits:6，但截至目前尚无官方补丁发布。大量使用 V2Board 的代理和 VPN 服务面临账户劫持风险。

来源：linux.do 论坛转述 · 2026-05-22 · 参考资料

#9 CODA 将 Transformer 块重写为 GEMM-Epilogue，硬件融合与生产力兼得

新论文 CODA 提出一种 GPU 内核抽象，将 Transformer 训练中大量内存受限的算子（归一化、激活、残差更新等）重新参数化为 GEMM-plus-epilogue 程序。 核心思路是让这些计算在 GEMM 输出 tile 仍驻留片上时执行，避免中间张量反复读写全局内存。

CODA 固定 GEMM 主循环，暴露少量可组合的 epilogue 原语（缩放、归约、逐对变换、累加），在保持专家级 GEMM 性能结构的同时，覆盖标准 Transformer 块前向和反向中几乎所有非注意力计算。实验表明，人工和 LLM 编写的 CODA 内核均达到高性能。

同日，NVIDIA 在最新财报中移除了"游戏"收入分类，将其并入"其他"类别。社区解读认为，这标志着 NVIDIA 战略重心从消费级 GPU 向 AI 基础设施的彻底转移——游戏营收在公司整体占比已持续下降。llama.cpp 也新增了对 Blackwell GPU 的 PDL（Programmatic Dependent Launch）支持，测试显示在 RTX Pro 4500 Blackwell 上启用 PDL 后 token 生成速度提升 5%-6%。

来源：Reddit · 2026-05-22 · 参考资料 · Reddit · 2026-05-22 · 参考资料 · Reddit · 2026-05-22 · 参考资料

#10 社区量化与本地推理跑分合集

BeeLlama v0.2.0 发布重大 DFlash 更新，在单张 RTX 3090 上实现 Qwen 3.6 27B 最高 164 tps（4.40 倍加速）、Gemma 4 31B 最高 177.8 tps（4.93 倍加速）。 新版本降低 DFlash 开销、优化预填充处理和草稿模型 K/V 投影缓存。

量化方面，多组社区实验同时涌现：开发者 huytd189 将 Qwen3.6 27B 纯量化至 Q4_K_M（仅 15.4 GB），在 16 GB VRAM 的 RTX 5060 Ti 上达到 40 tps；ByteShape Qwen3.6-35B-A3B 量化在 6 GB 笔记本上比 Unsloth IQ 快 30%（33.1 vs 25.4 tps）；MoE 模型在 8 GB 的 RTX 3070 Ti 上以 Q4 量化跑到 262K 上下文 34 tps。

在 MoE 推理效率方面，开发者 adrianhoehne 创建了 llama.cpp 的"experts-first"分支，仅将高频使用的专家层而非完整层加载到 GPU VRAM。在 RTX 2060（12 GB）上使用 100K 上下文时，token 生成速度从默认 19 t/s 提升至 26 t/s（命中率 62%），盈亏平衡点为 42% 命中率。

来源：Reddit · 2026-05-22 · 参考资料 · Reddit · 2026-05-22 · 参考资料 · Reddit · 2026-05-22 · 参考资料 · Reddit · 2026-05-22 · 参考资料 · Reddit · 2026-05-22 · 参考资料

#11 NVIDIA AI-Q 深度研究技能与 Verified Agent Skills 能力治理

NVIDIA 发布 AI-Q 开源深度研究蓝图包，为 Claude Code、Codex、LangChain Deep Agents 等 Agent 框架添加专门的深度研究技能。 AI-Q 将深度研究的复杂性从 Agent 编排层解耦，通过独立技能模块处理多文档综合、企业数据决策简报和长周期溯源分析。AI-Q v2.1.0 已通过 Docker Compose 和 Helm 图表发布，支持从笔记本到气隙数据中心的多种部署，并在 Dell AI Factory（Dell-NVIDIA AI-Q 2.0 参考架构）上完成验证。

该方案支持三种 MCP 认证模式（无认证、服务账户 OAuth2、用户 Bearer token 转发），允许 Agent 连接经过认证的 MCP 服务器作为数据源，并在 FreshQA、Deep Research Bench、DeepSearchQA 等基准上完成评估。同日，NVIDIA 还推出 Verified Agent Skills 计划，为 AI Agent 的技能提供能力治理框架——通过验证和认证 Agent 调用的技能（指令），确保其结构透明与操作完整性，弥补仅靠运行时护栏的不足。

来源：NVIDIA Blog · 2026-05-20 · 原文 · NVIDIA Blog · 2026-05-22 · 原文

政策、公司与研究

#13 Gemini 3.5 Flash 登顶 Agent 基准，视觉任务超越 3.1 Pro

Google Gemini 3.5 Flash 在 Frontier-Agent-VN 基准测试中排名第一，击败参数规模更大的模型。 该基准专注于智能体任务，Gemini 3.5 Flash 以较小的模型尺寸展现了更强的 Agent 能力，表明模型效率与架构优化对 Agent 性能的重要性可能超过单纯参数规模。

同日，Google DeepMind 产品负责人 Logan Kilpatrick 在 X 上发文称，Gemini 3.5 Flash 在 Roboflow 视觉评估中多项指标超越 3.1 Pro，推理速度平均提升约 6 倍。

作者锐评

toyama nao 对 Gemini 3.5 Flash 的判断同样克制：新 Flash 将 Token 效率压到前代的 75%，但 Google 同时把单价提到 3 倍，使得实际成本略超大哥 Pro——"Flash"的性价比标签已经不太站得住。具体表现上，幻觉小有改善但仍落后同梯队；指令遵循在 minimal 档位保持高水平，复杂指令偶尔能一次成功；编程的前端审美祖传优势还在，"更听话"的自控力也比前代好很多，前端整体给到 B 档。然而数据洞察能力只有 Pro 的一半不到，Coding 在北美的对手面前只能算刚踩上门槛。toyama nao 的总结：Google 在 Agent 转型中是后发者中靠后的，连续两代 Pro 和 Flash 的 Agent/Coding 能力在可用线附近徘徊，直到 3.5 Flash 才算踩上了门槛，而此时北美对手已拉开两个身位。不过 Gemini 的速度优势和多模态能力仍是 OpenAI 和 Anthropic 无法企及的。

来源：Reddit · 2026-05-22 · 参考资料 · X 社媒参考 · 2026-05-22 · 参考资料

#14 NVIDIA 发布合成 3D 医学影像框架，SynthID 水印扩展

NVIDIA 发布开源框架 NV-Generate-CTMR 及新模型 NV-Generate-MR-Brain，用于大规模合成逼真 3D 医学影像数据。 该框架基于 MAISI 架构家族构建：MAISI-v2 采用 Latent Rectified Flow，较 v1 的 DDPM 推理速度提升 33 倍（30 步 vs 1000 步）。训练数据来自 MR-RATE 数据集——目前全球最大的开源多模态 MRI 数据集，涵盖 83,000+ 名患者的约 70 万份脑部 MRI 扫描，由苏黎世大学、Medipol 大学医院和 Forithmus 联合提供。框架支持 T1w、T2w、FLAIR、SWI 等多种对比成像，最大分辨率为 512x512x256 体素。飞利浦评价称"合成解剖学逼真度足以用于 AI 解决方案的设计与验证"。

同日，Google DeepMind 宣布 SynthID 水印工具扩展至更多合作伙伴，并通过 Gemini App 和 Google 搜索新增查询内容是否由 AI 生成的功能。

来源：NVIDIA Blog · 2026-05-22 · 原文 · X 社媒参考 · 2026-05-22 · 参考资料

#15 Anthropic 联合创始人 Jack Clark 预测一年内 AI 助力诺贝尔奖级发现

Anthropic 联合创始人 Jack Clark 在牛津大学演讲中做出多项 AI 预测：AI 将在一年内帮助产生诺贝尔奖级科学发现，双足机器人两年内可从事有用工作，2028 年底前实现递归自我改进（RSI）。这些预测基于当前 AI 能力加速趋势，但未给出具体技术路径或验证细节。

同日，Reddit 社区出现一条关于前沿 AI 模型定价的讨论帖：Opus 4.7、GPT 5.5 和 Gemini 3.5 Flash 的 API 价格高于预期，打破了此前"模型能力提升伴随成本下降"的共识。Clark 的乐观预测和社区的成本焦虑在同一条曲线上——能力在加速，但达到前沿能力的成本未必在同步下降。

来源：Reddit · 2026-05-22 · 参考资料 · Reddit · 2026-05-22 · 参考资料

#16 政策与公司快讯

Stratechery 本周刊讨论"数据中心否决权"——AI 的数字化影响已显现，但其物理基础（数据中心建设）正遭遇普通民众的否决。 Ben Thompson 认为，理解这一动态比纠正错误信息更重要，后者只是反对情绪的症候而非原因。解法很简单直接：付钱。同期内容还讨论了 DeepMind 与 OpenAI/Anthropic 不同的 AGI 路径，以及前 Twitter CEO Parag Agarwal 创立的 Parallel 如何解决 Agent 化网络的内容价值问题。

香港证监会 5 月 22 日发布通函，要求持牌法团对内地个人投资者账户采取额外措施：关闭零结余且 12 个月无交易的不动账户，新开户须书面声明资金来自内地以外合法来源。美国国土安全部同日宣布，在美境内寻求调整身份获得绿卡的外国人须返回本国通过国务院申请，政策立即生效。Google DeepMind 宣布扩大与新加坡的合作伙伴关系，聚焦加速科学发现、大流行病防范和医疗健康。特斯拉在 S/X 活动上展示渲染图，宣布弗里蒙特工厂最终将实现年产 100 万台人形机器人。

来源：Stratechery · 2026-05-22 · 原文 · linux.do 论坛转述 · 2026-05-23 · 参考资料 · linux.do 论坛转述 · 2026-05-23 · 参考资料 · X 社媒参考 · 2026-05-23 · 参考资料 · Reddit · 2026-05-22 · 参考资料

#17 本地 Agent 编排实验与专项项目

Vector Policy Optimization（VPO）论文提出用多样性训练替代标量奖励，解决 LLM 后训练中输出多样性不足的问题。 VPO 利用代码生成中常见的逐用例正确性向量奖励，将 GRPO 优势估计器替换为多样性训练目标，使模型输出一组在不同奖励维度上特化的解。在四项任务上，VPO 在 pass@k 和 best@k 等测试时搜索指标上匹配或超越最强标量 RL 基线，搜索预算越大优势越明显。

在 Agent 编排方面，开发者 HomoAgens1 分享了将代码生成与编排模型分离的实践：用 Qwen3.6-35B-A3B（约 3B 活跃参数）做编排，在 12 GB 显卡上跑到 40 t/s。测试发现小模型编排时首先崩溃的不是推理能力，而是工具调用纪律——会错误传递不存在参数、调用虚构工具。另一名开发者使用 ml-intern + DeepSeek V4 Flash 训练了基于 DistilBERT 的提示注入检测器，F1 达 99%，ONNX int8 量化后仅 65 MB，可在浏览器中运行，API 成本不到 5 美元。

来源：Reddit · 2026-05-22 · 参考资料 · Reddit · 2026-05-22 · 参考资料 · Reddit · 2026-05-22 · 参考资料

本文由 AI 辅助生成，可能存在幻觉。