AI日报-2026年05月25日

一、前沿模型与实验室

Anthropic Glasswing 显示 AI 安全能力进入规模化阶段：Anthropic 称约 50 个 partners 使用 Claude Mythos Preview 已发现超过 10,000 个 high/critical 漏洞，Cloudflare 报告在关键路径系统中发现 2,000 个 bugs、其中 400 个为 high/critical；安全瓶颈正从“找不到漏洞”转向验证、披露、修复与补丁部署能力。
Mythos Preview 暂不一般发布：Anthropic 称尚未具备足够强的防滥用 safeguards，因此 Mythos-class models 仍未向公众开放；这把高能力 cyber model 的商业化路径限定在受控 partner、enterprise beta 与合规验证计划中。
NVIDIA 发布 Nemotron-Labs Diffusion：NVIDIA 在 Hugging Face 发布 3B、8B、14B 文本模型和 8B VLM，支持 autoregressive、diffusion、self-speculation 三种生成模式；8B 模型在平均准确率上较 Qwen3 8B 提高 1.2%，diffusion/self-speculation 将 token-per-forward-pass 提升到 2.6x、6x 与 6.4x，指向推理延迟优化的新模型路线。
Gated DeltaNet-2 推进 linear attention：NVIDIA 论文提出在 Gated Delta Rule-2 中拆分 key-side erase gate 与 value-side write gate，并保留高效 chunkwise parallel training；1.3B 参数、100B FineWeb-Edu tokens 训练后在语言建模、commonsense、retrieval 尤其是 RULER needle-in-a-haystack multi-key 场景上优于 Mamba-2、Gated DeltaNet、KDA 与 Mamba-3 variants。

二、产品、平台与基础设施

Claude Security 进入 enterprise beta：Anthropic 称 Claude Security 面向 Claude Enterprise 客户公测，Claude Opus 4.7 三周内已被用于修复超过 2,100 个漏洞；frontier lab 正把 cyber capability 从研究模型转为企业代码扫描、修复建议与安全团队工作流。
OpenAI Codex 获 Gartner 企业 coding agent 认可：OpenAI RSS 显示 Gartner 2026 Magic Quadrant for Enterprise AI Coding Agents 将 OpenAI 列为 Leader，并强调 Codex 的 innovation 与 enterprise-scale deployment；coding agent 竞争正在从单点代码生成转向企业级部署、治理和规模化分发。
Virgin Atlantic 用 Codex 压缩移动端交付周期：OpenAI RSS 称 Virgin Atlantic 用 Codex 在固定 holiday travel deadline 前交付新版移动应用，达到接近全量单元测试覆盖且零 P1 defects；企业案例继续把 coding agent 的价值锚定在 deadline、质量和工程吞吐上。
DeepSeek V4-Pro 永久降价：Reuters 报道 DeepSeek 将 V4-Pro API 价格永久下调 75%，降至每百万 tokens 0.025 至 6 元人民币；高端模型 API 价格竞争继续压低开发者和企业使用门槛，也会迫使同类模型重新解释性能/成本比。
Google I/O Dialogues 回顾 AI 与相邻技术：Google AI RSS 发布 I/O 2026 Dialogues 回顾，议题覆盖 AI、量子计算、机器人与创造力；Google 的公开叙事继续把 Gemini 生态与更广泛的计算平台、机器人和创作工具绑定。

三、研究、开源与评测

DelTA 改进 RLVR token credit assignment：DelTA 把 RLVR 更新解释为 token-gradient space 中的隐式 linear discriminator，并用 discriminative token coefficients 重加权自归一化 surrogate；在七个数学 benchmark 上，Qwen3-8B-Base 与 Qwen3-14B-Base 分别较最强同规模 baseline 提高 3.26 与 2.62 平均分，显示 reasoning 后训练仍有可挖的 token-level 信号。
ACC 把 agent trajectories 转成长上下文训练数据：Agent Context Compilation 将 search、SWE、SQL agent 的 tool responses 与环境观测编译成长上下文 QA，训练 Qwen3-30B-A3B 后在 MRCR 上提升 18.09 分、GraphWalks 提升 7.59 分，且基本保持 GPQA、MMLU-Pro、AIME 与 IFEval；agent log 可能成为长上下文后训练的重要数据源。
RTPurbo 低成本稀疏化 full-attention 模型：Full Attention Strikes Back 发现 full-attention LLM 已有 intrinsic sparsity，并用 retrieval-head 保留、16 维低秩索引和 dynamic top-p sparsification 实现近无损稀疏推理；在 1M context 上最高获得 9.36x prefill 与约 2.01x decode speedup，降低长上下文 serving 对原生 sparse pretraining 的依赖。
π-Bench 拆分 personal agent 的完成度与主动性：π-Bench 发布 100 个 multi-turn tasks、5 类 user personas，并用 Proc 与 Comp 分别评估 proactive intent resolution 和最终 task completion；九个 frontier model 的平均 Comp 为 52.1-67.6、Proc 为 43.1-67.0，说明“做完任务”和“主动发现隐藏需求”仍是不同能力。
Spreadsheet-RL 用真实 Excel 环境训练 spreadsheet agent：Spreadsheet-RL 从 ExcelForum 等来源构造 5,928 个高质量训练任务，并用 Microsoft Excel 365 环境和 outcome-based RL 训练 Qwen3-4B-Thinking-2507；SpreadsheetBench Pass@1 从 12.0% 提升至 23.4%，Domain-Spreadsheet 从 8.4% 提升至 17.2%，说明垂直办公软件 agent 更依赖环境、工具 harness 与可验证奖励。
TerminalWorld 暴露 terminal agent 的真实工作流缺口：TerminalWorld 从 80,870 条 asciinema 真实记录生成 1,530 个 validated tasks 和 200 个 verified tasks，覆盖 18 类真实终端任务和 1,280 个 unique commands；最佳模型在 verified subset 上 pass rate 仅 62.5%，且与 Terminal-Bench 2.0 的相关性只有 Pearson r=0.20，表明 expert-curated benchmark 不能充分代表真实 CLI 工作流。
TransitLM 证明 map-free 公交路线生成可由数据学习：TransitLM 发布 1,300 万+ 路线规划记录，覆盖四个中国城市、120,845 个站点与 13,666 条线路；Qwen3-4B 训练后达到 >=93% connectivity、>=96% station grounding、最高 71.0% Route Exact Match，说明部分城市级规划能力可从轨迹数据中内化，而不完全依赖显式地图引擎。

AI线索

安全、coding、spreadsheet、terminal 与 transit planning 的共同方向是“agent 进入可验证环境”：模型能力不再只靠 chat benchmark 证明，而要在漏洞修复、代码交付、Excel、CLI 和城市路线等闭环任务中用 outcome 衡量。
推理效率正在同时从模型结构和 serving 策略推进：Nemotron-Labs Diffusion、Gated DeltaNet-2 与 RTPurbo 分别从 diffusion language model、recurrent linear attention 和 post-hoc sparse inference 攻击延迟/上下文成本问题。
数据来源正在从静态语料转向真实操作轨迹：ACC、Spreadsheet-RL、TerminalWorld、TransitLM 都在把人类或 agent 的实际工作流转成训练/评测资产，这可能成为下一阶段垂直 agent 的核心壁垒。