当前时间: 1970-01-01 08:00:00
分类:办公文件
评论(0)
AI日报-2026年05月25日一、前沿模型与实验室
- Anthropic Glasswing 显示 AI 安全能力进入规模化阶段:Anthropic 称约 50 个 partners 使用 Claude Mythos Preview 已发现超过 10,000 个 high/critical 漏洞,Cloudflare 报告在关键路径系统中发现 2,000 个 bugs、其中 400 个为 high/critical;安全瓶颈正从“找不到漏洞”转向验证、披露、修复与补丁部署能力。
- Mythos Preview 暂不一般发布:Anthropic 称尚未具备足够强的防滥用 safeguards,因此 Mythos-class models 仍未向公众开放;这把高能力 cyber model 的商业化路径限定在受控 partner、enterprise beta 与合规验证计划中。
- NVIDIA 发布 Nemotron-Labs Diffusion:NVIDIA 在 Hugging Face 发布 3B、8B、14B 文本模型和 8B VLM,支持 autoregressive、diffusion、self-speculation 三种生成模式;8B 模型在平均准确率上较 Qwen3 8B 提高 1.2%,diffusion/self-speculation 将 token-per-forward-pass 提升到 2.6x、6x 与 6.4x,指向推理延迟优化的新模型路线。
- Gated DeltaNet-2 推进 linear attention:NVIDIA 论文提出在 Gated Delta Rule-2 中拆分 key-side erase gate 与 value-side write gate,并保留高效 chunkwise parallel training;1.3B 参数、100B FineWeb-Edu tokens 训练后在语言建模、commonsense、retrieval 尤其是 RULER needle-in-a-haystack multi-key 场景上优于 Mamba-2、Gated DeltaNet、KDA 与 Mamba-3 variants。
二、产品、平台与基础设施
- Claude Security 进入 enterprise beta:Anthropic 称 Claude Security 面向 Claude Enterprise 客户公测,Claude Opus 4.7 三周内已被用于修复超过 2,100 个漏洞;frontier lab 正把 cyber capability 从研究模型转为企业代码扫描、修复建议与安全团队工作流。
- OpenAI Codex 获 Gartner 企业 coding agent 认可:OpenAI RSS 显示 Gartner 2026 Magic Quadrant for Enterprise AI Coding Agents 将 OpenAI 列为 Leader,并强调 Codex 的 innovation 与 enterprise-scale deployment;coding agent 竞争正在从单点代码生成转向企业级部署、治理和规模化分发。
- Virgin Atlantic 用 Codex 压缩移动端交付周期:OpenAI RSS 称 Virgin Atlantic 用 Codex 在固定 holiday travel deadline 前交付新版移动应用,达到接近全量单元测试覆盖且零 P1 defects;企业案例继续把 coding agent 的价值锚定在 deadline、质量和工程吞吐上。
- DeepSeek V4-Pro 永久降价:Reuters 报道 DeepSeek 将 V4-Pro API 价格永久下调 75%,降至每百万 tokens 0.025 至 6 元人民币;高端模型 API 价格竞争继续压低开发者和企业使用门槛,也会迫使同类模型重新解释性能/成本比。
- Google I/O Dialogues 回顾 AI 与相邻技术:Google AI RSS 发布 I/O 2026 Dialogues 回顾,议题覆盖 AI、量子计算、机器人与创造力;Google 的公开叙事继续把 Gemini 生态与更广泛的计算平台、机器人和创作工具绑定。
三、研究、开源与评测
- DelTA 改进 RLVR token credit assignment:DelTA 把 RLVR 更新解释为 token-gradient space 中的隐式 linear discriminator,并用 discriminative token coefficients 重加权自归一化 surrogate;在七个数学 benchmark 上,Qwen3-8B-Base 与 Qwen3-14B-Base 分别较最强同规模 baseline 提高 3.26 与 2.62 平均分,显示 reasoning 后训练仍有可挖的 token-level 信号。
- ACC 把 agent trajectories 转成长上下文训练数据:Agent Context Compilation 将 search、SWE、SQL agent 的 tool responses 与环境观测编译成长上下文 QA,训练 Qwen3-30B-A3B 后在 MRCR 上提升 18.09 分、GraphWalks 提升 7.59 分,且基本保持 GPQA、MMLU-Pro、AIME 与 IFEval;agent log 可能成为长上下文后训练的重要数据源。
- RTPurbo 低成本稀疏化 full-attention 模型:Full Attention Strikes Back 发现 full-attention LLM 已有 intrinsic sparsity,并用 retrieval-head 保留、16 维低秩索引和 dynamic top-p sparsification 实现近无损稀疏推理;在 1M context 上最高获得 9.36x prefill 与约 2.01x decode speedup,降低长上下文 serving 对原生 sparse pretraining 的依赖。
- π-Bench 拆分 personal agent 的完成度与主动性:π-Bench 发布 100 个 multi-turn tasks、5 类 user personas,并用 Proc 与 Comp 分别评估 proactive intent resolution 和最终 task completion;九个 frontier model 的平均 Comp 为 52.1-67.6、Proc 为 43.1-67.0,说明“做完任务”和“主动发现隐藏需求”仍是不同能力。
- Spreadsheet-RL 用真实 Excel 环境训练 spreadsheet agent:Spreadsheet-RL 从 ExcelForum 等来源构造 5,928 个高质量训练任务,并用 Microsoft Excel 365 环境和 outcome-based RL 训练 Qwen3-4B-Thinking-2507;SpreadsheetBench Pass@1 从 12.0% 提升至 23.4%,Domain-Spreadsheet 从 8.4% 提升至 17.2%,说明垂直办公软件 agent 更依赖环境、工具 harness 与可验证奖励。
- TerminalWorld 暴露 terminal agent 的真实工作流缺口:TerminalWorld 从 80,870 条 asciinema 真实记录生成 1,530 个 validated tasks 和 200 个 verified tasks,覆盖 18 类真实终端任务和 1,280 个 unique commands;最佳模型在 verified subset 上 pass rate 仅 62.5%,且与 Terminal-Bench 2.0 的相关性只有 Pearson r=0.20,表明 expert-curated benchmark 不能充分代表真实 CLI 工作流。
- TransitLM 证明 map-free 公交路线生成可由数据学习:TransitLM 发布 1,300 万+ 路线规划记录,覆盖四个中国城市、120,845 个站点与 13,666 条线路;Qwen3-4B 训练后达到 >=93% connectivity、>=96% station grounding、最高 71.0% Route Exact Match,说明部分城市级规划能力可从轨迹数据中内化,而不完全依赖显式地图引擎。
AI线索
- 安全、coding、spreadsheet、terminal 与 transit planning 的共同方向是“agent 进入可验证环境”:模型能力不再只靠 chat benchmark 证明,而要在漏洞修复、代码交付、Excel、CLI 和城市路线等闭环任务中用 outcome 衡量。
- 推理效率正在同时从模型结构和 serving 策略推进:Nemotron-Labs Diffusion、Gated DeltaNet-2 与 RTPurbo 分别从 diffusion language model、recurrent linear attention 和 post-hoc sparse inference 攻击延迟/上下文成本问题。
- 数据来源正在从静态语料转向真实操作轨迹:ACC、Spreadsheet-RL、TerminalWorld、TransitLM 都在把人类或 agent 的实际工作流转成训练/评测资产,这可能成为下一阶段垂直 agent 的核心壁垒。
基本
文件
流程
错误
SQL
调试
- 请求信息 : 2026-05-25 10:11:19 HTTP/1.1 GET : https://www.yeyulingfeng.com/a/665272.html
- 运行时间 : 0.227863s [ 吞吐率:4.39req/s ] 内存消耗:4,695.65kb 文件加载:145
- 缓存信息 : 0 reads,0 writes
- 会话信息 : SESSION_ID=9dd9be5bd864c82ee2e96b1c1c7f99cb
- CONNECT:[ UseTime:0.000559s ] mysql:host=127.0.0.1;port=3306;dbname=wenku;charset=utf8mb4
- SHOW FULL COLUMNS FROM `fenlei` [ RunTime:0.000685s ]
- SELECT * FROM `fenlei` WHERE `fid` = 0 [ RunTime:0.006165s ]
- SELECT * FROM `fenlei` WHERE `fid` = 63 [ RunTime:0.006903s ]
- SHOW FULL COLUMNS FROM `set` [ RunTime:0.000644s ]
- SELECT * FROM `set` [ RunTime:0.007157s ]
- SHOW FULL COLUMNS FROM `article` [ RunTime:0.000706s ]
- SELECT * FROM `article` WHERE `id` = 665272 LIMIT 1 [ RunTime:0.015091s ]
- UPDATE `article` SET `lasttime` = 1779675079 WHERE `id` = 665272 [ RunTime:0.030730s ]
- SELECT * FROM `fenlei` WHERE `id` = 64 LIMIT 1 [ RunTime:0.005828s ]
- SELECT * FROM `article` WHERE `id` < 665272 ORDER BY `id` DESC LIMIT 1 [ RunTime:0.003249s ]
- SELECT * FROM `article` WHERE `id` > 665272 ORDER BY `id` ASC LIMIT 1 [ RunTime:0.003061s ]
- SELECT * FROM `article` WHERE `id` < 665272 ORDER BY `id` DESC LIMIT 10 [ RunTime:0.009962s ]
- SELECT * FROM `article` WHERE `id` < 665272 ORDER BY `id` DESC LIMIT 10,10 [ RunTime:0.034045s ]
- SELECT * FROM `article` WHERE `id` < 665272 ORDER BY `id` DESC LIMIT 20,10 [ RunTime:0.024915s ]
0.229632s