arXiv cs.AI 单日新增 236 篇、cs.LG 新增 263 篇、cs.CV 新增 164 篇。技术主线围绕「Agent 源代码级自进化」「多模态视频理解具身化」「多智能体通信安全」三大方向展开,同时 GitHub 迎来多个重磅开源 Agent 工具发布。
🧠 前沿技术
1. MOSS:Agent 源代码级自进化,突破文本层瓶颈
机构/作者: Qianshu Cai 等
主题: 自主 Agent 系统在部署后无法从用户交互中学习,常见的自进化方案仅局限于文本层(技能文件、提示词配置、记忆架构),而路由逻辑、钩子顺序、状态不变性等核心代码始终无法自主修改。MOSS 是首个在源代码级别实现自进化的生产级 Agent 系统。
技术标签:【Agent】【自进化】【代码生成】
内容摘要: MOSS 通过多阶段确定性流程重写 Agent 源代码:每轮进化锚定于自动策划的生产故障批次,代码修改委托给外部编程 Agent CLI,MOSS 保留阶段排序与裁决权。候选版本通过临时工作节点回放验证后,经用户同意的门控进行原地容器热切换,配合健康探测回滚机制。在 OpenClaw 平台实验中,MOSS 将四任务平均评分器从 0.25 提升至 0.61,单轮无需人工干预。这是图灵完备级别的进化媒介,突破了文本层的根本局限。
来源: arXiv:2605.22794[1] | GitHub[2]
2. Gated DeltaNet-2:线性注意力解耦擦写,突破长上下文瓶颈
机构/作者: NVlabs
主题: 线性注意力用固定大小循环状态替代无界缓存,将序列混合降至线性时间、解码降至常数内存。现有 Delta-rule 模型虽能选择性遗忘,但擦除与写入共享同一标量门控,无法独立调节。Gated DeltaNet-2 引入通道级擦除门 b_t 和通道级写入门 w_t,首次将两者解耦。
技术标签:【大模型】【线性注意力】【长上下文】
内容摘要: 在 100B FineWeb-Edu tokens 上训练的 1.3B 参数模型中,Gated DeltaNet-2 在语言建模、常识推理和检索任务上超越 Mamba-2、Gated DeltaNet、KDA 等所有变体。其优势在 RULER 多针任务(大海捞针)上尤为显著,在多键检索设置和递归/混合设置中均保持强劲性能。衍生 Fast-Weight 更新视图与门感知反向传播兼顾高效并行训练。
来源: arXiv:2605.22791[3] | GitHub[4]
3. VPO:多样性驱动的 RL 训练,推理时搜索的下一范式
机构/作者: Ryan Bahlous-Boldi 等
主题: 标准 LLM 后训练优化单一标量奖励,导致模型输出熵过低、无法满足推理时搜索(AlphaEvolve 类)所需的多样性。VPO(Vector Policy Optimization)另辟蹊径,将奖励视为向量值,显式训练策略在向量奖励空间的不同权衡方向上专业化。
技术标签:【强化学习】【LLM】【推理时扩展】
内容摘要: VPO 替换 GRPO 优势估计器,训练 LLM 输出一组解,其中每个解对应奖励空间的不同权衡。在四大任务中,VPO 在测试时搜索(pass@k、best@k)上匹配或超越最强标量 RL 基线,且搜索预算越大优势越明显。在进化搜索场景中,VPO 模型能解决 GRPO 模型完全无法解决的问题。随着推理时搜索日益标准化,"为多样性优化"或将成为后训练的新默认目标。
来源: arXiv:2605.22817[5]
4. LCGuard:多智能体 KV 共享的隐私安全守卫
机构/作者: Sadia Asif 等
主题: 多 Agent 系统通过 Transformer KV 缓存进行潜在通信,可保留更丰富的任务相关信息,但 KV 缓存同时编码上下文输入、中间推理状态和 Agent 特定信息,形成隐性信息泄露通道。LCGuard 是首个针对 KV 潜在通信的表征级安全框架。
技术标签:【Agent】【多智能体】【安全】【隐私】
内容摘要: LCGuard 将共享 KV 缓存视为潜在工作记忆,在缓存跨 Agent 传输前学习表征级变换。通过对抗训练——对手学习重建敏感输入,LCGuard 学习保留任务语义同时减少可重建信息的变换——实现"重建即泄露"的形式化定义。跨多模型家族和多 Agent 基准的实验表明,LCGuard 一致性降低重建泄露和攻击成功率,同时保持具有竞争力的任务性能。
来源: arXiv:2605.22786[6]
📄 学术论文
5. Search-E1:纯自蒸馏驱动的搜索增强推理自进化
机构/作者: Yufei Ma 等
主题: 后训练 + 外部辅助模块(过程奖励模型、多阶段课程、树搜索)是当前搜索增强推理 Agent 的主流范式,但每增加一层辅助都带来额外训练复杂度。Search-E1 证明仅靠 Vanilla GRPO + 离线自蒸馏(OFSD) 即可超越所有这些复杂方案。
技术标签:【Agent】【强化学习】【自进化】【搜索增强】
内容摘要: Search-E1 在每个 GRPO 轮次后,让策略在自己的训练问题上部署,通过 token 级前向 KL 目标将推理时分布对齐到"特权上下文"(暴露更高效兄弟轨迹的分布)。在七个 QA 基准上,Search-E1 以 Qwen2.5-3B 达到 0.440 平均 EM,超越所有开源基线。密集的每步监督信号从极简流程中自然涌现。
来源: arXiv:2605.22511[7]
6. AwareVLN:自我意识推理赋能视觉语言导航(CVPR 2026)
机构/作者: Wenxuan Guo 等
主题: 视觉语言导航(VLN)要求 Agent 将语言指令映射到自身在视觉环境中的运动。现有 SOTA 方法依赖 VLM 端到端动作预测,却缺乏对 Agent 自身状态与任务进度的显式可解释理解;显式建图方案依赖额外 3D 传感器,阻碍大规模视觉语言预训练。AwareVLN 填补这一空白。
技术标签:【具身智能】【多模态】【视觉语言导航】【CVPR】
内容摘要: AwareVLN 提出两个关键创新:(1) 结构推理模块,培养空间与任务导向的自我意识;(2) 带进度划分的自动数据引擎。模型以全端到端、数据驱动方式理解 Agent 状态与任务进度。在 Habitat 模拟器多数据集上,AwareVLN 显著超越此前所有 VLN SOTA。项目主页提供完整代码与演示。
来源: arXiv:2605.22816[8] | 项目主页[9]
7. DeltaDirect + MoDirect:视频 LLM 的方向运动盲区诊断与修复
机构/作者: KHU-VLL 团队
主题: 视频 LLM 在基本时序理解上进展迅速,却在一个原始感知能力上普遍失败:单物体左/右/上/下运动的符号方向判断——大多数模型在此任务上接近随机水平。研究团队将此命名为方向运动盲区(directional motion blindness),并系统性定位根因。
技术标签:【多模态】【视频理解】【LLM】【计算机视觉】
内容摘要: 根因定位发现:运动方向信息在线性可从视觉编码器、投影器和 LLM 隐藏态中提取,但读出阶段无法将信号绑定到正确的语言选项——存在"方向绑定缺口"。DeltaDirect 在投影器级别引入相邻帧特征差分预测归一化 2D 运动向量目标,配合 MoDirect 指令微调数据集可将运动方向准确率从 25.9% 提升至 85.4%(合成基准),真实视频提升 21.9 个百分点,同时保持标准视频理解性能不降。
来源: arXiv:2605.22823[10] | GitHub[11]
8. Cambrian-P:相机位姿赋能视频多模态大模型
机构/作者: Jihan Yang 等(Cambrian-MLLM 团队)
主题: 多模态 LLM 处理视频帧时将其视为孤立 2D 快照,而非人类感知的持续场景。相机位姿定义了跨帧观测的共享空间坐标系,是推理物理世界的关键信号,却在各模型中几乎完全缺失。Cambrian-P 首次将相机位姿作为轻量级监督信号引入视频 MLLM。
技术标签:【多模态】【视频理解】【视觉语言模型】【位姿估计】
内容摘要: Cambrian-P 为每帧引入可学习的相机 token 和位姿回归头,配合精心设计的采样策略,在空间推理基准 VSI-Bench 上获得 4.5-6.5% 的显著提升,并泛化到八个额外空间和通用视频 QA 基准。有趣的是,在野视频的伪标注位姿上训练反而进一步改善通用视频 QA 基准——表明相机位姿信号的价值远超空间推理本身。同时在 ScanNet 上实现流式位姿估计 SOTA。
来源: arXiv:2605.22819[12] | 项目主页[13]
9. Is Capability a Liability?能力越强的 LLM 预测越糟糕
机构/作者: Nick Merrill 等
主题: 逆规模法则(inverse scaling)新案例:更强大的 LLM 在超线性增长和时间序列尾部风险(regime change)主导的预测任务上表现更差。这类结构在金融和流行病学中极为常见,但现有 LLM 预测基准的单阈值指标无法捕捉这种能力-准确性关系的反转。
技术标签:【大模型】【规模法则】【预测】【对齐】
内容摘要: 研究团队发布无污染合成基准 ForecastBench-Sim(FBSim),在合成 SIR 流行病、房价市场和高通胀等真实数据集上复现该现象。per-quantile 分解显示:失败集中于上尾分布,更强模型将上尾向上移动以追踪激进的增长外推,而下尾不变。Llama-3.1 族内研究表明模型规模和后训练均独立贡献该效应。团队建议:LLM 预测评估应同时使用连续(无界)准确度指标和单阈值指标,以全面捕捉尾部风险。
来源: arXiv:2605.22672[14]
10. HarnessAPI:统一流式 API 与 MCP 工具的技能优先框架
机构/作者: Edwin Jose 等
主题: 当下每个 Python LLM 工具必须同时维护两套等价物:面向人类用户的 HTTP 端点和面向 Agent 运行时的 MCP 工具注册——两者共享业务逻辑却在路由、验证、序列化、流式传输和模式维护上不断分化。HarnessAPI 以类型化技能文件夹为唯一真实来源,一次定义自动派生三者。
技术标签:【Agent】【MCP】【工具调用】【框架】
内容摘要: HarnessAPI 从单个 handler.py + Pydantic 模式自动派生:带 SSE 流式的 HTTP 端点、交互式 OpenAPI/Swagger UI 和零配置 MCP 工具,全部从同一进程提供服务。动态代码生成机制确保 Pydantic 类型注解正确传播到 FastMCP 检查层,化解了此前基于闭包的注册方式的技术局限。在六个代表性技能上,HarnessAPI 减少框架面样板代码 74%(对比 FastAPI + FastMCP 手动双栈实现)。已发布 PyPI(pip install harnessapi)。
来源: arXiv:2605.22733[15] | GitHub[16]
11. AI 攻克开放数学问题:9 道 Erdős 猜想 + 44 道 OEIS 猜想
机构/作者: DeepMind/AlphaProof 团队(George Tsoukalas、Pushmeet Kohli、Swarat Chaudhuri 等 20 人)
主题: LLM 在数学推理上日益精进,但其不可靠性限制了在数学研究中的实用性。用 LLM 生成 Lean 形式化证明是缓解之道,但尚无大规模评估验证其在真实开放问题上的能力。首个大规模系统评估揭示:最强大 Agent 以单问题几百美元成本自主解决 9/353 道开放 Erdős 问题、证明 44/492 道 OEIS 猜想。
技术标签:【大模型】【形式化证明】【数学】【AI4Math】
内容摘要: 团队对 Lean 形式化证明辅助方法进行首个大规模开放问题评估。代理级别评估显示,即使对于数学基准测试表现出色的模型,在真实开放问题上自主解决率仍较低,但当允许廉价人工辅助时解决率显著提升。该研究为"AI 数学家"的实用边界提供了迄今最系统的量化刻画。
来源: arXiv:2605.22763[17]
12. WorldKV:视频生成世界的记忆压缩与高效检索
机构/作者: Jung Yi 等(KAIST CVLab)
主题: 自回归视频扩散模型已实现实时动作条件世界生成,但维护"持久世界"——重访曾见视角保持内容一致性——仍是开放难题。全 KV-cache 注意力可保持一致性但破坏实时性(内存和注意力成本随 rollout 线性增长);滑动窗口恢复吞吐量但丢弃长期一致性。
技术标签:【视频生成】【世界模型】【扩散模型】【计算机视觉】
内容摘要: WorldKV 提出无需训练的框架,包含两个组件:(1) World Retrieval:将逐出 KV 缓存块存储在 GPU/CPU 内存中,通过相机/动作对应关系选择性检索相关块,重新插入原生注意力窗口而无需重编码;(2) World Compression:通过关键帧的 key-key 相似性剪枝块内冗余 token,将每块存储减半。在 Matrix-Game-2.0 和 LingBot-World-Fast 上,WorldKV 以约 2 倍吞吐量匹配全 KV 内存保真度,无需任何微调。
来源: arXiv:2605.22718[18] | 项目主页[19]
📱 应用产品
13. Anthropic 官方 Claude Code 插件目录(Claude Plugins Official)
机构/作者: Anthropic
主题: Anthropic 发布 Claude Code Plugins 官方目录,收录高质量第三方插件,为 Claude Code 用户提供标准化扩展生态。
技术标签:【Agent】【Claude】【开发者工具】【插件生态】
内容摘要: 目录由 Anthropic 官方维护,今日已收录超过 24,894 Stars,涵盖代码理解、工具集成、自动化工作流等多个领域,为 AI 辅助编程的插件化生态树立行业标准。
来源: GitHub - anthropics/claude-plugins-official[20]
14. CodeGraph:面向 Coding Agent 的预索引代码知识图谱
机构/作者: colbymchenry
主题: 为 Claude Code、Codex、Cursor、OpenCode、Hermes Agent 等主流 Coding Agent 提供预索引代码知识图谱,减少 token 消耗和工具调用次数,100% 本地运行。
技术标签:【Agent】【代码理解】【知识图谱】【开发者工具】
内容摘要: CodeGraph 将代码库转化为可探索的知识图谱,支持自然语言问答和搜索,相比传统全文检索大幅减少 LLM 上下文窗口消耗。今日 GitHub 获 3,684 Stars,总计 16,500 Stars,成为 AI 代码助手基础设施赛道的新星。
来源: GitHub - colbymchenry/codegraph[21]
15. Chrome-DevTools-MCP:面向 AI 编码 Agent 的 Chrome 开发者工具
机构/作者: ChromeDevTools
主题: Google Chrome 团队官方发布 Chrome DevTools MCP(Model Context Protocol)服务器,让 AI 编码 Agent 能够通过标准化协议直接调用 Chrome 开发者工具能力。
技术标签:【Agent】【浏览器自动化】【开发者工具】【MCP】
内容摘要: 该工具使 AI Agent 可直接操控 Chrome DevTools,实现页面性能分析、网络请求检查、DOM 操作、console 日志读取等开发者能力。今日 GitHub 获 501 Stars,总计 40,967 Stars,成为开发者工具与 AI Agent 集成的里程碑项目。
来源: GitHub - ChromeDevTools/chrome-devtools-mcp[22]
16. oh-my-pi:终端 AI 编码 Agent 新锐
机构/作者: can1357
主题: 面向终端的 AI 编码 Agent,支持基于哈希锚定的精确编辑优化、LSP 集成、Python 工具调用、浏览器操控、子 Agent 等能力,定位为 o1 等主流系统的本地替代。
技术标签:【Agent】【本地部署】【编码工具】【开发者工具】
内容摘要: oh-my-pi 强调本地优先和数据隐私,支持多步骤编辑、精确diff和工具调用追踪。今日 GitHub 获 457 Stars,总计 6,331 Stars,展示了本地化 AI 编码 Agent 生态的快速成长。
来源: GitHub - can1357/oh-my-pi[23]
📌 一句话总结
本周 AI 技术以「Agent 自进化深度突破」与「视频多模态理解具身化」双主线并进:MOSS 首次将 Agent 进化延伸至源代码层(突破文本层天花板),DeltaDirect 修复 Video-LLM 方向感知盲区(25.9%→85.4%),HarnessAPI 以 74% 样板代码削减统一流式 API 与 MCP 工具,WorldKV 以无需训练的方式解决视频生成世界一致性问题,同时 GitHub 迎来 Claude 官方插件生态与 Chrome DevTools MCP 两大基础设施级发布。arXiv 单日新增 500+ AI 相关论文,技术生态进入加速繁荣期。
🔗 参考链接
arXiv cs.AI - Self-Evolution through Source-Level Rewriting (MOSS)[24] arXiv cs.AI - Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention[25] arXiv cs.LG - Vector Policy Optimization (VPO)[26] arXiv cs.AI - LCGuard: Latent Communication Guard for Safe KV Sharing[27] arXiv cs.AI - Search-E1: Self-Distillation Drives Self-Evolution in Search-Augmented Reasoning[28] arXiv cs.RO - AwareVLN: Reasoning with Self-awareness for Vision-Language Navigation (CVPR 2026)[29] arXiv cs.CV - DeltaDirect + MoDirect: Directional Motion Blindness in Video-LLMs[30] arXiv cs.CV - Cambrian-P: Pose-Grounded Video Understanding[31] arXiv cs.AI - Is Capability a Liability? Inverse Scaling in LLM Forecasting[32] arXiv cs.AI - HarnessAPI: Unified Streaming APIs and MCP Tools[33] arXiv cs.AI - AI-Driven Formal Proof Search for Open Mathematical Problems[34] arXiv cs.CV - WorldKV: Efficient World Memory for Video Generation[35] GitHub - Claude Plugins Official (Anthropic)[36] GitHub - CodeGraph: Pre-indexed Code Knowledge Graph[37] GitHub - Chrome DevTools MCP[38] GitHub - oh-my-pi: Terminal AI Coding Agent[39]
引用链接
[1]arXiv:2605.22794: https://arxiv.org/abs/2605.22794
[2]GitHub: https://github.com/dav-joy-thon/MOSS
[3]arXiv:2605.22791: https://arxiv.org/abs/2605.22791
[4]GitHub: https://github.com/NVlabs/GatedDeltaNet-2
[5]arXiv:2605.22817: https://arxiv.org/abs/2605.22817
[6]arXiv:2605.22786: https://arxiv.org/abs/2605.22786
[7]arXiv:2605.22511: https://arxiv.org/abs/2605.22511
[8]arXiv:2605.22816: https://arxiv.org/abs/2605.22816
[9]项目主页: https://gwxuan.github.io/AwareVLN/
[10]arXiv:2605.22823: https://arxiv.org/abs/2605.22823
[11]GitHub: https://github.com/KHU-VLL/DeltaDirect
[12]arXiv:2605.22819: https://arxiv.org/abs/2605.22819
[13]项目主页: https://cambrian-mllm.github.io/
[14]arXiv:2605.22672: https://arxiv.org/abs/2605.22672
[15]arXiv:2605.22733: https://arxiv.org/abs/2605.22733
[16]GitHub: https://github.com/edwinjosechittilappilly/harnessapi
[17]arXiv:2605.22763: https://arxiv.org/abs/2605.22763
[18]arXiv:2605.22718: https://arxiv.org/abs/2605.22718
[19]项目主页: https://cvlab-kaist.github.io/WorldKV/
[20]GitHub - anthropics/claude-plugins-official: https://github.com/anthropics/claude-plugins-official
[21]GitHub - colbymchenry/codegraph: https://github.com/colbymchenry/codegraph
[22]GitHub - ChromeDevTools/chrome-devtools-mcp: https://github.com/ChromeDevTools/chrome-devtools-mcp
[23]GitHub - can1357/oh-my-pi: https://github.com/can1357/oh-my-pi
[24]arXiv cs.AI - Self-Evolution through Source-Level Rewriting (MOSS): https://arxiv.org/abs/2605.22794
[25]arXiv cs.AI - Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention: https://arxiv.org/abs/2605.22791
[26]arXiv cs.LG - Vector Policy Optimization (VPO): https://arxiv.org/abs/2605.22817
[27]arXiv cs.AI - LCGuard: Latent Communication Guard for Safe KV Sharing: https://arxiv.org/abs/2605.22786
[28]arXiv cs.AI - Search-E1: Self-Distillation Drives Self-Evolution in Search-Augmented Reasoning: https://arxiv.org/abs/2605.22511
[29]arXiv cs.RO - AwareVLN: Reasoning with Self-awareness for Vision-Language Navigation (CVPR 2026): https://arxiv.org/abs/2605.22816
[30]arXiv cs.CV - DeltaDirect + MoDirect: Directional Motion Blindness in Video-LLMs: https://arxiv.org/abs/2605.22823
[31]arXiv cs.CV - Cambrian-P: Pose-Grounded Video Understanding: https://arxiv.org/abs/2605.22819
[32]arXiv cs.AI - Is Capability a Liability? Inverse Scaling in LLM Forecasting: https://arxiv.org/abs/2605.22672
[33]arXiv cs.AI - HarnessAPI: Unified Streaming APIs and MCP Tools: https://arxiv.org/abs/2605.22733
[34]arXiv cs.AI - AI-Driven Formal Proof Search for Open Mathematical Problems: https://arxiv.org/abs/2605.22763
[35]arXiv cs.CV - WorldKV: Efficient World Memory for Video Generation: https://arxiv.org/abs/2605.22718
[36]GitHub - Claude Plugins Official (Anthropic): https://github.com/anthropics/claude-plugins-official
[37]GitHub - CodeGraph: Pre-indexed Code Knowledge Graph: https://github.com/colbymchenry/codegraph
[38]GitHub - Chrome DevTools MCP: https://github.com/ChromeDevTools/chrome-devtools-mcp
[39]GitHub - oh-my-pi: Terminal AI Coding Agent: https://github.com/can1357/oh-my-pi
夜雨聆风