AI 技术 | Agent自进化与视频理解双突破

AI 技术 | Agent自进化与视频理解双突破 - 2026年5月23日

arXiv cs.AI 单日新增 236 篇、cs.LG 新增 263 篇、cs.CV 新增 164 篇。技术主线围绕「Agent 源代码级自进化」「多模态视频理解具身化」「多智能体通信安全」三大方向展开，同时 GitHub 迎来多个重磅开源 Agent 工具发布。

🧠 前沿技术

1. MOSS：Agent 源代码级自进化，突破文本层瓶颈

机构/作者： Qianshu Cai 等

主题： 自主 Agent 系统在部署后无法从用户交互中学习，常见的自进化方案仅局限于文本层（技能文件、提示词配置、记忆架构），而路由逻辑、钩子顺序、状态不变性等核心代码始终无法自主修改。MOSS 是首个在源代码级别实现自进化的生产级 Agent 系统。

技术标签：【Agent】【自进化】【代码生成】

内容摘要： MOSS 通过多阶段确定性流程重写 Agent 源代码：每轮进化锚定于自动策划的生产故障批次，代码修改委托给外部编程 Agent CLI，MOSS 保留阶段排序与裁决权。候选版本通过临时工作节点回放验证后，经用户同意的门控进行原地容器热切换，配合健康探测回滚机制。在 OpenClaw 平台实验中，MOSS 将四任务平均评分器从 0.25 提升至 0.61，单轮无需人工干预。这是图灵完备级别的进化媒介，突破了文本层的根本局限。

来源： arXiv:2605.22794^[1] | GitHub^[2]

2. Gated DeltaNet-2：线性注意力解耦擦写，突破长上下文瓶颈

机构/作者： NVlabs

主题： 线性注意力用固定大小循环状态替代无界缓存，将序列混合降至线性时间、解码降至常数内存。现有 Delta-rule 模型虽能选择性遗忘，但擦除与写入共享同一标量门控，无法独立调节。Gated DeltaNet-2 引入通道级擦除门 b_t 和通道级写入门 w_t，首次将两者解耦。

技术标签：【大模型】【线性注意力】【长上下文】

内容摘要： 在 100B FineWeb-Edu tokens 上训练的 1.3B 参数模型中，Gated DeltaNet-2 在语言建模、常识推理和检索任务上超越 Mamba-2、Gated DeltaNet、KDA 等所有变体。其优势在 RULER 多针任务（大海捞针）上尤为显著，在多键检索设置和递归/混合设置中均保持强劲性能。衍生 Fast-Weight 更新视图与门感知反向传播兼顾高效并行训练。

来源： arXiv:2605.22791^[3] | GitHub^[4]

3. VPO：多样性驱动的 RL 训练，推理时搜索的下一范式

机构/作者： Ryan Bahlous-Boldi 等

主题： 标准 LLM 后训练优化单一标量奖励，导致模型输出熵过低、无法满足推理时搜索（AlphaEvolve 类）所需的多样性。VPO（Vector Policy Optimization）另辟蹊径，将奖励视为向量值，显式训练策略在向量奖励空间的不同权衡方向上专业化。

技术标签：【强化学习】【LLM】【推理时扩展】

内容摘要： VPO 替换 GRPO 优势估计器，训练 LLM 输出一组解，其中每个解对应奖励空间的不同权衡。在四大任务中，VPO 在测试时搜索（pass@k、best@k）上匹配或超越最强标量 RL 基线，且搜索预算越大优势越明显。在进化搜索场景中，VPO 模型能解决 GRPO 模型完全无法解决的问题。随着推理时搜索日益标准化，"为多样性优化"或将成为后训练的新默认目标。

来源： arXiv:2605.22817^[5]

4. LCGuard：多智能体 KV 共享的隐私安全守卫

机构/作者： Sadia Asif 等

主题： 多 Agent 系统通过 Transformer KV 缓存进行潜在通信，可保留更丰富的任务相关信息，但 KV 缓存同时编码上下文输入、中间推理状态和 Agent 特定信息，形成隐性信息泄露通道。LCGuard 是首个针对 KV 潜在通信的表征级安全框架。

技术标签：【Agent】【多智能体】【安全】【隐私】

内容摘要： LCGuard 将共享 KV 缓存视为潜在工作记忆，在缓存跨 Agent 传输前学习表征级变换。通过对抗训练——对手学习重建敏感输入，LCGuard 学习保留任务语义同时减少可重建信息的变换——实现"重建即泄露"的形式化定义。跨多模型家族和多 Agent 基准的实验表明，LCGuard 一致性降低重建泄露和攻击成功率，同时保持具有竞争力的任务性能。

来源： arXiv:2605.22786^[6]

📄 学术论文

5. Search-E1：纯自蒸馏驱动的搜索增强推理自进化

机构/作者： Yufei Ma 等

主题： 后训练 + 外部辅助模块（过程奖励模型、多阶段课程、树搜索）是当前搜索增强推理 Agent 的主流范式，但每增加一层辅助都带来额外训练复杂度。Search-E1 证明仅靠 Vanilla GRPO + 离线自蒸馏（OFSD） 即可超越所有这些复杂方案。

技术标签：【Agent】【强化学习】【自进化】【搜索增强】

内容摘要： Search-E1 在每个 GRPO 轮次后，让策略在自己的训练问题上部署，通过 token 级前向 KL 目标将推理时分布对齐到"特权上下文"（暴露更高效兄弟轨迹的分布）。在七个 QA 基准上，Search-E1 以 Qwen2.5-3B 达到 0.440 平均 EM，超越所有开源基线。密集的每步监督信号从极简流程中自然涌现。

来源： arXiv:2605.22511^[7]

6. AwareVLN：自我意识推理赋能视觉语言导航（CVPR 2026）

机构/作者： Wenxuan Guo 等

主题： 视觉语言导航（VLN）要求 Agent 将语言指令映射到自身在视觉环境中的运动。现有 SOTA 方法依赖 VLM 端到端动作预测，却缺乏对 Agent 自身状态与任务进度的显式可解释理解；显式建图方案依赖额外 3D 传感器，阻碍大规模视觉语言预训练。AwareVLN 填补这一空白。

技术标签：【具身智能】【多模态】【视觉语言导航】【CVPR】

内容摘要： AwareVLN 提出两个关键创新：(1) 结构推理模块，培养空间与任务导向的自我意识；(2) 带进度划分的自动数据引擎。模型以全端到端、数据驱动方式理解 Agent 状态与任务进度。在 Habitat 模拟器多数据集上，AwareVLN 显著超越此前所有 VLN SOTA。项目主页提供完整代码与演示。

来源： arXiv:2605.22816^[8] | 项目主页^[9]

7. DeltaDirect + MoDirect：视频 LLM 的方向运动盲区诊断与修复

机构/作者： KHU-VLL 团队

主题： 视频 LLM 在基本时序理解上进展迅速，却在一个原始感知能力上普遍失败：单物体左/右/上/下运动的符号方向判断——大多数模型在此任务上接近随机水平。研究团队将此命名为方向运动盲区（directional motion blindness），并系统性定位根因。

技术标签：【多模态】【视频理解】【LLM】【计算机视觉】

内容摘要： 根因定位发现：运动方向信息在线性可从视觉编码器、投影器和 LLM 隐藏态中提取，但读出阶段无法将信号绑定到正确的语言选项——存在"方向绑定缺口"。DeltaDirect 在投影器级别引入相邻帧特征差分预测归一化 2D 运动向量目标，配合 MoDirect 指令微调数据集可将运动方向准确率从 25.9% 提升至 85.4%（合成基准），真实视频提升 21.9 个百分点，同时保持标准视频理解性能不降。

来源： arXiv:2605.22823^[10] | GitHub^[11]

8. Cambrian-P：相机位姿赋能视频多模态大模型

机构/作者： Jihan Yang 等（Cambrian-MLLM 团队）

主题： 多模态 LLM 处理视频帧时将其视为孤立 2D 快照，而非人类感知的持续场景。相机位姿定义了跨帧观测的共享空间坐标系，是推理物理世界的关键信号，却在各模型中几乎完全缺失。Cambrian-P 首次将相机位姿作为轻量级监督信号引入视频 MLLM。

技术标签：【多模态】【视频理解】【视觉语言模型】【位姿估计】

内容摘要： Cambrian-P 为每帧引入可学习的相机 token 和位姿回归头，配合精心设计的采样策略，在空间推理基准 VSI-Bench 上获得 4.5-6.5% 的显著提升，并泛化到八个额外空间和通用视频 QA 基准。有趣的是，在野视频的伪标注位姿上训练反而进一步改善通用视频 QA 基准——表明相机位姿信号的价值远超空间推理本身。同时在 ScanNet 上实现流式位姿估计 SOTA。

来源： arXiv:2605.22819^[12] | 项目主页^[13]

9. Is Capability a Liability？能力越强的 LLM 预测越糟糕

机构/作者： Nick Merrill 等

主题： 逆规模法则（inverse scaling）新案例：更强大的 LLM 在超线性增长和时间序列尾部风险（regime change）主导的预测任务上表现更差。这类结构在金融和流行病学中极为常见，但现有 LLM 预测基准的单阈值指标无法捕捉这种能力-准确性关系的反转。

技术标签：【大模型】【规模法则】【预测】【对齐】

内容摘要： 研究团队发布无污染合成基准 ForecastBench-Sim（FBSim），在合成 SIR 流行病、房价市场和高通胀等真实数据集上复现该现象。per-quantile 分解显示：失败集中于上尾分布，更强模型将上尾向上移动以追踪激进的增长外推，而下尾不变。Llama-3.1 族内研究表明模型规模和后训练均独立贡献该效应。团队建议：LLM 预测评估应同时使用连续（无界）准确度指标和单阈值指标，以全面捕捉尾部风险。

来源： arXiv:2605.22672^[14]

10. HarnessAPI：统一流式 API 与 MCP 工具的技能优先框架

机构/作者： Edwin Jose 等

主题： 当下每个 Python LLM 工具必须同时维护两套等价物：面向人类用户的 HTTP 端点和面向 Agent 运行时的 MCP 工具注册——两者共享业务逻辑却在路由、验证、序列化、流式传输和模式维护上不断分化。HarnessAPI 以类型化技能文件夹为唯一真实来源，一次定义自动派生三者。

技术标签：【Agent】【MCP】【工具调用】【框架】

内容摘要： HarnessAPI 从单个 handler.py + Pydantic 模式自动派生：带 SSE 流式的 HTTP 端点、交互式 OpenAPI/Swagger UI 和零配置 MCP 工具，全部从同一进程提供服务。动态代码生成机制确保 Pydantic 类型注解正确传播到 FastMCP 检查层，化解了此前基于闭包的注册方式的技术局限。在六个代表性技能上，HarnessAPI 减少框架面样板代码 74%（对比 FastAPI + FastMCP 手动双栈实现）。已发布 PyPI（pip install harnessapi）。

来源： arXiv:2605.22733^[15] | GitHub^[16]

11. AI 攻克开放数学问题：9 道 Erdős 猜想 + 44 道 OEIS 猜想

机构/作者： DeepMind/AlphaProof 团队（George Tsoukalas、Pushmeet Kohli、Swarat Chaudhuri 等 20 人）

主题： LLM 在数学推理上日益精进，但其不可靠性限制了在数学研究中的实用性。用 LLM 生成 Lean 形式化证明是缓解之道，但尚无大规模评估验证其在真实开放问题上的能力。首个大规模系统评估揭示：最强大 Agent 以单问题几百美元成本自主解决 9/353 道开放 Erdős 问题、证明 44/492 道 OEIS 猜想。

技术标签：【大模型】【形式化证明】【数学】【AI4Math】

内容摘要： 团队对 Lean 形式化证明辅助方法进行首个大规模开放问题评估。代理级别评估显示，即使对于数学基准测试表现出色的模型，在真实开放问题上自主解决率仍较低，但当允许廉价人工辅助时解决率显著提升。该研究为"AI 数学家"的实用边界提供了迄今最系统的量化刻画。

来源： arXiv:2605.22763^[17]

12. WorldKV：视频生成世界的记忆压缩与高效检索

机构/作者： Jung Yi 等（KAIST CVLab）

主题： 自回归视频扩散模型已实现实时动作条件世界生成，但维护"持久世界"——重访曾见视角保持内容一致性——仍是开放难题。全 KV-cache 注意力可保持一致性但破坏实时性（内存和注意力成本随 rollout 线性增长）；滑动窗口恢复吞吐量但丢弃长期一致性。

技术标签：【视频生成】【世界模型】【扩散模型】【计算机视觉】

内容摘要： WorldKV 提出无需训练的框架，包含两个组件：(1) World Retrieval：将逐出 KV 缓存块存储在 GPU/CPU 内存中，通过相机/动作对应关系选择性检索相关块，重新插入原生注意力窗口而无需重编码；(2) World Compression：通过关键帧的 key-key 相似性剪枝块内冗余 token，将每块存储减半。在 Matrix-Game-2.0 和 LingBot-World-Fast 上，WorldKV 以约 2 倍吞吐量匹配全 KV 内存保真度，无需任何微调。

来源： arXiv:2605.22718^[18] | 项目主页^[19]

📱 应用产品

13. Anthropic 官方 Claude Code 插件目录（Claude Plugins Official）

机构/作者： Anthropic

主题： Anthropic 发布 Claude Code Plugins 官方目录，收录高质量第三方插件，为 Claude Code 用户提供标准化扩展生态。

技术标签：【Agent】【Claude】【开发者工具】【插件生态】

内容摘要： 目录由 Anthropic 官方维护，今日已收录超过 24,894 Stars，涵盖代码理解、工具集成、自动化工作流等多个领域，为 AI 辅助编程的插件化生态树立行业标准。

来源： GitHub - anthropics/claude-plugins-official^[20]

14. CodeGraph：面向 Coding Agent 的预索引代码知识图谱

机构/作者： colbymchenry

主题： 为 Claude Code、Codex、Cursor、OpenCode、Hermes Agent 等主流 Coding Agent 提供预索引代码知识图谱，减少 token 消耗和工具调用次数，100% 本地运行。

技术标签：【Agent】【代码理解】【知识图谱】【开发者工具】

内容摘要： CodeGraph 将代码库转化为可探索的知识图谱，支持自然语言问答和搜索，相比传统全文检索大幅减少 LLM 上下文窗口消耗。今日 GitHub 获 3,684 Stars，总计 16,500 Stars，成为 AI 代码助手基础设施赛道的新星。

来源： GitHub - colbymchenry/codegraph^[21]

15. Chrome-DevTools-MCP：面向 AI 编码 Agent 的 Chrome 开发者工具

机构/作者： ChromeDevTools

主题： Google Chrome 团队官方发布 Chrome DevTools MCP（Model Context Protocol）服务器，让 AI 编码 Agent 能够通过标准化协议直接调用 Chrome 开发者工具能力。

技术标签：【Agent】【浏览器自动化】【开发者工具】【MCP】

内容摘要： 该工具使 AI Agent 可直接操控 Chrome DevTools，实现页面性能分析、网络请求检查、DOM 操作、console 日志读取等开发者能力。今日 GitHub 获 501 Stars，总计 40,967 Stars，成为开发者工具与 AI Agent 集成的里程碑项目。

来源： GitHub - ChromeDevTools/chrome-devtools-mcp^[22]

16. oh-my-pi：终端 AI 编码 Agent 新锐

机构/作者： can1357

主题： 面向终端的 AI 编码 Agent，支持基于哈希锚定的精确编辑优化、LSP 集成、Python 工具调用、浏览器操控、子 Agent 等能力，定位为 o1 等主流系统的本地替代。

技术标签：【Agent】【本地部署】【编码工具】【开发者工具】

内容摘要： oh-my-pi 强调本地优先和数据隐私，支持多步骤编辑、精确diff和工具调用追踪。今日 GitHub 获 457 Stars，总计 6,331 Stars，展示了本地化 AI 编码 Agent 生态的快速成长。

来源： GitHub - can1357/oh-my-pi^[23]

📌 一句话总结

本周 AI 技术以「Agent 自进化深度突破」与「视频多模态理解具身化」双主线并进：MOSS 首次将 Agent 进化延伸至源代码层（突破文本层天花板），DeltaDirect 修复 Video-LLM 方向感知盲区（25.9%→85.4%），HarnessAPI 以 74% 样板代码削减统一流式 API 与 MCP 工具，WorldKV 以无需训练的方式解决视频生成世界一致性问题，同时 GitHub 迎来 Claude 官方插件生态与 Chrome DevTools MCP 两大基础设施级发布。arXiv 单日新增 500+ AI 相关论文，技术生态进入加速繁荣期。

🔗 参考链接

arXiv cs.AI - Self-Evolution through Source-Level Rewriting (MOSS)^[24]
arXiv cs.AI - Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention^[25]
arXiv cs.LG - Vector Policy Optimization (VPO)^[26]
arXiv cs.AI - LCGuard: Latent Communication Guard for Safe KV Sharing^[27]
arXiv cs.AI - Search-E1: Self-Distillation Drives Self-Evolution in Search-Augmented Reasoning^[28]
arXiv cs.RO - AwareVLN: Reasoning with Self-awareness for Vision-Language Navigation (CVPR 2026)^[29]
arXiv cs.CV - DeltaDirect + MoDirect: Directional Motion Blindness in Video-LLMs^[30]
arXiv cs.CV - Cambrian-P: Pose-Grounded Video Understanding^[31]
arXiv cs.AI - Is Capability a Liability? Inverse Scaling in LLM Forecasting^[32]
arXiv cs.AI - HarnessAPI: Unified Streaming APIs and MCP Tools^[33]
arXiv cs.AI - AI-Driven Formal Proof Search for Open Mathematical Problems^[34]
arXiv cs.CV - WorldKV: Efficient World Memory for Video Generation^[35]
GitHub - Claude Plugins Official (Anthropic)^[36]
GitHub - CodeGraph: Pre-indexed Code Knowledge Graph^[37]
GitHub - Chrome DevTools MCP^[38]
GitHub - oh-my-pi: Terminal AI Coding Agent^[39]

引用链接

[1]arXiv:2605.22794: https://arxiv.org/abs/2605.22794

[2]GitHub: https://github.com/dav-joy-thon/MOSS

[3]arXiv:2605.22791: https://arxiv.org/abs/2605.22791

[4]GitHub: https://github.com/NVlabs/GatedDeltaNet-2

[5]arXiv:2605.22817: https://arxiv.org/abs/2605.22817

[6]arXiv:2605.22786: https://arxiv.org/abs/2605.22786

[7]arXiv:2605.22511: https://arxiv.org/abs/2605.22511

[8]arXiv:2605.22816: https://arxiv.org/abs/2605.22816

[9]项目主页: https://gwxuan.github.io/AwareVLN/

[10]arXiv:2605.22823: https://arxiv.org/abs/2605.22823

[11]GitHub: https://github.com/KHU-VLL/DeltaDirect

[12]arXiv:2605.22819: https://arxiv.org/abs/2605.22819

[13]项目主页: https://cambrian-mllm.github.io/

[14]arXiv:2605.22672: https://arxiv.org/abs/2605.22672

[15]arXiv:2605.22733: https://arxiv.org/abs/2605.22733

[16]GitHub: https://github.com/edwinjosechittilappilly/harnessapi

[17]arXiv:2605.22763: https://arxiv.org/abs/2605.22763

[18]arXiv:2605.22718: https://arxiv.org/abs/2605.22718

[19]项目主页: https://cvlab-kaist.github.io/WorldKV/

[20]GitHub - anthropics/claude-plugins-official: https://github.com/anthropics/claude-plugins-official

[21]GitHub - colbymchenry/codegraph: https://github.com/colbymchenry/codegraph

[22]GitHub - ChromeDevTools/chrome-devtools-mcp: https://github.com/ChromeDevTools/chrome-devtools-mcp

[23]GitHub - can1357/oh-my-pi: https://github.com/can1357/oh-my-pi

[24]arXiv cs.AI - Self-Evolution through Source-Level Rewriting (MOSS): https://arxiv.org/abs/2605.22794

[25]arXiv cs.AI - Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention: https://arxiv.org/abs/2605.22791

[26]arXiv cs.LG - Vector Policy Optimization (VPO): https://arxiv.org/abs/2605.22817

[27]arXiv cs.AI - LCGuard: Latent Communication Guard for Safe KV Sharing: https://arxiv.org/abs/2605.22786

[28]arXiv cs.AI - Search-E1: Self-Distillation Drives Self-Evolution in Search-Augmented Reasoning: https://arxiv.org/abs/2605.22511

[29]arXiv cs.RO - AwareVLN: Reasoning with Self-awareness for Vision-Language Navigation (CVPR 2026): https://arxiv.org/abs/2605.22816

[30]arXiv cs.CV - DeltaDirect + MoDirect: Directional Motion Blindness in Video-LLMs: https://arxiv.org/abs/2605.22823

[31]arXiv cs.CV - Cambrian-P: Pose-Grounded Video Understanding: https://arxiv.org/abs/2605.22819

[32]arXiv cs.AI - Is Capability a Liability? Inverse Scaling in LLM Forecasting: https://arxiv.org/abs/2605.22672

[33]arXiv cs.AI - HarnessAPI: Unified Streaming APIs and MCP Tools: https://arxiv.org/abs/2605.22733

[34]arXiv cs.AI - AI-Driven Formal Proof Search for Open Mathematical Problems: https://arxiv.org/abs/2605.22763

[35]arXiv cs.CV - WorldKV: Efficient World Memory for Video Generation: https://arxiv.org/abs/2605.22718

[36]GitHub - Claude Plugins Official (Anthropic): https://github.com/anthropics/claude-plugins-official

[37]GitHub - CodeGraph: Pre-indexed Code Knowledge Graph: https://github.com/colbymchenry/codegraph

[38]GitHub - Chrome DevTools MCP: https://github.com/ChromeDevTools/chrome-devtools-mcp

[39]GitHub - oh-my-pi: Terminal AI Coding Agent: https://github.com/can1357/oh-my-pi