5月5日热门AI论文汇总-夜雨聆风

5月5日热门AI论文汇总

From Context to Skills: Can Language Models Learn from Context Skillfully?

中文标题： 从上下文到技能：语言模型能否熟练地从上下文中学习？关键词： context learning，self-evolving framework，multi-agent self-play，skill augmentation，language models简介：一个自我进化框架通过包含挑战者、推理者和评判者组件的多智能体自我博弈循环，自主发现并细化语言模型的上下文特定技能，在无需人类监督的情况下提升了上下文学习性能。摘要： 许多现实世界任务要求语言模型（LMs）对超出其参数知识的复杂上下文进行推理。这需要上下文学习，即LMs直接从给定上下文中学习相关知识。一个直观的解决方案是推理时技能增强：将上下文中的规则和过程提取为自然语言技能。然而，为上下文学习场景构建此类技能面临两个挑战：针对长且技术密集的上下文进行手动技能标注的成本过高，以及缺乏用于自动化技能构建的外部反馈。在本文中，我们提出了Ctx2Skill，一个自我进化框架，能够在无需人类监督或外部反馈的情况下，自主发现、细化和选择上下文特定技能。其核心是一个多智能体自我博弈循环，包含生成探测任务和评分标准的挑战者、在进化技能集引导下尝试解决任务的推理者，以及提供二元反馈的中立评判者。关键在于，挑战者和推理者都通过积累的技能进行进化：专门的提议者和生成器智能体分析失败案例，并将其合成为针对双方的定向技能更新，从而实现自动化技能发现和细化。为了防止因日益极端的任务生成和过度专业化技能积累导致的对抗性崩溃，我们进一步引入了跨时间重放机制，该机制识别出在代表性案例上实现最佳平衡的技能集，从而确保技能演进的鲁棒性和泛化能力。生成的技能可插入任何语言模型以获得更好的上下文学习能力。在CL-bench的四个上下文学习任务上评估，Ctx2Skill持续提升了各种骨干模型的解决率。链接： https://arxiv.org/pdf/2604.27660

MolmoAct2: Action Reasoning Models for Real-world Deployment

中文标题： MolmoAct2：面向实际部署的动作推理模型关键词： MolmoAct2，action reasoning models，Vision-Language-Action models，robotics，open-weight models，continuous-action prediction，adaptive reasoning，bimanual datasets简介： MolmoAct2 提出了一个用于机器人技术的开放动作推理模型，通过专门的视觉语言模型骨干网络、新数据集、开放权重动作分词器、针对连续动作预测的架构重新设计以及降低延迟的自适应推理，改进了之前的系统。摘要： 视觉-语言-动作（VLA）模型旨在为机器人提供单一的通用控制器，但当今的系统在对于实际部署至关重要的标准上仍有不足。前沿模型是封闭的，开放权重的替代方案受限于昂贵的硬件，推理增强策略因其基础能力而付出了难以承受的延迟代价，微调后的成功率仍低于可靠使用的阈值。我们提出了 MolmoAct2，这是一个完全开放的、为实际部署而构建的动作推理模型，在五个方面推进了其前身的发展。我们引入了 MolmoER，这是一种专门用于空间和具身推理的 VLM 骨干网络，使用“先专业化后重演”的配方在包含 330 万个样本的语料库上进行了训练。我们发布了三个跨越低成本到中等成本平台的新数据集，包括 MolmoAct2-BimanualYAM，这是 720 小时的遥操作双臂轨迹，构成了迄今为止最大的开放双臂数据集，以及经过质量过滤的 Franka (DROID) 和 SO100/101 子集。我们提供了 OpenFAST，这是一个开放权重、开放数据的动作分词器，在跨越五种具身形态的数百万条轨迹上进行了训练。我们重新设计了架构，通过逐层 KV 缓存 conditioning，将流匹配连续动作专家嫁接到离散令牌 VLM 上。最后，我们提出了 MolmoThink，这是一种自适应深度推理变体，仅对时间步之间发生变化的场景区域重新预测深度令牌，以先前延迟的一小部分保留几何基础。在迄今为止任何开放 VLA 最广泛的实证研究中，跨越 7 个模拟和现实世界基准，MolmoAct2 的表现优于包括 Pi-05 在内的强基线，而 MolmoER 在 13 个具身推理基准上超越了 GPT-5 和 Gemini Robotics ER-1.5。我们发布了模型权重、训练代码和完整的训练数据。项目页面：https://allenai.org/blog/molmoact2链接： https://arxiv.org/pdf/2605.02881

OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models

中文标题： OceanPile：面向基础模型的大规模多模态海洋语料库关键词： OceanPile，Multimodal Corpus，Ocean Foundation Models，Knowledge Graph，Marine AI简介： OceanPile提出了一个面向海洋科学的大规模多模态语料库，结合了多样化的数据类型和知识图谱引导的指令数据集，以推进海洋人工智能应用。摘要： 广阔且未被充分探索的海洋在调节全球气候和支持海洋生物多样性方面发挥着关键作用，但由于根本性的数据瓶颈，人工智能迄今为止在该领域产生的影响有限。具体而言，海洋数据高度分散在不同的来源中，且本质上表现出多模态、高噪声和弱标签的特征，缺乏统一的模式和语义对齐。尽管多模态大语言模型（MLLMs）在通用领域取得了显著成功，但由于缺乏针对海洋环境定制的大规模、良好对齐的多模态数据集，它们在海洋科学中的应用仍然受到严重限制。为了弥合这一差距，我们介绍了OceanPile，这是一个专为海洋基础模型设计的大规模多模态语料库。它包含三个关键组成部分：OceanCorpus，一个集成了来自不同权威来源的声纳数据、水下图像、海洋科学视觉资料和科学文本的统一集合；OceanInstruction，通过一种新颖的流程合成的高质量指令数据集，该流程由分层海洋概念知识图谱引导；以及OceanBenchmark，一个用于严格评估的人工策划的评估基准。我们建立了多阶段质量控制流程，以确保跨模态的科学有效性和对齐。实验验证表明，在我们数据上训练的模型性能有显著提升。所有数据集均公开发布，以推进海洋人工智能领域的发展，并赋能领域特定的多模态大语言模型。链接： https://arxiv.org/pdf/2605.00877

ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models

中文标题： ComboStoc：扩散生成模型的组合随机性关键词： diffusion generative models，combinatorial complexity，stochastic processes，asynchronous generation简介：将随机过程与扩散模型相结合解决了组合复杂性的局限性，加速了训练，并实现了跨数据模态的异步生成。摘要： 在本文中，我们研究了扩散生成模型中一个未被充分探索但至关重要的因素，即组合复杂性。数据样本通常是高维的，对于各种结构化生成任务，额外的属性被组合并与数据样本相关联。我们表明，现有扩散生成模型的训练方案可能无法充分覆盖维度和属性组合所张成的空间，从而可能限制测试时的性能。我们通过构建充分利用组合结构的随机过程，为这一问题提供了一个简单的解决方案，因此命名为ComboStoc。利用这一简单策略，我们表明网络训练在包括图像和3D结构形状在内的多种数据模态上显著加速。此外，ComboStoc实现了一种新的测试时生成方式，即对不同维度和属性使用异步时间步，从而允许对它们进行不同程度的控制。我们的代码可在以下网址获取：https://github.com/Xrvitd/ComboStoc链接： https://arxiv.org/pdf/2405.13729

AcademiClaw: When Students Set Challenges for AI Agents

中文标题： AcademiClaw：当学生为AI智能体设定挑战时关键词： AI agents，academic benchmark，complex tasks，OpenClaw ecosystem，CUDA GPU execution，multi-dimensional rubrics，safety audit，frontier models，capability gaps，open-source data简介： AcademiClaw提出了一个全面的基准测试，用于评估AI智能体在跨越多个领域的复杂学术任务上的表现，揭示了当前模型在能力上的显著差距。摘要： OpenClaw生态系统内的基准测试迄今为止仅评估了助手级别的任务，使得OpenClaw的学术级别能力基本未被探索。我们介绍了AcademiClaw，这是一个包含80个复杂、长期任务的双语基准测试，这些任务直接来源于大学生的真实学术工作流程——包括家庭作业、研究项目、竞赛和个人项目——他们发现当前的AI智能体无法有效解决这些任务。最终的任务集通过严格的专家审查从230个学生提交的候选中精选而成，涵盖25个以上的专业领域，从奥林匹克级别的数学和语言学问题到需要大量GPU的强化学习和全栈系统调试，其中16个任务需要CUDA GPU执行。每个任务在隔离的Docker沙箱中执行，并通过结合六种互补技术的多维评分标准进行任务完成度评分，独立的五类安全审计提供额外的行为分析。对六个前沿模型的实验表明，即使是最好的模型也仅达到55%的通过率。进一步的分析揭示了任务领域间的能力边界、模型间不同的行为策略，以及令牌消耗与输出质量之间的脱节，提供了超出聚合指标所揭示的细粒度诊断信号。我们希望AcademiClaw及其开源的数据和代码能够成为OpenClaw社区的有用资源，推动开发出能够应对现实世界学术需求全面挑战的更强大和更多功能的智能体。所有数据和代码可在https://github.com/GAIR-NLP/AcademiClaw获取。链接： https://arxiv.org/pdf/2605.02661

PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments

中文标题： PhysicianBench：在真实电子健康记录环境中评估大语言模型智能体关键词： LLM agents，EHR environments，clinical workflows，benchmark evaluation简介： PhysicianBench在电子健康记录环境中评估大语言模型智能体在需要复杂多步骤工作流程的真实临床任务上的表现，揭示了当前智能体能力存在的显著差距。摘要： 我们介绍了PhysicianBench，这是一个用于评估在电子健康记录（EHR）环境中基于真实临床设置的医生任务的大语言模型智能体的基准。现有的医疗智能体基准主要关注静态知识回忆、单步原子操作或操作意图，而缺乏针对环境的可验证执行。因此，它们无法捕捉真实临床系统所具有的长期复合工作流程。PhysicianBench包含100个长期任务，这些任务改编自初级保健医生和专科医生之间的真实咨询案例，每个任务都由独立的医生小组进行审查。任务在包含真实患者记录的EHR环境中实例化，并通过商业EHR供应商使用的相同标准API进行访问。任务涵盖21个专科（如心脏病学、内分泌学、肿瘤学、精神病学）和多种工作流程类型（如诊断解读、药物处方、治疗规划），平均每个任务需要27次工具调用。解决每个任务需要跨就诊检索数据、对异构临床信息进行推理、执行具有重大临床后果的操作以及生成临床文档。每个任务被分解为结构化检查点（整个基准共670个），捕捉由特定任务脚本评分的不同完成阶段，并具有基于执行的可验证性。在13个专有和开源大语言模型智能体中，表现最佳的模型仅达到46%的成功率（pass@1），而开源模型最高仅达到19%，揭示了当前智能体能力与真实临床工作流程需求之间的巨大差距。PhysicianBench为衡量向自主临床智能体发展的进展提供了一个现实且基于执行的基准。链接： https://arxiv.org/pdf/2605.02240

Generative Modeling with Orbit-Space Particle Flow Matching

中文标题： 基于轨道空间粒子流匹配的生成建模关键词： Orbit-Space Geometric Probability Paths，OGPP，particle-native flow-matching，generative modeling，particle systems，orbit-space canonicalization，particle index embeddings，geometric probability paths，arc-length-aware terminal velocities，minimal-surface benchmarks，ShapeNet，DiT-3D，single-shape encoding，6D generators，3D reconstruction简介：轨道空间几何概率路径（OGPP）提出了一种粒子原生流匹配框架，通过轨道空间规范化、粒子索引嵌入和具有弧长感知终端速度的几何概率路径，改进了粒子系统的生成建模。摘要： 我们提出了轨道空间几何概率路径（OGPP），这是一种用于粒子系统生成建模的粒子原生流匹配框架。OGPP的提出基于两个洞察：（i）粒子在排列对称性下定义，因此匿名索引会放大每个索引的目标方差，并导致弯曲且难以学习的流；（ii）粒子存在于物理空间中，因此流的终端速度具有物理意义，并可以编码几何属性，例如表面法线。OGPP实现了三个关键组件：（1）概率路径终端端点的轨道空间规范化，（2）用于角色特化的粒子索引嵌入，以及（3）具有弧长感知终端速度的几何概率路径，该路径将法线作为流的副产品生成。我们在最小曲面基准上评估了OGPP，它在单次推理步骤中将度量误差减少了多达两个数量级；在ShapeNet上，它以5倍更少的步骤达到了最先进水平，并以26倍更少的参数和5倍更少的步骤达到了与DiT-3D相当的飞机EMD；在单一形状编码上，它产生了与6D生成器竞争的法线和重建结果，同时完全在3D中运行。链接： https://arxiv.org/pdf/2605.02222

Perceptual Flow Network for Visually Grounded Reasoning

中文标题： 用于视觉定位推理的感知流网络关键词： Perceptual Flow Network，Visually Grounded Reasoning，Variational Reinforcement Learning，Large-Vision Language Models简介：感知流网络通过将感知与推理解耦，并利用多维奖励的变分强化学习来改进视觉推理，从而解决了视觉语言模型中的局限性。摘要： 尽管大型视觉语言模型（LVLMs）取得了成功，但通用的优化目标（如标准最大似然估计）无法约束视觉轨迹，导致语言偏差和幻觉。为了缓解这一问题，当前方法引入了来自视觉专家的几何先验作为额外监督。然而，我们观察到这种监督通常是次优的：它偏向于几何精度，且提供的推理效用有限。为了弥合这一差距，我们提出了感知流网络（PFlowNet），它摒弃了与专家先验的刚性对齐，实现了可解释且更有效的视觉推理。具体而言，PFlowNet将感知与推理解耦，以建立自条件生成过程。在此基础上，它通过变分强化学习将多维奖励与邻近几何塑形相结合，从而在保持视觉可靠性的同时促进面向推理的感知行为。PFlowNet提供了可证明的性能保证和具有竞争力的实证结果，特别是在V* Bench（90.6%）和MME-RealWorld-lite（67.0%）上创下了新的最先进记录。链接： https://arxiv.org/pdf/2605.02730

Motion-Aware Caching for Efficient Autoregressive Video Generation

中文标题： 面向高效自回归视频生成的运动感知缓存机制关键词： Motion-Aware Caching，Autoregressive Video Generation，Denoising Step Skipping，Pixel-Level Motion Characteristics简介： MotionCache是一个运动感知缓存框架，通过基于像素级运动特征动态调整去噪步频来加速自回归视频生成，在保持生成质量的同时实现了显著的加速效果。摘要： 自回归视频生成范式在长视频合成方面具有理论潜力，但其实际部署受到顺序迭代去噪计算负担的阻碍。虽然缓存复用策略可以通过跳过冗余去噪步骤来加速生成，但现有方法依赖于粗粒度的块级跳过，无法捕捉细粒度的像素动态。这一疏忽至关重要：高运动像素需要更多去噪步骤以防止误差累积，而静态像素则可以容忍激进跳过。我们通过将缓存误差与残差不稳定性的联系在理论上形式化了这一见解，并提出了MotionCache，这是一个利用帧间差异作为像素级运动特征轻量级代理的运动感知缓存框架。MotionCache采用由粗到精的策略：初始预热阶段建立语义连贯性，随后进行运动加权缓存复用，动态调整每个令牌的更新频率。在SkyReels-V2和MAGI-1等最先进模型上的广泛实验表明，MotionCache分别实现了6.28倍和1.64倍的显著加速，同时有效保持了生成质量（VBench：分别下降1%和0.01%）。代码可在https://github.com/ywlq/MotionCache获取。链接： https://arxiv.org/pdf/2605.01725

上海一橙智能科技有限公司，是上海一橙网络科技股份有限公司旗下专注于AI与大模型应用落地的核心企业，提供从平台构建到AI场景化应用落地的全栈服务。聚焦大模型应用、数字人交互、语音图像分析等核心领域，打造了覆盖智能外呼、智能客服、智能知识管理、智能陪练、多模态交互、图像语音质检等场景的AI产品体系，已成功为通信、能源等领域头部央国企客户打造出多个AI落地应用。