
Code2LoRA: Hypernetwork-Generated Adapters for Code Language Models under Software Evolution
中文标题: Code2LoRA:软件演进下代码语言模型的超网络生成适配器关键词: Code2LoRA,hypernetwork,LoRA adapters,code language models,software evolution,parameter-efficient fine-tuning,repository-specific,RepoPeftBench简介: Code2LoRA是一个超网络框架,可为代码语言模型生成特定于代码库的LoRA适配器,通过高效的参数高效微调支持静态和演进中的代码库。摘要: 代码语言模型需要代码库级别的上下文来解析导入、API和项目约定。现有方法将此知识作为长输入(通过RAG或依赖分析检索)或通过每个代码库的微调和LoRA注入——这在代码库规模上成本高昂,且对演进中的代码库脆弱。我们介绍了Code2LoRA,一个超网络框架,生成特定于代码库的LoRA适配器,有效地注入代码库知识,且推理时零令牌开销。Code2LoRA支持两种使用场景:Code2LoRA-Static将单个代码库快照转换为适配器,适用于稳定代码库的理解;而Code2LoRA-Evo维护一个由GRU隐藏状态支持的适配器,该状态随每个代码差异更新,适用于演进中的代码库的活跃开发。为了评估Code2LoRA与参数高效微调基线的对比,我们构建了RepoPeftBench,一个包含604个Python代码库的基准,包含两个轨道:一个静态轨道,包含40K训练和12K测试断言完成任务;一个演进轨道,包含215K提交衍生的训练和87K提交衍生的测试任务。在静态轨道上,Code2LoRA-Static实现了63.8%的跨代码库和66.2%的代码库内精确匹配,达到了每个代码库LoRA的上限;在演进轨道上,Code2LoRA-Evo实现了60.3%的跨代码库精确匹配(比单个共享LoRA高5.2个百分点)。Code2LoRA的代码可在https://anonymous.4open.science/r/code2lora-6857找到;模型检查点和RepoPeftBench数据集可在https://huggingface.co/code2lora找到。链接: https://arxiv.org/pdf/2606.06492
ArcANE: Do Role-Playing Language Agents Stay in Character at the Right Time?
中文标题: ArcANE:角色扮演语言智能体是否能在恰当的时刻保持角色设定?关键词: Role-playing language agents,Character arc,Narrative evaluation,Psychological trajectory简介: 角色扮演语言智能体需要通过叙事进行动态的角色发展,这要求评估基准能够衡量心理轨迹的对齐程度而非静态的事实回忆,ArcANE的研究表明,当将角色弧线信息注入模型时,其表现显著优于其他方法。摘要: 角色扮演语言智能体(RPLAs)应扮演随着故事进展其价值观和行为不断演变的角色,而非维持固定的人格。现有的基准仅衡量特定章节的事实回忆能力,无法评估回应是否与角色的心理轨迹对齐,尤其是在源文本从未探索过的场景中。我们提出了ArcANE(Arc-Aware Narrative Evaluation,弧线感知叙事评估),这是一个自动构建的基准,涵盖17部小说和80个主要角色。角色弧线将叙事沿心理轴划分为不同阶段,每个探测问题在各个阶段中呈现相同的场景,涵盖源文本内外的情境。在六种模型和六种上下文模式的测试中,基于角色弧线的条件输入在所有模型上均优于其他上下文策略,且在检索无法找到任何信息的源文本外场景中,优势最为显著。我们进一步在相同数据上微调开源权重模型,获得ArcANE-8B/32B,这些模型在源文本外场景中进一步扩大了弧线条件的优势。链接: https://arxiv.org/pdf/2606.05553
TIDE: Proactive Multi-Problem Discovery via Template-Guided Iteration
中文标题: TIDE:通过模板引导迭代进行主动多问题发现关键词: TIDE,template-guided iteration,proactive discovery,multi-problem identification,agents,document and code environments简介: TIDE是一个模板引导的迭代框架,用于从上下文中发现隐藏问题,利用迭代发现和思维模板来提高文档和代码环境中的问题识别和解决能力。摘要: 智能体作为助手被广泛应用于文档、工具和代码领域。然而,它们通常仅响应用户的显式请求,仅暴露用户已注意到的问题,而许多其他重要问题共存于更广泛的用户上下文中,隐藏在显眼之处,且其总数事先未知。我们将此定义为从上下文中发现多个隐藏问题的任务,其中共存问题应被揭示、基于支持证据并配以具体行动。为此,我们引入TIDE,一个具有两种互补机制的模板引导迭代框架。具体而言,受单次预测锚定于最显著案例并产生泛泛而谈的观察启发,我们提出迭代发现,每轮揭示一小批候选问题,同时基于已发现的内容,以便后续轮次扩展覆盖范围;以及思维模板,从先前解决的案例中提炼的可重用模式,指定需关注的上下文信号及其连接方式,将每个预测锚定在可识别的问题类别中。我们在个人工作空间和软件仓库两个真实场景中,跨四种模型骨干验证了TIDE,在任务覆盖、识别和解决方面显著优于单次和并行多智能体基线。链接: https://arxiv.org/pdf/2606.04743
AdaPlanBench: Evaluating Adaptive Planning in Large Language Model Agents under World and User Constraints
中文标题: AdaPlanBench:在世界和用户约束下评估大语言模型智能体的自适应规划能力关键词: Adaptive Planning,LLM Agents,World Constraints,User Constraints,Interactive Benchmark简介: AdaPlanBench提出了一个动态交互基准,用于评估LLM智能体在多轮交互中通过逐步揭示的世界和用户约束进行自适应规划的能力。摘要: 语言模型针对现实世界问题的规划通常涉及世界和用户约束,这些约束可能无法在一开始完全明确,而是通过交互逐步披露。然而,现有基准对于这种逐步揭示的双重约束下的自适应规划探索不足。为了解决这一差距,我们引入了AdaPlanBench,这是一个动态交互基准,用于评估大语言模型(LLM)智能体是否能够在逐步揭示的世界和用户约束下进行自适应规划和重新规划。AdaPlanBench基于307个家庭任务构建,采用可扩展的约束构建管道,为每个任务增加了双重约束。在运行时,智能体以多轮协议与环境交互,只有当智能体提出违反隐藏约束的计划时,这些约束才会被揭示,这需要在不断累积的反馈下进行迭代计划修订。这使得规划具有挑战性,因为智能体必须从反馈中推断并跟踪约束,同时有效地重新规划。对十个领先LLM的实验表明,在双重约束下的自适应规划仍然具有挑战性,最佳模型的准确率仅达到67.75%。我们进一步观察到,随着约束的累积,性能会下降,其中用户约束构成了特别大的挑战,且失败通常源于物理基础较弱和有效性降低。这些结果确立了AdaPlanBench作为双重约束交互规划的测试平台,并突出了LLM智能体可靠适应动态揭示约束的挑战。链接: https://arxiv.org/pdf/2606.05622
VideoKR: Towards Knowledge- and Reasoning-Intensive Video Understanding
中文标题: VideoKR:迈向知识与推理密集型视频理解关键词: video understanding,knowledge-intensive reasoning,large-scale dataset,human-in-the-loop简介: VideoKR提出了一个大规模视频推理数据集和基准,旨在通过专家领域内容和人机协同示例生成来增强知识密集型视频理解。摘要: 我们介绍了VideoKR,这是首个专门设计用于加强知识和推理密集型视频理解的大规模训练语料库。它包含145,000个新收集的、CC许可的专家领域视频上的315,000个视频推理示例。我们开发了一个人机协同、面向技能的示例生成流程,旨在逐步提升更深层次的视频推理能力,同时确保示例及其思维链推理的难度、多样性和可靠性。我们还策划了VideoKR-Eval,一个新的专家标注基准,其中的问题需要真正的视频理解和知识密集型推理,而非文本捷径。我们的实验表明,在标准的SFTrightarrowGRPO流程下,在VideoKR上后训练的模型在知识密集型视频推理方面优于以往的后训练方法,同时在一般视频推理上保持竞争力,突显了数据设计是视频推理进步的关键驱动力。我们进一步进行了全面的消融实验,以分离VideoKR的贡献,为未来的工作提供了可操作的见解。链接: https://arxiv.org/pdf/2606.05259
RobotValues: Evaluating Household Robots When Human Values Conflict
中文标题: RobotValues:人类价值观冲突下的家庭机器人评估关键词: household robots,value conflict,benchmark,vision-language models简介: RobotValues基准在价值观冲突场景中评估家庭机器人规划器,发现视觉语言模型表现出默认的价值观偏好,并且在被指示优先考虑冲突的价值观时难以覆盖这些偏好。摘要: 虽然家庭机器人通常基于任务完成情况进行评估,但日常家庭环境涉及价值观冲突的情况,在这些情况下,机器人被期望选择优先考虑任务成功之外的其他价值观的行动,例如人类自主性、效率或社会适宜性。然而,目前尚无基准用于评估机器人在此类场景中的价值观偏好。我们介绍了RobotValues,这是一个在10,000个价值观冲突场景中评估家庭机器人规划器的基准。每个实例包含一张真实的家庭图像,其中包含多个优先考虑不同人类价值观的合理机器人行动。我们通过大语言模型辅助的场景生成、利益相关者基础的价值观提取、图像生成和自动质量控制构建了RobotValues。利用RobotValues,我们评估了机器人中使用的视觉语言模型,发现模型表现出默认的价值观偏好,包括安全性和迁就性,而较少选择优先考虑隐私的行动。当模型被指示优先考虑与其自身偏好冲突的特定价值观时,它们往往无法覆盖默认行动,80%的时间选择了错误的行动。这些发现表明,家庭机器人的评估不仅应衡量任务完成或安全合规性,还应衡量在人类价值观冲突时机器人是否能在合理行动之间做出选择。链接: https://arxiv.org/pdf/2606.03312
Reinforcement Learning Elicits Contextual Learning of Unseen Language Translation
中文标题: 强化学习引发未见语言翻译的上下文学习关键词: reinforcement learning,large language models,unseen language translation,in-context learning简介: 强化学习方法使大型语言模型能够通过利用上下文语言知识而非记忆特定语言来翻译未见语言。摘要: 先前的研究表明,大型语言模型(LLMs)可以通过持续训练甚至在上下文中编码语法书来翻译未见或低资源语言。然而,这两种方法通常会对特定语言产生过拟合,在测试时的零样本迁移能力有限。为了大规模翻译极低资源语言,我们认为LLMs必须掌握利用上下文语言知识的元技能,而不是记忆特定语言。在本文中,我们提出了一种强化学习(RL)方法,用于在丰富语言上下文下进行未见语言翻译,使用表层翻译指标(chrF)作为奖励。实证结果表明,尽管奖励信号轻量,我们的RL训练模型能够有效地从提供的上下文中提取并应用相关语言信息,在完全未见语言的翻译上优于上下文学习或监督微调。我们的分析表明,基于结果的强化学习可以超越数学和编码等传统推理任务,成为从上下文中学习语言的通用方法。链接: https://arxiv.org/pdf/2606.06428
LoomVideo: Unifying Multimodal Inputs into Video Generation and Editing
中文标题: LoomVideo:将多模态输入统一到视频生成与编辑中关键词: LoomVideo,video generation,video editing,multimodal inputs,unified architecture,zero-overhead conditioning,Diffusion Transformer,MLLM简介: LoomVideo提出了一种高效的50亿参数统一架构,用于视频生成和编辑,通过新颖的条件机制和多模态对齐技术降低了计算开销。摘要: 开发能够解释交错多模态输入的统一视频生成和编辑模型是一个充满前景但极具挑战性的前沿领域。现有的统一框架主要依赖大规模模型(通常为130亿参数或更多),并通过拼接序列标记来引入源视频条件以进行编辑。这种拼接不可避免地使序列长度翻倍,导致自注意力机制的计算复杂度增加四倍,并引入了难以承受的开销。为了解决这些瓶颈,我们提出了LoomVideo,这是一个用于视频生成和编辑的高效50亿参数统一架构。LoomVideo用多模态大语言模型(MLLM)替换了标准的文本编码器,并采用Deepstack注入机制将多层MLLM特征与扩散Transformer(DiT)对齐。关键的是,我们为视频编辑引入了一种零开销的缩放-相加条件方法。通过缩放并将干净的源视频潜在表示直接加到带噪的目标潜在表示上,这一优雅的设计消除了对标记拼接的需求,在大幅降低计算成本的同时,保持了对复杂非刚性编辑的强大能力。此外,还无缝集成了负时间RoPE策略以处理多张参考图像。大量实验表明,我们的紧凑50亿模型在综合基准测试中实现了最先进或极具竞争力的性能,在电子商务和时尚生成场景中表现出卓越的优势。得益于零开销条件机制,与具有类似能力的模型相比,LoomVideo的推理速度至少提升了5.41倍,为高度实用和高效的视频基础模型铺平了道路。链接: https://arxiv.org/pdf/2606.06042
Personal AI Agent for Camera Roll VQA
中文标题: 用于相机相册视觉问答的个人AI智能体关键词: Personal AI Agent,Camera Roll VQA,Hierarchical Memory,Long-context Reasoning简介: 开发了一种用于个人相机相册视觉问答的对话式AI智能体,具有分层记忆和专用工具,用于导航包含个性化内容的大型视觉数据集。摘要: 我们研究了个人相机相册视觉问答的设置。在此设置中,对话式AI助手可以访问用户的个人相机相册并检索相关照片以回答查询,范围从简单的事实性问题(例如,“我昨天尝试的食物名称是什么?”)到更开放性的问题(例如,“推荐一些我从未吃过的菜肴”)。鉴于个人相机相册的庞大规模(即跨越多年、数百到数千张照片),成功的AI助手需要理解长期、高度个性化的视觉内容流,以便导航和定位正确和/或相关的信息。为此,我们收集并手动标注了模仿真实世界使用情况的问题。最终的数据集camroll包含50个用户、31,476张图像和2,500个问答对。我们进一步设计了camroll-agent,这是一种配备分层记忆和最少工具集的对话式AI智能体,用于高效导航大型、个性化的视觉记忆。实验结果表明,camroll-agent在长上下文理解AI智能体系统的众多基线和方法中表现优异。camroll数据集和camroll-agent共同突显了AI智能体在长上下文推理方面的差距:个性化视觉记忆需要与标准长上下文文本记忆不同的方法,特别是在存在一致性、视觉细节和用户特定上下文时。链接: https://arxiv.org/pdf/2606.05275
Rethinking Continual Experience Internalization for Self-Evolving LLM Agents
中文标题: 重新思考用于自进化大语言模型智能体的持续经验内化关键词: Experience Internalization,Continual Learning,Large Language Models,Self-Evolving Agents简介: 经验内化通过将过去的交互转化为可复用的能力,实现了大语言模型的持续学习,并在经验粒度、注入模式和内化机制方面取得了关于稳定学习的关键发现。摘要: 经验内化将过去交互中的上下文经验转化为可复用的参数化能力,为大语言模型(LLMs)的持续学习提供了一条有前景的路径。尽管先前的工作主要集中在单次迭代迁移上,但我们发现在多次迭代经验学习中,现有方法遭受的是渐进的能力崩溃,而非复合改进。我们通过经验内化的三个关键维度系统地考察了这种失败:(1)经验粒度:我们发现原则级经验比实例级经验更持久,因为它有效地从轨迹特定的细节中抽象出可迁移的策略。(2)经验注入模式:我们的分析表明,逐步注入通过将经验与中间决策状态对齐,显著优于全局注入,这一特性对于长时程工具使用至关重要。(3)内化机制:我们证明,在高质量教师轨迹上进行离线策略上下文蒸馏,比在线策略上下文蒸馏提供了更稳定的训练信号,后者本质上受限于对学生诱导的缺陷状态的局部修正。综上所述,这些见解为稳定且可持续的经验内化提供了一种简单而稳健的方法,为工程化自进化和持续学习的大语言模型提供了具体指导。链接: https://arxiv.org/pdf/2606.04703
上海一橙智能科技有限公司,是上海一橙网络科技股份有限公司旗下专注于AI与大模型应用落地的核心企业,提供从平台构建到AI场景化应用落地的全栈服务。聚焦大模型应用、数字人交互、语音图像分析等核心领域,打造了覆盖智能外呼、智能客服、智能知识管理、智能陪练、多模态交互、图像语音质检等场景的AI产品体系,已成功为通信、能源等领域头部央国企客户打造出多个AI落地应用。


夜雨聆风