4月14日热门AI论文汇总

Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation

中文标题： Transformer中的注意力汇聚：利用、解释与缓解综述
关键词： Transformer，Attention Sink，Interpretability，Mitigation
简介： Transformer面临注意力汇聚现象的挑战，即过多的注意力集中在无信息量的标记上，影响可解释性和性能，因此需要针对基本使用、机制理解和策略缓解方法进行全面的研究综述。
摘要： 作为现代机器学习的基础架构，Transformer在多个AI领域推动了显著进展。尽管其影响深远，但Transformer面临一个持续挑战，即注意力汇聚（AS），其中不成比例的注意力集中在少数特定但无信息量的标记上。AS增加了可解释性的复杂性，显著影响训练和推理动态，并加剧幻觉等问题。近年来，大量研究致力于理解和利用AS。然而，缺乏系统整合AS相关研究并为未来进展提供指导的全面综述。为填补这一空白，我们提出首个AS综述，围绕定义当前研究格局的三个关键维度展开：基本利用、机制解释和策略缓解。我们的工作通过阐明关键概念并引导研究者了解该领域的演变和趋势，做出了重要贡献。我们希望本综述成为权威资源，帮助研究者和实践者在当前Transformer范式中有效管理AS，同时激发下一代Transformer的创新进展。本文的论文列表可在https://github.com/ZunhaiSu/Awesome-Attention-Sink获取。
链接： https://arxiv.org/pdf/2604.10098

OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

中文标题： OmniShow：统一多模态条件的人物交互视频生成
关键词： Human-Object Interaction Video Generation，Multimodal Conditioning，Unified Channel-wise Conditioning，Gated Local-Context Attention，Decoupled-Then-Joint Training，HOIVG-Bench
简介： OmniShow是一个用于人物交互视频生成的端到端框架，通过统一的条件和注意力机制有效整合多种模态，同时通过解耦训练策略解决数据稀缺问题。
摘要： 在这项工作中，我们研究人物交互视频生成（HOIVG），旨在根据文本、参考图像、音频和姿态条件合成高质量的人物交互视频。该任务在现实世界应用中具有重要的实用价值，如电子商务演示、短视频制作和互动娱乐。然而，现有方法无法满足所有这些必要条件。我们提出了OmniShow，一个专门针对这一实用但具有挑战性任务的端到端框架，能够协调多模态条件并提供工业级性能。为了克服可控性和质量之间的权衡，我们引入了统一通道条件以实现高效的图像和姿态注入，以及门控局部上下文注意力以确保精确的音视频同步。为了有效解决数据稀缺问题，我们开发了一种先解耦后联合的训练策略，利用多阶段训练过程和模型合并来高效利用异构子任务数据集。此外，为了填补该领域的评估空白，我们建立了HOIVG-Bench，一个专门用于HOIVG的全面基准。大量实验表明，OmniShow在各种多模态条件下均实现了最先进的整体性能，为新兴的HOIVG任务奠定了坚实基础。
链接： https://arxiv.org/pdf/2604.11804

Uni-ViGU: Towards Unified Video Generation and Understanding via A Diffusion-Based Video Generator

中文标题： Uni-ViGU：通过基于扩散的视频生成器迈向统一的视频生成与理解
关键词： Uni-ViGU，video generation，video understanding，unified multimodal model，flow matching，bidirectional training
简介： Uni-ViGU提出了一种以生成为中心的统一多模态视频理解和生成方法，通过统一的流匹配和双向训练机制，将视频生成扩展为基础。
摘要： 集成视觉理解和生成的统一多模态模型面临一个根本性挑战：视觉生成的计算成本远高于理解，尤其是对于视频。这种不平衡促使我们反转传统范式：我们不是将以理解为中心的多模态大语言模型扩展以支持生成，而是提出了Uni-ViGU，这是一个通过将视频生成器作为基础来统一视频生成和理解的框架。我们引入了一种统一流方法，在单个过程中对视频执行连续流匹配，对文本执行离散流匹配，从而实现连贯的多模态生成。我们进一步提出了一个模态驱动的基于专家混合的框架，通过为文本生成添加轻量级层来增强Transformer块，同时保留生成先验。为了将生成知识重新用于理解，我们设计了一个双向训练机制，包含两个阶段：知识回忆阶段重建输入提示以利用学习到的文本-视频对应关系，能力细化阶段在详细字幕上进行微调以建立判别性共享表示。实验表明，Uni-ViGU在视频生成和理解方面均取得了具有竞争力的性能，验证了以生成为中心的架构是迈向统一多模态智能的可扩展路径。项目主页和代码：https://fr0zencrane.github.io/uni-vigu-page/。
链接： https://arxiv.org/pdf/2604.08121

Strips as Tokens: Artist Mesh Generation with Native UV Segmentation

中文标题： 条带即令牌：具有原生UV分割的艺术家网格生成
关键词： Mesh Generation，Autoregressive Transformers，Triangle Strips，UV Segmentation，Artist Meshes
简介： SATO为自回归Transformer引入了一种新颖的令牌排序策略，通过基于三角条带的序列，在网格生成过程中保持了边缘流向和语义布局。
摘要： 自回归Transformer的最新进展展示了生成艺术家级网格的巨大潜力。然而，现有方法采用的令牌排序策略通常无法达到专业艺术家的标准：基于坐标的排序会导致效率低下的长序列，而基于分块的启发式方法则会破坏高质量建模所必需的连续边缘流向和结构规律性。为了解决这些局限性，我们提出了条带即令牌（SATO），这是一个受三角条带启发的新颖框架，具有独特的令牌排序策略。通过将序列构建为显式编码UV边界的面连接链，我们的方法自然地保留了艺术家创建网格所特有的有序边缘流向和语义布局。该公式的一个关键优势是其统一表示，能够将同一令牌序列解码为三角形或四边形网格。这种灵活性促进了在这两种数据类型上的联合训练：大规模三角形数据提供了基础结构先验，而高质量四边形数据则增强了输出的几何规律性。广泛的实验表明，SATO在几何质量、结构一致性和UV分割方面始终优于先前的方法。
链接： https://arxiv.org/pdf/2604.09132

Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models

中文标题： 伪统一：熵探测揭示统一多模态模型中的信息模式分歧
关键词： Unified Multimodal Models，Pseudo-Unification，Entropy Probing，Information Flow
简介： 统一多模态模型因不对称编码和分裂响应模式而遭受伪统一问题，实现真正的多模态协同需要一致的信息流。
摘要： 统一多模态模型旨在结合大语言模型的推理能力与视觉模型的生成能力。然而在实践中，这种协同作用仍然难以捉摸：统一多模态模型未能将类似大语言模型的推理能力迁移到图像合成中，并表现出发散的响应行为。我们将这种现象称为伪统一。诊断其内在原因至关重要，但现有的探测方法要么缺乏模型内部的洞察力，要么忽略了提示与响应之间的依赖关系。为了解决这些局限性，我们提出了一种基于信息论的探测框架，联合分析统一多模态模型如何编码输入和生成输出。应用于十个具有代表性的统一多模态模型后，我们的框架揭示了伪统一源于双重分歧：（i）模态不对称编码，即视觉和语言遵循不同的熵轨迹；（ii）模式分裂响应，即文本生成表现出高熵的创造性，而图像合成则强制执行低熵的保真度。只有统一了这两方面的模型（例如通过上下文预测）才能实现更真正的统一，从而在参数更少的情况下实现更强的基于推理的文本到图像生成。我们的工作提供了对统一问题的首次模型内部探测，证明了真正的多模态协同需要信息流的一致性，而不仅仅是共享参数。
链接： https://arxiv.org/pdf/2604.10949

CocoaBench: Evaluating Unified Digital Agents in the Wild

中文标题： CocoaBench：评估现实环境中的统一数字智能体
关键词： unified digital agents，benchmark，multi-capability tasks，vision，search，coding，LLM agents，evaluation，reasoning and planning，tool use，visual grounding
简介： CocoaBench是一个新的基准测试，用于评估统一数字智能体在需要视觉、搜索和编码集成的复杂多能力任务上的表现，揭示了当前智能体系统仍有显著的改进空间。
摘要： LLM智能体目前在软件工程、深度研究、GUI自动化以及各种其他应用中表现出色，而最近的智能体框架和模型正越来越多地将这些能力集成到统一系统中。然而，大多数评估仍然孤立地测试这些能力，这为需要智能体结合不同能力的更多样化用例留下了空白。我们介绍了CocoaBench，这是一个为统一数字智能体设计的基准测试，由人类设计的长期任务构成，这些任务需要灵活组合视觉、搜索和编码能力。任务仅通过指令和针对最终输出的自动评估函数来指定，从而能够在多样化的智能体基础设施上实现可靠且可扩展的评估。我们还提出了CocoaAgent，这是一个轻量级的共享框架，用于在不同模型骨干之间进行受控比较。实验表明，当前智能体在CocoaBench上的可靠性仍然较差，表现最好的评估系统成功率仅为45.1%。我们的分析进一步指出，在推理与规划、工具使用与执行以及视觉定位方面仍有巨大的改进空间。
链接： https://arxiv.org/pdf/2604.11201

CodeTracer: Towards Traceable Agent States

中文标题： CodeTracer：迈向可追踪的智能体状态
关键词： CodeTracer，code agents，state transitions，failure localization，trace tree，debugging
简介： CodeTracer是一种追踪架构，通过重构状态转换和在复杂多阶段工作流中定位故障来分析代码智能体的执行过程。
摘要： 代码智能体正在快速发展，但调试它们变得越来越困难。由于框架在复杂任务上编排并行工具调用和多阶段工作流，使得智能体的状态转换和错误传播难以观察。在这些运行过程中，早期的失误可能使智能体陷入无效循环，甚至级联成根本性错误，形成隐藏的错误链，导致难以判断智能体何时偏离轨道以及原因何在。现有的智能体追踪分析要么关注简单交互，要么依赖小规模人工检查，这限制了它们在真实代码工作流中的可扩展性和实用性。我们提出了CodeTracer，这是一种追踪架构，通过不断演进的提取器解析异构运行产物，将完整的状态转换历史重构为具有持久记忆的分层追踪树，并执行故障起始定位，以精确找出故障源头及其下游链路。为了实现系统性评估，我们从四个广泛使用的代码智能体框架在多样化代码任务（如错误修复、重构和终端交互）上生成的大量执行轨迹中构建了CodeTraceBench，并在阶段和步骤级别提供了故障定位的监督信息。实验表明，CodeTracer显著优于直接提示和轻量级基线，并且在匹配预算下，重放其诊断信号能够持续恢复原本失败的运行。我们的代码和数据已公开可用。
链接： https://arxiv.org/pdf/2604.11641

Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs

中文标题： 追溯根源：用于揭示后训练大语言模型数据谱系的多智能体框架
关键词： data lineage，post-training LLMs，multi-agent framework，data curation
简介： 谱系分析揭示了LLM数据集演变中的结构模式和系统性问题，从而通过具有谱系意识的采样方法实现更多样化和可控的数据策展。
摘要： 后训练数据在塑造大语言模型（LLM）能力方面起着关键作用，然而数据集通常被视为孤立的产物，忽视了其演变背后的系统性联系。为了理清这些复杂关系，我们将数据谱系的概念引入LLM生态系统，并提出了一种自动化的多智能体框架来重建数据集开发的演化图。通过大规模谱系分析，我们刻画了特定领域的结构模式，例如面向数学的数据集中的纵向细化和通用语料库中的横向聚合。此外，我们揭示了普遍存在的系统性问题，包括由隐式数据集交集引起的结构冗余以及基准污染沿谱系路径的传播。为了展示谱系分析在数据构建中的实用价值，我们利用重建的谱系图创建了一个具有谱系意识的多样性导向数据集。通过将指令采样锚定在上游根源，这种方法缓解了下游同质化和隐藏冗余，从而产生了更多样化的后训练语料库。我们进一步强调，以谱系为中心的分析是大规模数据生态系统中样本级数据集比较的一种高效且稳健的拓扑替代方案。通过将数据构建建立在显式的谱系结构之上，我们的工作将后训练数据策展推向了一个更加系统化和可控的范式。
链接： https://arxiv.org/pdf/2604.10480

Introspective Diffusion Language Models

中文标题： 内省扩散语言模型
关键词： Diffusion Language Models，Autoregressive Models，Introspective Consistency，Parallel Generation
简介： 内省扩散语言模型通过新颖的解码算法和优化的推理引擎强制执行内省一致性，从而解决了与自回归模型之间的质量差距。
摘要： 扩散语言模型承诺实现并行生成，但在质量上仍落后于自回归（AR）模型。我们将这一差距归因于内省一致性的缺失：AR模型与其自身的生成结果保持一致，而扩散语言模型（DLM）通常做不到。我们定义了内省接受率，用于衡量模型是否接受其先前生成的令牌。这揭示了为什么AR训练具有结构性优势：因果掩码和Logit偏移隐式地强制执行了内省一致性。受此观察启发，我们引入了内省扩散语言模型（I-DLM），这是一种在保留扩散风格并行解码的同时，继承AR训练内省一致性的范式。I-DLM使用一种新颖的内省跨步解码（ISD）算法，使模型能够在同一次前向传播中验证先前生成的令牌并推进新令牌的生成。从系统角度来看，我们在继承自AR的优化基础上构建了I-DLM推理引擎，并进一步通过静态批次调度器对其进行定制。据我们所知，I-DLM是首个在质量上与同规模AR对手相匹配的DLM，同时在15个基准测试中，在模型质量和实际服务效率方面均优于以往的DLM。它在AIME-24上达到69.6分，在LiveCodeBench-v6上达到45.7分，分别超过LLaDA-2.1-mini（16B）超过26分和15分。除了质量之外，I-DLM专为日益增长的大并发服务需求而设计，其吞吐量比以往最先进的DLM高出约3倍。
链接： https://arxiv.org/pdf/2604.11035

Prompt Relay: Inference-Time Temporal Control for Multi-Event Video Generation

中文标题： 提示词接力：多事件视频生成的推理时序控制
关键词： Video Diffusion Models，Multi-Event Video Generation，Temporal Control，Cross-Attention Penalty
简介： 视频扩散模型在多事件序列的时序控制和语义连贯性方面面临挑战，但一种新的推理时方法通过交叉注意力惩罚实现了细粒度的时序控制，从而提高了对齐度并减少了语义干扰。
摘要： 视频扩散模型在生成高质量视频方面取得了显著进展。然而，这些模型难以表现现实世界视频中多个事件的时序更替，且缺乏显式机制来控制语义概念出现的时间、持续时长以及多个事件发生的顺序。这种控制对于电影级视频合成尤为重要，因为连贯的叙事依赖于事件之间精确的时机、持续时长和过渡。当使用单个段落式提示词来描述一系列复杂事件时，模型通常会出现语义纠缠现象，即本应出现在视频不同时刻的概念相互渗透，导致文本-视频对齐效果不佳。为了解决这些局限性，我们提出了提示词接力（Prompt Relay），这是一种推理时的、即插即用的方法，能够在多事件视频生成中实现细粒度的时序控制，无需修改模型架构，也不增加额外的计算开销。提示词接力在交叉注意力机制中引入了惩罚项，使得每个时间段仅关注其分配的提示词，从而允许模型一次仅表现一个语义概念，进而改善了时序提示词对齐，减少了语义干扰，并提升了视觉质量。
链接： https://arxiv.org/pdf/2604.10030

上海一橙智能科技有限公司，是上海一橙网络科技股份有限公司旗下专注于AI与大模型应用落地的核心企业，提供从平台构建到AI场景化应用落地的全栈服务。聚焦大模型应用、数字人交互、语音图像分析等核心领域，打造了覆盖智能外呼、智能客服、智能知识管理、智能陪练、多模态交互、图像语音质检等场景的AI产品体系，已成功为通信、能源等领域头部央国企客户打造出多个AI落地应用。