💡 今日精选23篇AI领域最新论文,涵盖计算机视觉 / 自然语言处理 / 机器学习 / 人工智能 / 多模态等方向
🖥️ 计算机视觉
1. CrossVLA: Cross-Paradigm Post-Training and Inference Optimization for Vision-Language-Action Models
【作者】Zhi Liu
【摘要】视觉-语言-动作 (VLA) 模型已迅速收敛于一小组架构模式:离散令牌自回归(例如 OpenVLA)和连续动作流匹配(例如 pi-0.5)。然而,通过直接偏好优化 (DPO) 进行的偏好对齐(语言模型中事实上的训练后步骤)几乎完全在自回归 VLA 上进行了研究。我们提出了 CrossVLA,这是一项跨范式 VLA 后训练的实证研究。三个贡献:(i) 替代流匹配对数概率估计器,使 DPO 在连续操作主干上运行,无需概率流 ODE 集成; (ii) 将 LoRA 和 DoRA 作为 VLA DPO 的参数高效层进行头对头比较,发现 DoRA 在 LIBERO 4 套件(600 次试验,3 个种子)中比 OpenVLA SFT 平均提高了 +10.4 pp - 每个套件 +20.0 对象,+11.0 长视野,+8.0 目标,+2.7 空间 - 对象上的种子方差为零(每个套件 38/50) 3 粒种子); (iii) 推理时间剖析显示,降噪循环占 Sample_actions 延迟的 78.6%,并且 VLA-Cache 的前缀 K/V 缓存的加速上限为 21%——在我们的基准测试中,块级和令牌级缓存策略都会将成功率降低到 0-80%。我们在 6000 个 LIBERO 帧上进一步预训练多视图 + 时间投影头,实现相同任务检索的 99.5% k-NN 召回率@1(随机的 36 倍),可用作下游初始化。所有代码、ckpts、训练日志和复制脚本均在 https://github.com/lz-googlefycy/vla-lab 上开放。
【英文摘要】Vision-Language-Action (VLA) models have rapidly converged on a small set of architectural patterns: discrete-token autoregression (e.g. OpenVLA) and continuous-action flow-matching (e.g. pi-0.5). Yet preference alignment via Direct Preference Optimisation (DPO) -- the de-facto post-training step in language models -- has been studied almost exclusively on autoregressive VLAs. We present CrossVLA, an empirical study of cross-paradigm VLA post-training.
📄 论文:https://arxiv.org/abs/2605.21854💻 代码:https://github.com/lz-googlefycy/vla-lab
2. Learning Emergent Modular Representations in Multi-modality Medical Vision Foundation Models
【作者】Yuting He, Chenyu You, Shuo Li
【摘要】多模态医学视觉 (MV) 基础模型 (FM) 从根本上受到跨异构成像模态的明显非独立同分布特征统计的挑战。对此类数据的整体自我监督优化会引发冲突的梯度,导致表征崩溃,走向模态主导的捷径。这项工作将这种失败重新定义为新兴模块化中专业化和协调之间的不平衡,并提出了总监专家(DEX),这是一个模块化网络,可以明确调节堆叠模块中的这些动态。每个 DEX 模块都包含一组专家,由我们的图像激活策略动态调整,自主专门研究模态主导统计数据,以及一个通过我们的组指数移动平均线更新的控制器,将多专家知识提炼到共享空间中,以实现跨模态的语义集成,从而推动模块化表示的出现。我们策划了一个新的基准——Medical Vision Universe,包含 10 种模式的超过 400 万张图像,它为我们的 DEX 提供了 FM 级预训练,最大程度地覆盖了不同的成像模式。对 26 个下游任务的广泛评估证明了优化行为和可转移性的改进,表明 DEX 是迈向通用多模态医疗 AI 的原则性步骤。我们的代码和数据集将在 https://github.com/YutingHe-list/DEX 上开放。
【英文摘要】Multi-modality medical vision (MV) foundation models (FM) are fundamentally challenged by pronounced Non-IID feature statistics across heterogeneous imaging modalities. Monolithic self-supervised optimization on such data induces conflicting gradients, driving representations to collapse toward modality-dominant shortcuts.
📄 论文:https://arxiv.org/abs/2605.21861💻 代码:https://github.com/YutingHe-list/DEX
3. Universal CT Representations from Anatomy to Disease Phenotype through Agglomerative Pretraining
【作者】Yuheng Li, Yuan Gao, Haoyu Dong et al.
【摘要】计算机断层扫描 (CT) 是三维医学成像的核心,但基于 CT 的人工智能在分割、分类、配准和报告分析等特定任务模型中仍然支离破碎。在这里,我们介绍了 FlexiCT,这是一系列 CT 基础模型,通过对来自 56 个公开数据集的 266,227 个 CT 体积进行凝聚连续预训练来训练,形成了用于 CT 表示学习的大规模公共资源。 FlexiCT 使用跨三个阶段的凝聚预训练:二维轴向预训练、三维解剖预训练和报告引导的语义对齐。该训练策略支持切片级、体积级和视觉语言分析。在五个下游任务系列(分割、分类、配准、视觉语言理解和临床检索)中,FlexiCT 在多个基准上匹配或超过了先前的特定任务方法。其嵌入进一步沿着与不同肿瘤阶段相关的梯度组织 CT 扫描,表明 CT 基础模型可以捕获与疾病表型表征相关的成像特征。代码可在 https://github.com/ricklisz/FlexiCT 获取
【英文摘要】Computed tomography (CT) is a central to three-dimensional medical imaging, yet CT-based artificial intelligence remains fragmented across task-specific models for segmentation, classification, registration, and report analysis. Here we present FlexiCT, a family of CT foundation models trained by agglomerative continual pretraining on 266,227 CT volumes from 56 publicly available datasets, forming a large-scale public resource for CT representation learning.
📄 论文:https://arxiv.org/abs/2605.21906💻 代码:https://github.com/ricklisz/FlexiCT
4. RiT: Vanilla Diffusion Transformers Suffice in Representation Space
【作者】Le Zhang, Ning Mang, Aishwarya Agrawal
【摘要】众所周知,与 x 预测的流匹配(回归干净的数据点而不是环境速度)可以有效地利用像素空间中的低维流形结构。我们询问预训练的表示空间在包含具有可比内在维度的低维数据流形的同时,是否提供了更有利于流匹配学习的分布。比较像素、SD-VAE 和 DINOv2 沿四个几何轴的特征,我们发现像素和 DINOv2 具有几乎相同的内在维度(均为 d\!\!33),但 DINOv2 的有效秩高出 7.3,协方差调节好 35,超峰度低 11.5,流形内插误差低 1.7; SD-VAE 潜伏始终处于中等水平,表明其优势源于表示学习目标而不仅仅是压缩。这些统计特性使得流匹配回归条件良好,并且消除了对先前 DINOv2 扩散方法所使用的专门预测头或黎曼传输的需要。我们提出了表示图像变换器(RiT):一种普通的扩散变换器,通过对冻结的 DINOv2 特征进行 x 预测训练,仅通过维度感知噪声计划和联合 [CLS] 补丁建模进行增强。在 ImageNet 256256 上,RiT 在没有引导的情况下达到了 FID 1.45,在无分类器引导的情况下达到了 1.14,优于 DiT^DH-XL,参数减少了 19%(676M vs.839M)。生成的 ODE 在粗离散化时可有效求解:在无分类器指导下,5 个 Heun 步已达到 FID 2.0,10 个步达到 1.25,无需蒸馏或一致性训练。代码位于 https://github.com/lezhang7/RiT。
【英文摘要】Flow matching with x-prediction -- regressing the clean data point rather than the ambient velocity -- is known to exploit low-dimensional manifold structure effectively in pixel space li2025back. We ask whether a pretrained representation space, while containing a low-dimensional data manifold of comparable intrinsic dimensionality, offers a distribution more favorable for flow-matching learning.
📄 论文:https://arxiv.org/abs/2605.21981💻 代码:https://github.com/lezhang7/RiT
5. Virtual 3D H&E Staining from Phase-contrast Back-illumination Interference Tomography
【作者】Anthony Song, Boyan Zhou, Mayank Golhar et al.
【摘要】未处理组织的三维 (3D) 组织病理学有可能通过实现组织微结构的体积表征和体内评估来改变疾病管理。背照式干涉断层扫描 (BIT) 是一种新型相位显微镜技术,可为未处理的组织提供快速、无损的体积成像。然而,将 BIT 体积转化为临床可解释的 H&E 图像仍然具有挑战性,特别是由于移变对比度和缺乏定量验证基准。我们推出了 HistoBIT3D,这是第一个体素配对的 BIT 和荧光标记的细胞核数据集,能够根据真实的细胞核分布对无监督虚拟染色中的结构保存进行定量评估。使用该数据集,我们提出了一种新颖的虚拟染色框架,通过利用双向多尺度内容一致性和跨域风格重用,将具有平移变量对比度的 BIT 体积转换为真实的 H&E 体积,以增强结构保真度和感知真实感。该方法实现了最先进的真实感指标,同时显著提高了零样本 Cellpose 评估下的 3D 细胞核分割精度和边界保留。这些贡献共同为 3D 虚拟 H&E 染色建立了一个经过定量验证、结构可靠且可扩展的流程,推进了无载玻片体积计算组织病理学的范例。我们的数据和代码位于:https://github.com/aasong113/HistoBIT3D_VirtualStaining。
【英文摘要】Three-dimensional (3D) histopathology of unprocessed tissues has the potential to transform disease management by enabling volumetric characterization of tissue microarchitecture and in-vivo assessment. Back-illumination Interference Tomography (BIT) is a new phase microscopy technology that provides rapid, non-destructive volumetric imaging of unprocessed tissues.
📄 论文:https://arxiv.org/abs/2605.22000💻 代码:https://github.com/aasong113/HistoBIT3D_VirtualStaining
📝 自然语言处理
6. SpecHop: Continuous Speculation for Accelerating Multi-Hop Retrieval Agents
【作者】Mehrdad Saberi, Keivan Rezaei, Soheil Feizi
【摘要】大型语言模型越来越多地使用网络搜索和文档检索等外部工具来解决信息密集型任务。然而,在复杂任务中使用多跳工具会带来大量延迟,因为模型必须反复等待工具观察才能继续。我们研究如何在不改变模型在没有加速的情况下所采取的最终轨迹的情况下加速这样的轨迹,假设可以使用更快但不太可靠的投机工具。我们开发了一个在多跳工具使用设置中进行无损推测的理论框架,描述了可实现的最佳延迟增益。我们提出了 SpecHop,一个持续推测框架,它维护多个推测线程,在目标工具输出到达时异步验证预测观察结果,提交正确的分支,并回滚错误的分支。这可以保持准确性,同时减少挂钟延迟。我们证明,SpecHop 可以通过足够的活动线程来接近预言机延迟增益。根据经验,在检索增强的多跳任务中,SpecHop 与理论预测非常吻合,并且在某些设置中将延迟减少了高达 40%。代码:https://github.com/mehrdadsaberi/spechop
【英文摘要】Large language models increasingly use external tools such as web search and document retrieval to solve information-intensive tasks. However, multi-hop tool use in complex tasks introduces substantial latency, since the model must repeatedly wait for tool observations before continuing. We study how to accelerate such trajectories without changing the final trajectory the model would have taken without acceleration, assuming access to faster but less reliable speculator tools.
📄 论文:https://arxiv.org/abs/2605.21965💻 代码:https://github.com/mehrdadsaberi/spechop
7. Psy-Chronicle:A Structured Pipeline for Synthesizing Long-Horizon Campus Psychological Counseling Dialogues
【作者】Chaogui Gou, Jiarui Liang
【摘要】近年来,大型语言模型在心理支持任务中显示出巨大的潜力。然而,现有的心理咨询数据大多依赖于单轮问答或简短的多轮对话,难以刻画大学生的心理困扰如何在校园生活事件中长期积累、相互作用和逐步演变。为了解决这个问题,本文提出了 Psy-Chronicle,一种用于综合长期校园心理咨询对话的结构化数据生成框架。我们生成一个跨学期的时间压力事件图来模拟校园压力事件之间的时间顺序和进化依赖性。通过学生代理和辅导员代理之间的交互模拟,再加上结构化的记忆整合机制,Psy-Chronicle 可以生成跨咨询会话连续性的长视野对话。基于Psy-Chronicle,我们构建并开源了中国大学心理咨询长期对话数据集CPCD,包含100个学生档案、90,000条咨询对话。我们进一步构建了 CPCD-Bench,从三个维度评估模型的长视野校园咨询能力:会话级响应、长视野记忆回忆和时间因果推理。实验结果表明,CPCD 有效地提高了具有相同基础架构的模型的会话级响应生成和长视野记忆回忆。与此同时,时间因果推理的改进仍然有限,这表明事件链组织和因果解释是长期心理咨询模型的关键挑战。相关代码和数据可参见:https://github.com/EdwinUSTB/Psy-Chronicle
【英文摘要】In recent years, large language models have shown substantial potential in psychological support tasks. However, existing psychological counseling data mostly rely on single-turn question answering or short multi-turn dialogues, making it difficult to characterize how college students' psychological distress accumulates, interacts, and gradually evolves over long periods within campus life events.
📄 论文:https://arxiv.org/abs/2605.22140💻 代码:https://github.com/EdwinUSTB/Psy-Chronicle
8. TransitLM: A Large-Scale Dataset and Benchmark for Map-Free Transit Route Generation
【作者】Hanyu Guo, Jiedong Yang, Chao Chen et al.
【摘要】传统上,公共交通路线规划依赖于结构化地图基础设施和复杂的路线引擎,并且没有现有的数据集支持训练模型来绕过这种依赖性。我们展示了 TransitLM,这是一个包含来自中国四个城市的超过 1300 万条公交路线规划记录的大型数据集,涵盖 120,845 个车站和 13,666 条线路,作为连续预训练语料库和基准数据发布,用于具有互补指标的三个评估任务。实验表明,在 TransitLM 上训练的法学硕士能够以高精度生成结构上有效的路线,并隐式地将任意 GPS 坐标接地到适当的站点,而无需任何显式映射。这些结果表明,公交路线规划可以完全从数据中学习,从而可以直接根据出发地-目的地信息生成端到端、无地图的路线。数据集和基准可在 https://huggingface.co/datasets/GD-ML/TransitLM 获取,评估代码可在 https://github.com/HotTricker/TransitLM 获取。
【英文摘要】Public transit route planning traditionally depends on structured map infrastructure and complex routing engines, and no existing dataset supports training models to bypass this dependency. We present TransitLM, a large-scale dataset of over 13 million transit route planning records from four Chinese cities covering 120,845 stations and 13,666 lines, released as a continual pre-training corpus and benchmark data for three evaluation tasks with complementary metrics.
📄 论文:https://arxiv.org/abs/2605.22355💻 代码:https://github.com/HotTricker/TransitLM
9. Polite on the Surface, Wrong in Practice: A Curated Dataset for Fixing Honorific Failures in Multilingual Bangla Generation
【作者】Md. Asaduzzaman Shuvo, Mahedi Hasan, Md. Tashin Parvez et al.
【摘要】多语言大语言模型 (MLLM) 的最新进展显著增强了跨语言对话能力,但对文化细微差别和上下文相关的通信进行建模仍然是一个关键瓶颈。具体来说,现有的最先进模型在处理孟加拉语等资源匮乏环境中的结构变化、地区习语和敬语一致性时表现出严重的务实差距。为了解决这一限制,我们引入了一种新颖的、文化上一致的指令调整数据集,用于 BangLa 应用程序和 DialoguE 生成 - BLADE 和基准测试框架,其中包含 4,196 个精心策划的交互对。我们利用此资源系统地微调和评估领先的开放权重架构,包括 DeepSeek-8B 和 LLaMA-3.2-3B,通过 4 位 NormalFloat (NF4) 量化框架中的 LoRA 适配器进行参数高效微调。我们的实证评估表明,在我们的数据集上进行微调的模型在结构保真度和敬语对齐方面产生了显著的改进,为弥合低资源多语言文本生成中的实用差异提供了严格的基准。代码和数据集:https://github.com/ashuvo25/Bangla_Application_LLM/tree/main
【英文摘要】Recent advances in Multilingual Large Language Models (MLLMs) have significantly enhanced cross-lingual conversational capabilities, yet modeling culturally nuanced and context-dependent communication remains a critical bottleneck. Specifically, existing state-of-the-art models exhibit a severe pragmatic gap when handling structural variations, regional idioms, and honorific consistencies in low-resource contexts like Bangla.
📄 论文:https://arxiv.org/abs/2605.22487💻 代码:https://github.com/ashuvo25/Bangla_Application_LLM
10. SynAE: A Framework for Measuring the Quality of Synthetic Data for Tool-Calling Agent Evaluations
【作者】Shuaiqi Wang, Aadyaa Maddi, Zinan Lin et al.
【摘要】如今,工具调用代理通常在执行跟踪的静态数据集上进行评估或测试,包括输入命令、代理响应和关联的工具调用。然而,内部生产数据集通常不足或无法用于测试;例如,它们可能包含敏感或专有数据,或者它们可能太稀疏而无法支持全面测试(尤其是预部署)。在这些环境中,从业者越来越多地用合成数据集替换或增强真实数据集以进行评估。一个关键的挑战是量化这些合成数据集与真实数据之间的关系。我们引入了 SynAE,这是一个评估框架,用于评估多轮、工具调用代理的综合基准复制和增强真实数据轨迹特征的效果。 SynAE 评估四个指标类别的合成数据的有效性、保真度和多样性:(i) 任务指令和中间响应,(ii) 工具调用,(iii) 最终输出,以及 (iv) 下游评估。我们使用最新的代理基准测试来评估 SynAE,并通过现实且受控的生成方案测试常见的合成数据故障模式。 SynAE 检测数据有效性、保真度和多样性方面的细粒度变化,并表明没有任何单一指标足以充分表征合成数据质量,从而促进对代理测试的合成数据进行多轴评估。 SynAE 的演示位于 https://synae-2026-synae-demo.static.hf.space/index.html,代码位于 https://github.com/wsqwsq/SynAE。
【英文摘要】Today, tool-calling agents are commonly evaluated or tested on static datasets of execution traces, including input commands, agent responses, and associated tool calls. However, internal production datasets are often insufficient or unusable for testing; for example, they may contain sensitive or proprietary data, or they may be too sparse to support comprehensive testing (especially pre-deployment).
📄 论文:https://arxiv.org/abs/2605.22564💻 代码:https://github.com/wsqwsq/SynAE
🤖 机器学习
11. DualOptim+: Bridging Shared and Decoupled Optimizer States for Better Machine Unlearning in Large Language Models
【作者】Xuyang Zhong, Qizhang Li, Yiwen Guo et al.
【摘要】了 DualOptim+,一种新颖的优化框架,用于改善大型语言模型中的机器遗忘。它引入了一个基本状态来捕获通过忘记和保留目标而共享的共同表示,以及三角洲状态来保留特定于目标的残差。这种架构允许优化器根据遗忘和保留梯度之间的方向冲突自适应地桥接共享和解耦状态。我们进一步介绍 DualOptim+ 8bit,这是一种量化变体,可以在不影响性能的情况下减少内存开销。涵盖虚拟和现实世界的忘却、安全调整和多任务学习任务的实验表明,DualOptim+ 始终能够在不同目标之间实现卓越的权衡。代码可在 https://github.com/CityU-MLO/DualOptimPlus 获取。
【英文摘要】We propose DualOptim+, a novel optimization framework for improving machine unlearning in large language models. It introduces a base state to capture common representations shared by forgetting and retaining objectives and delta states to preserve objective-specific residuals. This architecture allows the optimizer to adaptively bridge shared and decoupled states based on the directional conflict between forgetting and retaining gradients.
📄 论文:https://arxiv.org/abs/2605.21539💻 代码:https://github.com/CityU-MLO/DualOptimPlus
12. AgForce Enables Antigen-conditioned Generative Antibody Design
【作者】Mansoor Ahmed, Murray Patterson
【摘要】抗体设计方法以抗原结构为条件来生成互补决定区 (CDR),但对基线方法的系统评估表明,它们在很大程度上忽略了抗原输入。我们确定了解释这种行为的三种故障模式。抗原盲症的出现是因为模型从抗体框架背景而不是抗原信息中得出预测,无论目标如何,都会产生几乎相同的 CDR。词汇表崩溃将预测的氨基酸减少到每个位置三到五个,远低于天然序列中的真实分布。此外,任何使用标准每个位置交叉熵训练的模型都会收敛到位置边缘分布,这使得它无法产生抗原特异性序列预测。我们提出了一种名为 AgForce 的新型编码器-解码器架构,它使用图神经网络(GNN)作为编码器和用于序列结构协同设计的专用解码器。具体来说,我们应用框架丢失、门控瓶颈和双曲交叉注意力来阻止抗体捷径。在解码器中,具有类似 Potts 成对耦合和退火多重选择学习 (aMCL) 的混合密度网络 (MDN) 序列头将交叉熵目标替换为最佳解决方案与位置边缘不同的多分量分布。抗原循环一致性头通过序列解码器路由梯度,迫使预测的分布编码抗原身份。 AgForce 在 CHIMERA-Bench 数据集上同时实现了最佳结合质量和序列恢复,与最强序列基线相比,氨基酸恢复率提高了 8%,同时超越了所有界面指标的基线,并且使 GNN 方法的有效词汇量几乎翻倍。源代码位于:https://github.com/mansoor181/ag-force.git
【英文摘要】Antibody design methods condition on antigen structure to generate complementarity-determining regions (CDR), yet a systematic evaluation of baseline methods reveals that they largely ignore the antigen input. We identify three failure modes that explain this behavior. Antigen blindness arises because models derive predictions from antibody framework context rather than antigen information, producing nearly identical CDRs regardless of the target.
📄 论文:https://arxiv.org/abs/2605.21610💻 代码:https://github.com/mansoor181/ag-force
13. The Illusion of Reasoning: Exposing Evasive Data Contamination in LLMs via Zero-CoT Truncation
【作者】Yifan Lan, Yuanpu Cao, Hanyu Wang et al.
【摘要】大型语言模型(LLM)在广泛的任务中表现出了令人印象深刻的推理能力,但数据污染破坏了对这些能力的客观评估。恶意模型发布者使用规避或间接污染策略(例如解释基准数据以逃避现有检测方法并人为提高排行榜性能)进一步加剧了这个问题。目前的方法很难可靠地检测这种隐形污染。在这项工作中,我们发现了一个关键现象:模型生成的推理步骤主动掩盖了其潜在的记忆。受此启发,我们提出了零 CoT 探针(ZCP),这是一种新颖的黑盒检测方法,它故意截断整个思想链(CoT)过程以暴露潜在的快捷映射。为了进一步将记忆与模型内在的解决问题的能力分开,ZCP 将模型在原始基准上的零 CoT 性能与同构扰动的参考数据集进行了比较。此外,我们引入了污染置信度,这是一种量化污染可能性和严重程度的指标,超越了简单的二元分类。对先前识别的污染模型和经过专门微调的污染模型进行的广泛实验表明,ZCP 可以稳健地检测直接数据污染和规避数据污染。 ZCP 的代码可在 https://github.com/Yifan-Lan/zero-cot-probe 访问。
【英文摘要】Large language models (LLMs) have demonstrated impressive reasoning abilities across a wide range of tasks, but data contamination undermines the objective evaluation of these capabilities. This problem is further exacerbated by malicious model publishers who use evasive, or indirect, contamination strategies, such as paraphrasing benchmark data to evade existing detection methods and artificially boost leaderboard performance.
📄 论文:https://arxiv.org/abs/2605.21856💻 代码:https://github.com/Yifan-Lan/zero-cot-probe
14. One LR Doesn't Fit All: Heavy-Tail Guided Layerwise Learning Rates for LLMs
【作者】Di He, Songjun Tu, Keyu Wang et al.
【摘要】学习率配置是现代深度学习的一个基本方面。在所有层上应用统一学习率的普遍做法忽视了 Transformer 的结构异质性,这可能限制了它们作为大型语言模型 (LLM) 骨干的有效性。在本文中,我们介绍了分层学习率(LLR),这是一种自适应方案,可为各个 Transformer 层分配不同的学习率。该方法基于重尾自正则化(HT-SR)理论,该理论描述了权重相关矩阵的经验谱密度(ESD)以量化重尾。重尾较弱的层被分配较大的学习率以加速训练,而重尾较强的层则被分配较小的学习率。通过以这种方式调整学习率,LLR 促进了跨层的平衡训练,从而实现更快的收敛并提高泛化能力。跨架构(从 LLaMA 到 GPT-nano)、优化器(AdamW 和 Muon)和参数规模 (60M-1B) 的广泛实验表明,LLR 实现了高达 1.5 倍的训练加速并优于基线,显着地将平均零样本准确率从 47.09% 提高到 49.02%。 LLR 的一个关键优势是其低调整开销:它直接从统一基线传输近乎最佳的 LR 设置。代码可在 https://github.com/hed-ucas/Layer-wise-Learning-Rate 获取。
【英文摘要】Learning rate configuration is a fundamental aspect of modern deep learning. The prevailing practice of applying a uniform learning rate across all layers overlooks the structural heterogeneity of Transformers, potentially limiting their effectiveness as the backbone of Large Language Models (LLMs). In this paper, we introduce Layerwise Learning Rate (LLR), an adaptive scheme that assigns distinct learning rates to individual Transformer layers.
📄 论文:https://arxiv.org/abs/2605.22297💻 代码:https://github.com/hed-ucas/Layer-wise-Learning-Rate
15. SepsisAI Orchestrator: A Containerized and Scalable Platform for Deploying AI Models and Real-Time Monitoring in Early Sepsis Detection
【作者】Santiago Ospitia, John Sanabria, John Garcia-Henao
【摘要】尽管临床机器学习文献中有很强的预测结果,但将这些模型转化为床边使用仍然受到系统级障碍的限制:异构数据表示、缺乏标准化部署工作流程以及研究原型与医院环境的并发和延迟要求之间的不匹配。我们推出了 SepsisAI-Orchestrator,这是一个开源模块化平台,可解决早期脓毒症检测的部署差距。该平台集成了受 HL7 FHIR 启发的临床文档架构 (CDA) 预处理、NoSQL 存储、通过 REST API 提供服务的容器化 LightGBM 分类器以及使用 Docker 和 Kubernetes 编排的 Streamlit 临床仪表板。先前验证的 LightGBM 模型(PhysioNet 2019 上的 F1 0.87-0.94)无需修改即可重复使用;贡献在于周围的基础设施及其在负载下的经验特征。使用具有 50-1000 个并发虚拟用户的 k6,我们发现副本计数必须与主机的物理 CPU 线程计数相匹配:在 12 线程 CPU 上从 3 个副本扩展到 12 个副本可将 p95 延迟从 3.3 秒减少到 1.41 秒(减少 57.3%),并消除所有请求失败,而过度配置到 24 或 48 个副本会因调度程序争用而降低性能。据我们所知,这种 U 形缩放行为之前尚未针对临床 AI 推理工作负载进行量化。我们不主张前瞻性临床验证。源代码和部署清单可从 https://github.com/nucleusai/sepsisai-orchestrator 获取。
【英文摘要】Despite strong predictive results in the clinical machine learning literature, the translation of these models into bedside use remains limited by systems-level barriers: heterogeneous data representations, the absence of standardized deployment workflows, and a mismatch between research prototypes and the concurrency and latency requirements of hospital environments.
📄 论文:https://arxiv.org/abs/2605.22331💻 代码:https://github.com/nucleusai/sepsisai-orchestrator
🧠 人工智能
16. OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind
【作者】Sharmin Sultana Srishty, Kazi Mahathir Rahman, Malaika Parizat Sakkhi et al.
【摘要】大型语言模型(LLM)在许多语言任务上表现良好,但它们的心智理论(ToM)推理在复杂的社会环境中仍然参差不齐。包括 ExploreToM 在内的现有基准测试并不总是测试使这些设置变得困难的递归信念和信息不对称。本文提出了 OSCToM(观察者-自我冲突心理理论),这是一种在基于 LLM 的 ToM 任务中对嵌套信念冲突进行建模的方法。关键情况是观察者对另一个主体的看法与观察者自己的信念状态相冲突。此类案例超出了简单的换位思考的范围,需要递归的、多层的推理。 OSCToM 结合了强化学习 (RL)、扩展的特定领域语言和组合代理模型来生成观察者与自我的冲突。在实验中,OSCToM-8B 在测试的系统中给出了最佳的总体结果。它改进了 FANToM 上报告的 ExploreToM 结果,并在 Hi-ToM 和 BigToM 上保持竞争力。在信息不对称的 FANToM 基准上,OSCToM 的准确率达到 76%,而 ExploreToM 报告的准确率为 0.2%。数据合成过程的效率也提高了 6 倍,这表明有针对性的训练数据可以帮助较小的模型处理高级认知推理。项目代码可在 https://github.com/sharminsrishty/osct 获取。
【英文摘要】Large Language Models (LLMs) perform well on many language tasks, but their Theory of Mind (ToM) reasoning is still uneven in complex social settings. Existing benchmarks, including ExploreToM, do not always test the recursive beliefs and information asymmetries that make these settings difficult. This paper presents OSCToM (Observer-Self Conflict Theory of Mind), an approach for modeling nested belief conflicts in LLM-based ToM tasks.
📄 论文:https://arxiv.org/abs/2605.20423💻 代码:https://github.com/sharminsrishty/osct
17. COAgents: Multi-Agent Framework to Learn and Navigate Routing Problems Search Space
【作者】Oleksandr Yakovenko, Mahdi Mostajabdaveh, Cheikh Ahmed et al.
【摘要】尽管车辆路径问题(VRP)对于许多现实世界的系统至关重要,但由于其组合复杂性,它们在大规模计算上仍然难以解决。传统的启发式方法依赖于手工制定的规则来进行局部改进,并偶尔跳跃以逃避局部最小值,但通常很难在不同的情况下进行泛化。我们引入了 COAgents,这是一种协作式多智能体框架,它将搜索过程建模为图形:节点代表解决方案,边缘对应于局部细化或多样化的大扰动(即跳跃)。部分搜索图(PSG)是在搜索过程中动态构建的,使COAgents能够训练节点选择代理和移动选择代理来指导强化,以及跳跃代理来触发对新区域的适时探索。与端到端学习方法不同,COAgents 将与问题无关的搜索控制与紧凑的特定领域编码清晰地分开,从而促进跨任务的适应性。对 CVRP 和 VRPTW 基准的实验表明,COAgents 与 CVRP 上的多个学习搜索基线相比仍然具有竞争力,并在更具挑战性的 VRPTW 实例上设定了基于学习的方法的新技术水平,相对于最强的神经求解器 (POMO),在 N\!=\!100 处与最著名解决方案的差距缩小了 14\%,在 N\!=\!50 处缩小了 44\%,并缩小了 21\%相对于 ALNS 分别为 40% 和 40%。代码可在 https://github.com/mahdims/COAgents 获取。
【英文摘要】Although Vehicle Routing Problems (VRP) are essential to many real-world systems, they remain computationally intractable at scale due to their combinatorial complexity. Traditional heuristics rely on handcrafted rules for local improvements and occasional jumps to escape local minima, but often struggle to generalize across diverse instances.
📄 论文:https://arxiv.org/abs/2605.20618💻 代码:https://github.com/mahdims/COAgents
18. Conflict-Aware Additive Guidance for Flow Models under Compositional Rewards
【作者】Xuehui Yu, Fucheng Cai, Meiyi Wang et al.
【摘要】推理时间引导采样通过将生成过程解释为可控轨迹来引导最先进的扩散和流动模型,无需进行微调。这提供了一种简单而灵活的方式来注入外部约束(例如成本函数或预先训练的验证器)以进行受控生成。然而,现有方法在同时组合多个约束时常常会失败,从而导致与真实数据流形的偏差。在这项工作中,我们确定了这种偏离流形漂移的根本原因,并发现近似误差随着梯度失准而严重缩放。基于这些发现,我们提出了冲突感知附加指导(g^car),这是一种轻量级且可学习的方法,它通过动态检测和解决梯度冲突来主动纠正流形漂移。我们在不同领域验证 g^car,从合成数据集和图像编辑到规划和控制的生成决策。我们的结果表明,g^car 有效地纠正了流形漂移,在使用轻计算时超越了生成保真度的基线。代码可在 https://github.com/yuxuehui/CAR-guidance 获取。
【英文摘要】Inference-time guided sampling steers state-of-the-art diffusion and flow models without fine-tuning by interpreting the generation process as a controllable trajectory. This provides a simple and flexible way to inject external constraints (e.g., cost functions or pre-trained verifiers) for controlled generation. However, existing methods often fail when composing multiple constraints simultaneously, which leads to deviations from the true data manifold.
📄 论文:https://arxiv.org/abs/2605.20758💻 代码:https://github.com/yuxuehui/CAR-guidance
19. Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment
【作者】Zhiqin Yang, Yonggang Zhang, Wei Xue et al.
【摘要】直接偏好优化 (DPO) 已成为人类反馈强化学习 (RLHF) 的流行替代方案,提供了等效的理论和更简单的实现。我们证明这种等价性是有条件的而不是普遍的,取决于实践中经常违反的隐含假设:RLHF 最优策略必须更喜欢人类偏好的响应。当这一假设失败时,DPO 会优化相对于参考政策的相对优势,而不是与人类偏好绝对一致,从而导致病态趋同,其中政策会减少 DPO 损失,同时更倾向于非偏好的响应。我们描述了这一假设何时被违反的情况,显示了不良解决方案空间的存在,并证明 DPO 和 RLHF 在这种情况下优化了根本不同的目标。为了解决这个问题,我们引入了约束偏好优化(CPO),通过可证明对齐的约束来增强 RLHF。我们进一步通过软利润排名提供了几何解释,揭示了 DPO 实施具有潜在负面目标的利润排名。我们的理论分析确定了 DPO 的保证何时成立,并提供了保持简单性并具有可证明一致性的解决方案。标准基准的综合实验表明 CPO 实现了最先进的性能。代码位于:https://github.com/visitworld123/CPO。
【英文摘要】Direct Preference Optimization (DPO) has emerged as a popular alternative to Reinforcement Learning from Human Feedback (RLHF), offering theoretical equivalence with simpler implementation. We prove this equivalence is conditional rather than universal, depending on an implicit assumption frequently violated in practice: the RLHF-optimal policy must prefer human-preferred responses.
📄 论文:https://arxiv.org/abs/2605.20834💻 代码:https://github.com/visitworld123/CPO
20. ScenePilot: Controllable Boundary-Driven Critical Scenario Generation for Autonomous Driving
【作者】Qiyu Ruan, Yuxuan Wang, He Li et al.
【摘要】安全关键场景是评估自动驾驶系统的核心,但它们在自然日志中的罕见性使得基于模拟的压力测试不可或缺。大多数场景生成方法将周围的代理视为对手,但它们要么(i)在没有明确建模车辆-道路物理限制的情况下引发故障,产生视觉上极端但物理上无法解决的碰撞,要么(ii)孤立地强制执行物理可行性或政策可行性,这可能会过度关注激进的机动或仍然与依赖于控制器的能力边界联系在一起。我们提出了 ScenePilot,一个以可行性为导向、边界驱动的框架,目标是边界带:原则上可以物理解决的场景,但仍然会导致部署的自治堆栈失败。我们将生成制定为约束多目标强化学习,将 RSS 派生的物理可行性评分与在线学习的 AV 风险预测器相结合,并引入步骤级可行性感知屏蔽,以保持探索接近可行性边界,同时避免不可行的工件。使用多个规划器在 SafeBench 上进行的实验表明,ScenePilot 在保持物理有效性的同时产生了显着更高的碰撞率(+6.2 个百分点),并且对这些边界带场景的对抗性微调持续降低了下游崩溃率。代码可在 https://github.com/QiyuRuan/ScenePilot 获取。
【英文摘要】Safety-critical scenarios are central to evaluating autonomous driving systems, yet their rarity in naturalistic logs makes simulation-based stress testing indispensable. Most scenario generation methods treat surrounding agents as adversaries, but they either (i) induce failures without explicitly modeling vehicle-road physical limits, yielding visually extreme yet physically unsolvable crashes, or (ii) enforce physical feasibility or policy feasibility in isolation, which can over-focus on agg...
📄 论文:https://arxiv.org/abs/2605.21168💻 代码:https://github.com/QiyuRuan/ScenePilot
🌐 多模态
21. Partition Tree Search Acceleration for VVC: Survey and Evaluation with VTM Evolution
【作者】M. E. A. Kherchouche, F. Galpin, T. Dumas et al.
【摘要】2020 年推出的通用视频编码 (VVC) 标准与前身高效视频编码 (HEVC) 相比,在同等视觉质量的重建视频下可节省 40-50% 的比特率,但代价是编码复杂性显着增加。编码复杂度的增长主要是由于添加了四叉树多类型树(QTMTT)划分结构,这增加了分割组合复杂度。本文对最先进 (SOTA) 分区加速技术进行了关键评估,该技术旨在降低 VVC 中分区搜索的复杂性。特别关注这些方法如何与 VVC 测试模型 (VTM) 的连续版本一起发展,VTM 是基准编码工具的参考软件。这些技术在适应 VTM 内部变化的背景下进行了分析,例如用于快速分区决策的更新启发式方法。该研究还强调了改善编码复杂性和压缩效率之间的权衡所面临的挑战。当评估不同 VTM 配置和多个软件版本的方法时,这一挑战变得更加明显。
【英文摘要】The Versatile Video Coding (VVC) standard, introduced in 2020, offers 40-50% bitrate savings for equivalent visual quality of reconstructed videos over its predecessor, High Efficiency Video Coding (HEVC), at the cost of significantly increased encoding complexity. This growth in encoding complexity is mainly due to the addition of the Quad Tree Multi Type Tree (QTMTT) partitioning structure, which increases the split combinatorial complexity.
📄 论文:https://arxiv.org/abs/2605.21526
22. PEMark: Watermarking API Responses Based on Proxy Gateways and Position Encoding
【作者】Yifei Zhou, Xianjun Gu, Xinyu Dai et al.
【摘要】API响应的数据泄露引起了广泛关注。 API 通常没有得到充分监管,因此很容易被滥用。一种常见的解决方案是将水印嵌入 API 响应中以实现可追溯性。然而,现有的水印方法通常需要修改数据库内容或API响应数据。这迫使业务系统代码发生变化,甚至可能因为数据值被改变而扰乱正常的业务运营。在本文中,我们提出了一种基于水印代理网关和PEMark(基于位置编码的水印)的原始可插入水印方案。我们方法的关键新颖之处在于利用了 JSON/XML 键值对排序中固有的排列冗余——这是一个被忽视的维度,它不携带语义信息,但却提供了丰富的编码能力。首先,我们将服务器响应转发到水印代理网关,这种设计不需要对现有业务系统进行零修改。然后,我们使用位置编码将水印嵌入到每个 API 响应中,这会在不更改任何数据值的情况下对键重新排序。据我们所知,这是第一个通过代理网关上的位置编码实现无失真 API 响应水印的工作。该方法不会修改任何数据值,因此在水印嵌入后正常的业务操作可以无缝地继续。实验结果表明,该框架在保证返回的API数据可追溯的同时,保持了业务可用性。与当前主流方案相比,该方法对篡改和插入攻击具有鲁棒性(100%相似度),并且可以抵御一定程度的删除攻击。
【英文摘要】Data leakage from API responses has drawn wide attention. APIs are often not fully regulated, making them easy to abuse. One common solution is to embed watermarks into API responses for traceability. However, existing watermarking methods often require modifying database content or API response data. This forces changes to business system code, and may even disrupt normal business operations because data values are altered.
📄 论文:https://arxiv.org/abs/2605.21865
23. VDE Bench: Evaluating The Capability of Image Editing Models to Modify Visual Documents
【作者】Hongzhu Yi, Yujia Yang, Yuanxiang Wang et al.
【摘要】近年来,图像编辑模型取得了重大进展,使用户能够通过自然语言指令以灵活、交互式的方式操纵视觉内容。然而,一个重要但尚未充分探索的研究方向仍然是密集的视觉文档图像编辑,其中涉及修改图像中的文本内容,同时忠实地保留原始文本样式和背景上下文。现有方法主要关注文本相对稀疏的英语场景和图像,因此无法充分处理密集、结构复杂的文档或非拉丁文字(例如中文)。为了弥补这一差距,我们提出了 VDE Bench(Visual Doc Edit Bench),这是一个经过严格人工注释和评估的基准,专门用于评估图像编辑模型在中英双语和复杂的视觉文档编辑任务上的性能。该基准包含 942 个基于指令的图像编辑样本的高质量数据集,其种子图像包含密集的中英文文本文档,包括学术论文、海报、演示幻灯片、考试材料和报纸。此外,我们引入了一种新颖的评估框架,可以系统地量化 OCR 解析级别的编辑性能,从而能够对文本修改准确性进行细粒度评估。基于这个基准,我们对代表性的图像编辑模型进行了综合评估。人工验证证明了人工判断与自动评估指标之间的高度一致性。 VDE Bench 构成了第一个用于评估图像编辑模型在双语密集文本视觉文档上的性能的系统基准。
【英文摘要】In recent years, image editing models have made significant progress, enabling users to manipulate visual content in a flexible and interactive manner through natural language instructions. However, an important yet underexplored research direction remains dense visual document image editing, which involves modifying textual content within images while faithfully preserving the original text style and background context.
📄 论文:https://arxiv.org/abs/2602.00122
📬 AI论文速递 · 每日更新 · 关注不迷路
💬 欢迎转发分享,一起追踪AI前沿
夜雨聆风