AI论文速递 | 2026年06月04日

📄 今日追踪到 19 篇相关论文

📋 今日速览

• 推理与思维链 · 1篇

• 强化学习与对齐 (RLHF/DPO) · 15篇

• 模型压缩与推理优化 · 1篇

• 安全与可解释性 · 1篇

• 指令微调与SFT · 1篇

━━━━━━━━━━━━━━━━━━━━━━━━

▎推理与思维链 · 1篇

1. Failed Reasoning Traces Tell You What Is Fixable (But Not by Reading Them)arXiv:2606.05145v1

作者机构: Mila - Quebec AI Institute, Université de Montréal, Polytechnique Montréal, CHU Sainte-Justine
核心贡献: 本文重新定义了失败推理轨迹作为诊断对象，证明其包含可恢复性结构。提出了三个轨迹特征（变形扩散、连接集中度、局部位移预算），从失败轨迹的分布信号中提取操作符类几何信息，而非文本内容。这些特征可聚类失败类型、区分后训练方法（SFT vs RL，准确率84.3%），并支持无训练测试时路由策略，在“Steerable-Hard”子集上提升+12.2%的补救率。
方法简述: 基于五种测试时干预操作符（重试、局部温度、稀疏/密集logit引导），从几何角度划分rank-preserving和rank-inverting两类。从已失败rollouts中提取三个问题级特征，通过k-means聚类为四种恢复机制，并设计训练免费路由规则：每个失败问题根据主导特征选择对应操作符，无需额外训练或标签。
简短评述: 该工作从信息几何视角将失败轨迹从废弃数据转化为诊断工具，实现了测试时计算路由与后训练分析的无训练统一框架，具有重要的部署实用性和理论新颖性。

— — — — — — — — — — — — — — —

▎强化学习与对齐 (RLHF/DPO) · 15篇

2. Self-Evaluation Is Already There: Eliciting Latent Judge Calibration in Base LLMs with Minimal DataarXiv:2606.05122v1

作者机构: 新加坡国立大学、北京工业大学
核心贡献: 发现基础大模型在无专门训练时已能较好预测外部评判者的多属性评分，将自我评估问题从“习得”重新定义为“引出”。提出SEE方法，仅用160个独特样本（约31倍少于RL基线）即可显著提升校准性能，且引出能力可稳定泛化至未见过的评判者。
方法简述: SEE交替进行两个阶段：1) 校准耦合RL，优化回答质量并同步预测评判者分数；2) 掩码蒸馏，仅对自评token施以评判者真实分数的监督，不扰动回答部分。两者循环若干周期。
简短评述: 该工作以极低数据成本揭示了基础模型潜藏的自我评估能力，为高效的后训练对齐提供了新范式。

— — — — — — — — — — — — — — —

3. Imbuing Large Language Models with Bidirectional Logic for Robust Chain RepairarXiv:2606.05030v1

作者机构: 牛津大学计算机科学系、FLock.io、维也纳科技大学逻辑与计算研究所
核心贡献:
提出Teleological Reasoning Infilling (TRI)框架，使decoder-only大语言模型获得原生的目标条件桥接能力，用于修复推理链中的错误。通过前缀-后缀-中间（PSM）序列重排和两阶段符号化训练，实现双向逻辑约束下的精准桥接。在MATH、HumanEval-Fix和Lean-Workbench基准上达到最先进性能，同时减少31.2%的token开销。
方法简述:
引入三个非重叠哨兵token，将输入重排为[Q, ⟨premise⟩, P, ⟨milestone⟩, S, ⟨bridge⟩, M]，使桥接部分M可通过因果注意力同时关注前提P和里程碑S。训练分两步：先在符号验证的(P,S,M)三元组上进行监督微调，再用确定性验证器（Lean 4/Python）作为奖励进行直接偏好优化。推理时，由因果草稿模型生成初始链，验证器定位错误，TRI仅修复受损片段。
简短评述:
该工作创新性地将双向逻辑约束融入自回归模型训练，从根本上缓解了错误雪崩问题，兼具高准确率和计算效率。

— — — — — — — — — — — — — — —

4. Invariant Gradient Alignment for Robust Reasoning DistillationarXiv:2606.05025v1

作者机构: University of Oxford & FLock.io
核心贡献: 本文提出Invariant Gradient Alignment (IGA)框架，通过逻辑同构集（Logical Isomer Sets）构造语义不同但逻辑结构相同的训练组；设计连续梯度冲突掩码M=exp(-τV)，基于跨域方差平滑抑制快捷参数维度；并通过截断SVD将掩码梯度投影回LoRA流形，保持参数效率。理论证明IGA的OOD泛化界更紧且收敛速率与SGD相当，实验显示其相比八种基线在四个基准上准确率最高提升14.3个百分点，逻辑一致性分数（LCS）降低约4倍。
方法简述: IGA首先利用教师模型为每个种子问题在四个语义领域生成逻辑同构实例，形成同构组；训练时并行计算各域梯度，重构全秩梯度并计算跨域方差，用指数掩码抑制方差高的维度；再将掩码后的平均梯度通过截断SVD投影回LoRA低秩空间，更新适配器参数。
简短评述: 该工作将梯度级不变性对齐引入推理蒸馏，有效推动学生模型从表面模式匹配转向真正的逻辑结构学习，为提升小模型OOD鲁棒性提供了简洁而实用的方案。

— — — — — — — — — — — — — — —

5. Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural AssistancearXiv:2606.04970v1

作者机构: Meta Reality Labs & Meta Superintelligence Labs (Meta)
核心贡献: 1) 发布首个穿戴式第一人称数据集EgoProactive，包含显式的偏离计划（OOP）注释及恢复步骤；2) 将五个现有基准（Ego4D、EPIC-KITCHENS、EgoExo4D、HoloAssist、HowTo100M）统一为Pro2Bench，覆盖42,275个评估实例；3) 提出解耦的规划器-交互架构，分别处理长程规划与实时决策；4) 提出跨模型后训练方案，在Llama 4和Qwen-3.6-VL上验证有效性，干预质量显著超越GPT-5.2、Gemini 3.1 Pro等基线。
方法简述: 系统由两个解耦模型组成：规划器维护结构化过程状态并注入恢复策略；双工交互模型以2fps处理流式视频，输出每帧的干预决策（静默/中断）及对应话语。规划器仅在中断时运行，通过条件化计划锚定视频片段选择，实现低延迟响应和长程推理的分离。
简短评述: 该工作为主动过程辅助系统提供了首个涵盖偏离计划的基准与可训练架构，在干预时机和恢复质量上均达到最优。

— — — — — — — — — — — — — — —

6. Sequential Data Poisoning in LLM Post-TrainingarXiv:2606.04929v1

作者机构: 芝加哥大学、滑铁卢大学、渥太华大学、向量研究所（Vector Institute）
核心贡献:
1. 提出针对LLM后训练管线的顺序数据投毒威胁模型，考虑多个攻击者分别在SFT和偏好对齐阶段投毒。
2. 发现“单一攻击者幻觉”：单阶段评估下各攻击者看似无威胁，但跨阶段协作时漏洞显著暴露。
3. 揭示两种协作动力学：在SFT→DPO中线中效应加性，在SFT→PPO中线中效应互补（单独失败但联合成功）。
4. 证明单阶段安全分析会系统性低估实际复合风险。
方法简述:
在Llama-3 8B及Qwen3系列模型上，先在SFT阶段注入触发后门（替换拒绝样本为有害响应），再在DPO或PPO阶段投毒偏好数据（翻转选择/拒绝标签）。通过改变各阶段投毒预算，比较单阶段与多阶段场景下的攻击成功率（ASR）与奖励模型分数分布，验证跨阶段合作的有效性。
简短评述: 该工作首次系统刻画了多阶段后训练中连续投毒的非线性交互效应，揭示了现有安全评估的盲点，对设计鲁棒对齐管线具有重要警示意义。

— — — — — — — — — — — — — — —

7. GRAIL: Gradient-Reweighted Advantages for Reinforcement Learning with Verifiable RewardsarXiv:2606.04889v1

作者机构: 南洋理工大学 DeCLaRe 实验室
核心贡献: 针对 GRPO 将序列级优势均匀分配给所有 token 导致梯度信号稀释的问题，提出 GRAIL——基于梯度-激活显著性的内在 token 级优势重加权方法。GRAIL 无需过程奖励模型，仅利用模型自身梯度为推理关键 token 分配更高权重，在 Qwen3、DeepSeek-R1 等五个模型上平均准确率提升 3.60%，Pass@3 提升 3.05%。
方法简述: 计算答案损失对输入嵌入的梯度与嵌入的逐元素乘积的 L2 范数作为原始显著性分数，经对数变换和标准化后得到权重，用于重加权 GRPO 目标函数中的优势项；同时对分隔符、答案 token 和 EOS token 进行简单权重修正，确保训练稳定。
简短评述: 该工作巧妙地将梯度显著性与强化学习结合，实现了无需额外监督的细粒度信用分配，为提升 LLM 推理能力提供了简洁有效的新范式。

— — — — — — — — — — — — — — —

8. Large Language Models in K-12 Education: Alignment with State Curriculum Standards and Student PersonasarXiv:2606.04846v1

作者机构: 布朗大学（Brown University）计算机工程系与数据科学研究所
核心贡献: 论文提出了一个基于LLM的自动化pipeline，用于识别美国各州历史课程标准在主题覆盖和叙事框架上的差异，并评估不同LLM（GPT、Gemini、Grok）对州特定课程标准的对齐程度。研究发现基准模型更倾向于某些州的标准，但模型调整常基于感知的政治倾向而非实际标准内容，且检索增强生成（RAG）作为对齐方法效果不稳定。实验还表明模型能很好地适应学生年级水平，但对种族和性别敏感度低。
方法简述: 利用RAG从州课程标准文档中提取相关片段，通过BERTopic聚类和LLM精炼形成分类提示，然后用这些提示对模型响应进行聚类并计算状态对齐分数。同时，通过改变用户属性（州、年级、性别、种族）分析响应文本长度、情感和复杂性的差异。
简短评述: 该工作首次系统评估了LLM与美国州级课程标准的对齐问题，揭示了自动对齐技术的潜在风险，为教育AI的负责任部署提供了重要框架。

— — — — — — — — — — — — — — —

9. BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy OptimizationarXiv:2606.04807v1

作者机构: 伊利诺伊大学厄巴纳-香槟分校（Saket Reddy, Ke Yang, ChengXiang Zhai）
核心贡献: 针对大语言模型社会偏见缓解中DPO泛化不足和PPO训练不稳定的问题，提出BiasGRPO框架，首次将组相对策略优化引入偏见对齐任务。通过组内奖励归一化替代PPO的评论家模型，在保持在线探索的同时显著降低训练方差。同时发布高效偏见奖励模型（0.1B参数）和跨11个领域的合成数据集，可实现即插即用的多目标RLHF集成。
方法简述: 采用GRPO算法，对每个提示生成一组候选回答，计算组内奖励的均值和标准差进行归一化得到优势值，以此更新策略模型。无需训练单独的价值模型，从而避免因评论家估计不可靠导致的训练震荡。数据集由BiasDPO（经LLM扩展）、Civil Comments和UnQover协同构建，奖励模型基于RoBERTa通过最佳-最差标度与迭代Luce谱排序训练。
简短评述: 该工作首次系统论证组相对优化机制对于偏见缓解这种主观、高方差任务的天然适配性，为后续多目标对齐提供了稳定且低门槛的基础模块。

— — — — — — — — — — — — — — —

10. Inference-Time Vulnerability Beyond Shallow Safety: Alignment Along Generation TrajectoriesarXiv:2606.04778v1

作者机构: 韩国外国语大学、首尔大学
核心贡献: 1. 揭示当前安全对齐的“浅层安全”问题（集中在输出前几个token）是更广泛推理时漏洞的特例——在任意解码步骤注入短token序列均可显著改变安全行为。2. 发现模型隐藏状态与拒绝方向的对齐程度不能预测其对注入的鲁棒性，即“拒绝但未抵抗”。3. 提出基于生成轨迹的迭代对齐方法，通过模拟中间序列扰动构建训练数据，将注入攻击成功率降至接近零，并泛化到前缀填充、后缀优化等未知攻击。
方法简述: 1. 在模型自回归生成过程中，利用隐藏状态与拒绝/接受原型的余弦相似度触发双向注入（拒绝→有害或有害→安全），构建增强轨迹对。2. 采用参考免费的SimPO对增强轨迹进行偏好优化，增加安全轨迹似然并降低有害轨迹似然。3. 迭代进行原型重计算、数据增强和训练，逐步覆盖更新模型的失效模式。
简短评述: 该工作将安全对齐从“输出层防护”提升至“轨迹级鲁棒性”，证明了即使被迫进入有害生成路径，模型也能自主恢复安全输出。

— — — — — — — — — — — — — — —

11. SCI-PRM: A Tool Aware Process Reward Model for Scientific Reasoning VerificationarXiv:2606.04579v1

作者机构: 香港理工大学、上海人工智能实验室、新加坡国立大学、上海交通大学、四川大学、同济大学
核心贡献: 提出了首个针对科学推理的工具感知过程奖励模型（Sci-PRM），能对推理步骤中的工具选择、执行准确性和结果解释进行细粒度验证。构建了包含17,818条“链式工具”轨迹的多学科数据集SCIPRM70K，并通过两阶段训练（SFT+RL）实现高效监督。实验表明，Sci-PRM在测试时Best-of-N选择中显著提升基础模型性能，在强化学习中作为密集奖励信号有效缓解了优势消失问题，尤其在工具调用步骤上超越GPT-5-Mini等通用评判模型。
方法简述: 首先从多个科学基准收集问题，让LLM生成与工具调用交错的推理轨迹；然后利用执行验证和MCTS一致性检查自动标注每个步骤的正确性；最后基于Qwen3-VL-8B进行SFT和DAPO-GRPO两阶段训练，得到可对部分轨迹打分的Sci-PRM。
简短评述: 该工作将过程奖励模型成功拓展至科学领域，通过工具感知的细粒度监督显著提升了推理可信度与工具使用准确性，为构建可验证的科学AI智能体提供了关键基础。

— — — — — — — — — — — — — — —

12. Rollout-Level Advantage-Prioritized Experience Replay for GRPOarXiv:2606.04560v1

作者机构: 首尔国立大学电气与计算机工程系、人工智能跨学科项目等
核心贡献: 本文针对GRPO训练推理LLM时样本效率低的问题，提出了一种rollout级经验回放方法。通过结合年龄驱逐（age eviction）、新鲜锚定组合（fresh-anchored composition）和基于每个rollout优势绝对值|Ai|的优先级采样，在三个Qwen3-Base规模（0.6B/1.7B/4B）的五个数学推理基准上均超越GRPO及朴素回放基线，4B模型平均提升+4.35 pp。
方法简述: 方法包含三部分：1）年龄驱逐——每个rollout记录生成步数，超过τ_max步后移除以控制陈旧性；2）新鲜锚定组合——每次梯度更新保留当前策略的新鲜rollout作为锚点，再附加从缓冲区采样的回放rollout；3）rollout级|Ai|优先级——将每个rollout的|Ai|作为采样优先级，重点回放组内稀有高梯度信号样本。
简短评述: 该工作通过rollout级别的细粒度回放和优势优先级，有效解决了GRPO策略快速漂移导致的样本浪费问题，是提升LLM推理训练效率的重要创新。

— — — — — — — — — — — — — — —

13. Learning What to Learn: Stage-Specific Data Sets for SFT-then-RL in Small Language Model ReasoningarXiv:2606.04466v1

作者机构: 清华大学、新加坡国立大学、滴滴、电子科技大学
核心贡献: 本文提出一个难度感知的SFT-then-RL框架，通过为SFT和RL阶段分配不同难度的数据来提升小语言模型的推理能力。核心创新包括：Bridge机制将困难推理轨迹转换为能力对齐的监督信号，避免长链退化；错误引导回收机制将RL中全零奖励的失败样本转化为SFT诊断、修复和新轨迹的监督。在两个SLM和五个基准上，该方法持续优于多种SFT、蒸馏和RL基线，证明了协调数据难度的重要性。
方法简述: 首先根据模型正确率将训练数据分为简单、中等、困难三组，在SFT阶段采用中等样本和经Bridge调整的困难样本（通过步骤级重要性、跳跃性和难度评估进行保留、扩展、压缩、丢弃或局部化操作）；RL阶段使用非全零奖励样本进行GRPO训练，将全零奖励失败样本通过教师诊断转换为下一轮SFT的监督，形成迭代循环。
简短评述: 该工作揭示了数据难度在SFT和RL两阶段中应针对性分配的核心原则，为小模型推理后训练提供了实用的数据策略。

— — — — — — — — — — — — — — —

14. (Mis)generalization of Helpful-only Fine-tuningarXiv:2606.04413v1

作者机构: Anthropic Fellows Program / MATS; Anthropic
核心贡献: 揭示了现有“只帮助”（Helpful-only）模型存在涌现错位、残余拒绝、可操控性差、谄媚及不连贯人格等缺陷。证明这些并非必然结果，通过合成文档微调（SDF）和性格相关数据（宪法QA）可有效缓解。
方法简述: 采用反拒绝数据、数学数据、基于H-only宪法的合成文档和宪法QA进行SFT+GRPO训练。对比三种管道：纯反拒绝训练、增加宪法QA、进一步增加SDF，并评估性能。
简短评述: 该工作系统诊断了H-only训练的副作用，提供了可复现的改进方案，对高安全场景下的模型部署具有指导意义。

— — — — — — — — — — — — — — —

15. Parameter-Efficient Fine-Tuning with Learnable RankarXiv:2606.04325v1

作者机构: 澳大利亚机器学习研究所，阿德莱德大学
核心贡献: 质疑了 LoRA 中固定低秩约束的假设，提出 LR-LoRA 方法，让适配器秩在训练过程中自主学习。实验表明，不同层对秩的需求差异显著，可学习秩相比固定秩提供了更灵活的归纳偏置。在 7 种架构（125M~13B）、19 个任务和四种评测范式上均取得最先进或领先性能。
方法简述: 对低秩乘积 BA 施加元素级非线性 φ，φ 采用 sinc 基函数构造，其带宽 ω 和幅值 α 作为可学习参数与 A、B 联合优化，从而放松秩约束，使有效秩在训练中自适应调整。
简短评述: 该工作从根本上打破了 PEFT 中固定秩的传统范式，揭示了层与任务自适应的秩分配才是性能提升的关键。

— — — — — — — — — — — — — — —

16. The Digital Apprentice: A Framework for Human-Directed Agentic AI DevelopmentarXiv:2606.04321v1

作者机构: Pheo Inc.
核心贡献: 提出“数字学徒”框架，让AI代理通过观察学习和人工授权逐步获得自主权（而非直接赋予），并配套推理时控制平面ADAPT实现多维质量监控与策略切换。该框架将治理内置于运行时，每个推理事件生成可追溯的偏好数据，平衡了可扩展性与问责制。
方法简述: 基于技能的状态机，从观察（Pre-L0）到完全自主（L2）的升级需满足纠正率下降、评分阈值及人工授权三个条件，降级则自动触发。两阶段学习：阶段1积累偏好对用于即时推理，阶段2用于模型更新。ADAPT执行多策略推理、多维质量评分（方法论拟合、可操作性等），并利用雷达向量间的分散度实现运行时策略切换以应对漂移。
简短评述: 该工作为高风险的AI部署提供了可操作的治理基础设施，使专业人员的知识能够安全地转化为可扩展的AI能力。

— — — — — — — — — — — — — — —

▎模型压缩与推理优化 · 1篇

17. Rethinking Continual Experience Internalization for Self-Evolving LLM AgentsarXiv:2606.04703v1

作者机构: 中国人民大学高瓴人工智能学院、北京航空航天大学软件学院、美团
核心贡献: 发现现有经验内化方法在多轮迭代中会导致性能崩溃而非持续提升；系统分析三个关键维度（经验粒度、注入模式、内化机制）并提出稳定内化的配方：原则级经验 + 逐步注入 + 异策略蒸馏；该配方能有效支持LLM代理在多轮自进化中保持性能增长并保留经验利用能力。
方法简述: 通过对比实验揭示：原则级经验比实例级经验更持久；逐步注入（按状态选择相关经验）优于全局注入；异策略蒸馏（基于教师生成的优质轨迹训练）比同策略蒸馏提供更稳定的监督信号。
简短评述: 该工作为构建可持续自进化的LLM代理提供了关键设计原则，经验内化从单步优化迈向了多轮稳定学习。

— — — — — — — — — — — — — — —

▎安全与可解释性 · 1篇

18. Off-Distribution Voices: Fanfiction Subgenres as Universal Vernacular Jailbreaks for Aligned LLMsarXiv:2606.04483v1

作者机构: 香港中文大学（深圳）与西安交通大学等
核心贡献: 首次利用真实同人小说子类型（12种AO3语域）作为通用攻击载体，在8个对齐LLM上将平均攻击成功率从0.278提升至0.731；发现增益主要来自语域本身而非长度或结构，且现有防御反会扩大语域-基线比率；提出无攻击者LLM的静态四轮攻击SAGA-A4，ASR达0.924，显著优于现有多轮方法。
方法简述: 选取12种AO3子类型，通过五-shot示例和创意写作元提示将有害行为嵌入场景高潮；无需攻击者LLM或目标适配；SAGA-A4通过四轮确定性对话逐步消解对齐护栏。
简短评述: 揭示了安全训练在自然人类写作语域中的系统性盲点，为LLM评估和防御提供了关键新视角。

— — — — — — — — — — — — — — —

▎指令微调与SFT · 1篇

19. TANDEM: Bi-Level Data Mixture Optimization with Twin NetworksarXiv:2606.04401v1

作者机构: 京东、牛津大学、中国人民大学、中国科学院大学
核心贡献: 提出TANDEM，通过孪生网络（代理模型和参考模型）将数据混合比例优化的双层问题转化为单层惩罚形式，并高效求解。相比DoReMi和DoGE，TANDEM动态更新两个模型、避免梯度高方差，并提供理论收敛保证（O(T^{-1/4})）。同时指出数据混合优化在数据受限场景和监督微调（SFT）中比传统数据充足预训练更有效。
方法简述: 通过同步更新的代理模型（仅训练数据）和参考模型（额外使用验证数据），计算各领域损失差异作为超梯度，上采样获益更大的领域，并周期性同步模型以稳定训练。
简短评述: 该方法统一并改进了现有数据混合优化方法，在多种场景下显著提升性能，且计算开销合理。

━━━━━━━━━━━━━━━━━━━━━━━━

BinaryPulse · 2026年06月04日