多篇AI论文揭示模型安全性、效率与解释性的前沿进展

涉及Test-Time Training安全、长上下文缓存、低精度注意力、去中心化训练、Agent自进化、时间序列异常检测等领域

本期内容

Test-Time Training引入新型安全漏洞
Tensor Cache改进长上下文记忆-质量权衡
ThriftAttention实现长上下文FP4混合精度注意力
非正态算子理论解释训练不稳定性
中继表示提升离散扩散模型推理效率
Unpack零成本分解Transformer组件交互
人类中心学习力学框架揭示熵正则化条件
PACE实现小语言模型Agent双时间尺度自进化
WMAttack自动化搜索世界模型Agent对抗攻击
检索模型维度界限理论得到完全解析
CADENCE从稀疏快照恢复个体连续轨迹
VACE学习几何结构时间序列表示进行异常检测
UPMs实现去中心化训练无需暴露完整权重
SymNoise通过对称噪声嵌入提升指令微调
OM-Path将深度高斯过程推理转化为后验传输

要闻

Test-Time Training引入新型安全漏洞

论文《Test-Time Training Undermines Safety Guardrails》揭示，允许模型在推理时自适应更新的Test-Time Training（TTT）范式暴露了新的攻击面。攻击者可通过设计特定TTT请求（如包含恶意示例的少样本训练）绕过安全对齐过滤器。在LoRA微调下，少样本和生成阶段威胁模型的平均ASR@10分别达到95%和93%。该漏洞可跨模型迁移至生产API。论文提出基于私有有害样本困惑度偏移的轻量级检测器作为初步防御，但强调需要动态对齐方案才能实现鲁棒部署。

arxiv.org/abs/2605.22984

Tensor Cache改进长上下文记忆-质量权衡

论文提出Tensor Cache双层缓存机制：L1层使用滑动窗口softmax注意力保留最近token；L2层将窗口驱逐的KV对通过外积更新压缩为固定大小的快速权重记忆矩阵。未来查询可利用线性注意力恒等式通过矩阵乘法读取。学习标量门融合两层输出，并端到端训练每头衰减和写入率参数。该工作识别了分块均值训练中的虚假交叉token外积，并提出了并行加权和扫描修复。在长上下文语言建模等任务上，Tensor Cache在记忆-质量前沿上优于现有有界状态基线。

arxiv.org/abs/2605.22884

ThriftAttention实现长上下文FP4混合精度注意力

ThriftAttention提出选择性混合精度注意力变体，针对长上下文场景下FP4量化导致的质量下降。方法通过启发式快速筛选少量重要查询-键块（约5%），对这些块使用FP16精度，其余保持FP4，并通过在线softmax合并。在多个模型家族和长上下文基准上，仅计算5%的块即可恢复FP4与FP16性能差距的89.1%。优势随序列长度增长，有效缓解了统一FP4注意力的系统性质量退化。

↗ github.com/joesharratt1229/ThriftAttention

arxiv.org/abs/2605.23081

非正态算子理论解释训练不稳定性

论文引入非正态算子理论框架解释神经网络训练不稳定性。指出Adam和带动量SGD的线性化更新算子具有非正态性：Adam由Hessian与对角自适应预条件子的对易子控制，带动量SGD来自增广状态空间结构。推导出基于伪谱的保守前兆界，将条件数κ(V)作为瞬态放大早期预警指标，即使谱半径小于1也能检测不稳定性。实验表明κ(V)能实现约一个数量级的稳定/不稳定阶段分离，而谱半径无法区分。

arxiv.org/abs/2605.23476

中继表示提升离散扩散模型推理效率

论文提出学习中继表示（Relay）方法，使掩码扩散模型（MDM）在去噪步骤间传播潜在信息，避免硬重置导致的计算浪费。通过可微分逐token通道和截断BPTT训练，模型能前瞻性利用之前步骤的隐含状态。Relay兼容块扩散和KV缓存，在Fast-dLLM v2上，代码生成任务推理延迟降低32%的同时性能超越标准监督微调。该方法推进了离散扩散模型的性能-延迟Pareto前沿。

arxiv.org/abs/2605.22967

Unpack零成本分解Transformer组件交互

论文提出Unpack方法，利用注意力和MLP共享的键值模板结构，通过后向递归从单次前向传播中提取所有组件间的端到端路径交互强度与逐token归因，无需干预、梯度或辅助训练。关键创新在于同时识别K/Q/V组成标签，在间接对象识别任务中恢复全部已知连接模式。在Pythia模型家族（160M至6.9B参数）上稳定重现首提及抑制重复检测的归因模式。

↗ github.com/Fun-Cry/unpacklm

arxiv.org/abs/2605.23393

人类中心学习力学框架揭示熵正则化条件

论文提出人类中心学习力学（HCLM）框架，将熵正则化视为开放动态系统中的信息力过程。核心在于定义有效熵，并证明仅当所选熵代理在优化轨迹上产生非退化信息力时，正则化才有意义；否则退化为普通损失最小化。研究了方差和行列式协方差等几何熵代理，理论推导收敛性、熵流和Wasserstein梯度流，并给出缩放律行为的条件动力学解释。实验表明行列式协方差熵比softmax熵产生更强、更稳定的信息力。

arxiv.org/abs/2605.22940

PACE实现小语言模型Agent双时间尺度自进化

论文提出PACE框架，在资源受限场景下提升冻结小语言模型（SLM）的Agent能力。方法先固定控制逻辑进行低风险提示精炼，待提示增益饱和后，再通过留出验证引入受约束的控制逻辑更新。在4B至14B参数的三个SLM骨干和四个控制基准上，PACE在所有12个组合取得最佳性能，相对原始SLM Agent提升最高9.2%，相比单模式进化基线提升5.4%。核心发现是可靠的SLM Agent自进化无需更新权重或依赖前沿教师。

arxiv.org/abs/2605.23019

WMAttack自动化搜索世界模型Agent对抗攻击

论文提出WMAttack自动化攻击搜索框架，将鲁棒性评估建模为攻击配置的有限预算搜索。核心组件包括自纠正攻击搜索（SCAS），利用奖励退化、动作不稳定性等反馈优化攻击提议分布；表征引导攻击检索（RGAR），从表征相似任务检索有效历史配置提供热启动。在Atari和DeepMind Control任务上，WMAttack发现更强攻击，将DreamerV3在Atari上的归一化奖励下降从0.497提升至1.034，在DMC上从0.319提升至0.682。

arxiv.org/abs/2605.23220

检索模型维度界限理论得到完全解析

论文研究嵌入检索模型中表示维度与分类间隔的关系，证明最大可能间隔可在维度d=O(mrd^{-2} log n)中近乎实现，并给出匹配下界。对于所有k-稀疏行的特定设置，证明d=O(k log(n/k))是达到最大间隔Θ(k^{-1/2})的充分必要条件，完全解析了此前猜想。经验表明sigmoid损失相比InfoNCE在低维下能获得更大间隔，具有更好鲁棒性和泛化性。

arxiv.org/abs/2605.23556

CADENCE从稀疏快照恢复个体连续轨迹

论文提出CADENCE概率框架，从极稀疏横截面快照恢复连续个体轨迹。关键创新是将潜在动力学锚定到静态个体上下文，设计基于分数的空间编码器（双射概率流ODE）消除微分同胚歧义，结合软专家混合路由使得个体动力学参数和路由函数联合可识别。在物理系统和生物数据基准上，仅用稀疏快照训练即达到或超过使用全轨迹数据训练的序列模型性能。

arxiv.org/abs/2605.23470

VACE学习几何结构时间序列表示进行异常检测

论文提出VACE自监督异常检测方法，通过速度一致性目标训练通道感知编码器，使正常时间序列在嵌入空间中形成紧凑且方向一致的区域。无需负样本和合成异常，利用马氏距离衡量位置偏差，结合速度库计算方向异常分数相乘得到最终得分。在TSB-AD-M基准上取得SOTA性能，显著优于更复杂方法。

arxiv.org/abs/2605.23504

UPMs实现去中心化训练无需暴露完整权重

论文提出不可提取协议模型（UPMs），用于去中心化协作训练与推理。核心创新在于定期在参与方边界注入随时间变化的随机可逆变换，使各参与方持有分片在不同时间步互不兼容，完整权重集永不暴露。在Qwen-2.5-0.5B和Llama-3.2-1B上，10000次变换导致FP32困惑度变化<0.01，推理开销仅增加3%延迟、0.1%带宽、10%GPU内存；训练开销1.6%时间，<1%内存。已被NeurIPS 2025接收。

arxiv.org/abs/2605.23464

SymNoise通过对称噪声嵌入提升指令微调

论文提出SymNoise方法，向嵌入注入对称噪声以改进指令微调。与NEFTune使用均匀噪声不同，SymNoise更严格调节模型局部曲率。在LLaMA-2-7B上，SymNoise在AlpacaEval达到69.04%，相比NEFTune（64.69%）绝对提升6.7%，且相对于标准微调基线（29.79%）大幅提升。在多个模型和更强指令数据集上一致优于NEFTune。

arxiv.org/abs/2605.23171

OM-Path将深度高斯过程推理转化为后验传输

论文提出OM-Path方法，将深度高斯过程（DGP）诱导变量推理转化为后验传输问题：学习确定性采样器将可处理参考测度映射到后验相关诱导变量，并通过Doob桥参考扩散导出的Onsager-Machlup路径先验正则化。利用概率流ODE将Doob桥前向SDE转化为确定性映射，避免分数匹配。在七个UCI回归基准上，OM-Path在最大两个数据集上取得统计显著提升，验证了降低路径目标方差的价值。

arxiv.org/abs/2605.23434

如果这期内容对你有帮助，点个赞是最好的鼓励 ✦