AI研究周报:单细胞扰动、量化训练、黑盒攻击等15项前沿进展

涵盖大模型训练优化、强化学习、分子构象生成、动态图学习、AI安全与对齐等方向的最新论文

本期内容

CITE-VAE实现单细胞扰动预测
JacQuant：无STE量化感知训练框架
OTS提升黑盒对抗攻击查询效率
GO-Flow：几何流匹配生成分子构象
ERPD解耦强化学习样本效率与KL效率
BigMac打破多模态LLM训练帕累托边界
后训练模型能识别自身生成文本
LAVL解决离线条件强化学习错误泛化
SiST-GNN实现时空联合消息传递
行为可信三难困境证明
SAE-FD用稀疏特征蒸馏持续学习
MoDEX：法庭类比的不确定性感知分类
SafetyRepro揭露对齐基准排名不稳定性
Drop-Stable-Rampup：高质量数据调度策略
DeepSeekMath变体用于高频交易强化学习

要闻

CITE-VAE实现单细胞扰动预测

论文提出隐式动态因果生成模型CITE-VAE，联合建模潜细胞程序、扰动条件机制和时间演化。现有方法要么将扰动效应视为静态，要么只关注时间动态但未能恢复潜因果生成机制。CITE-VAE在Causal-3DIdent合成数据和真实CRISPR单细胞扰动数据上优于基线，对未见扰动泛化能力强。理论分析给出潜因果变量可辨识的条件。该工作为药物响应预测和生物机制发现提供了计算途径。

arxiv.org/abs/2605.25581

JacQuant：无STE量化感知训练框架

JacQuant通过学习轻量级数据驱动雅可比替代（对角或块对角结构）替代直通估计器，近似模型参数局部敏感性，稳定超低比特（≤2 bit）LLM训练。该框架兼容常见量化和方差缩减优化器，在前向量化器不变的情况下提升准确率。论文证明非凸目标下收敛，PL条件达到线性速率。在LLM基准测试中，JacQuant持续优于基于STE的QAT方法，额外开销可忽略，特别适合边缘和端侧推理。

arxiv.org/abs/2605.25469

OTS提升黑盒对抗攻击查询效率

论文提出Opportunistic Target Selection(OTS)轻量级包装方法，解决黑盒攻击中类漂移问题。OTS将无目标攻击在早期自动切换为有目标攻击，锁定当前得分最高的非真实类，无需修改架构或梯度访问。在SimBA、Square Attack和Bandits上验证，ResNet-50上成功率提升高达27个百分点，查询次数相对减少43%。基于梯度估计的攻击上效果冗余。该方法为资源受限场景下的对抗鲁棒性评估提供了零开销增强方案。

↗ github.com/Tariolle/opportunistic-target-selection

arxiv.org/abs/2605.25663

GO-Flow：几何流匹配生成分子构象

GO-Flow通过流形分解将分子构象生成过程对齐到分子几何结构，分为平移空间（线性最优传输）、旋转空间（SO(3)测地流）和构象空间（熵最优传输）。该分解注入几何归纳偏置，将生成路径与分子自由度（键长键角刚性、扭转角柔性）一致。相比将分子视为点云的现有扩散方法，GO-Flow仅需50步实现高保真采样，在GEOM-Drugs和GEOM-QM9上取得最优生成质量，兼顾精度与效率。

arxiv.org/abs/2605.25577

ERPD解耦强化学习样本效率与KL效率

论文提出极端区域策略蒸馏(ERPD)两阶段框架，解决LLM强化学习中的样本效率与渐进性能权衡。第一阶段在固定数据上弱约束离策略优化，贪婪提取信号；第二阶段在信任区域约束下将token级监督蒸馏到基础策略。关键发现是第一阶段大量KL散度花费在非必要漂移上，蒸馏可保留收益同时降低散度。在数学推理任务中，ERPD在强基座模型上突破在线策略平台，并可靠提升弱模型性能。

arxiv.org/abs/2605.25582

BigMac打破多模态LLM训练帕累托边界

BigMac提出依赖安全的嵌套流水线结构，将编码器和生成器计算嵌入原始LLM流水线内，将激活内存复杂度降至O(1)，同时LLM激活内存不变。该设计打破计算效率与内存使用的传统帕累托边界，实现二者同时优化，稳定内存随batch size增加。实验显示1.08×–1.9×训练加速。该方案为训练多模态大模型提供了实用的内存-计算权衡解决方案。

arxiv.org/abs/2605.25451

后训练模型能识别自身生成文本

论文发现经过后训练的语言模型能隐式识别自身生成的文本(on-policy)，表现为输出分布熵比off-policy低3-4倍。该效应部分源于模型内部对输入惊奇(input surprise)的表示，因果性地调节输出熵。例如在开放提示下，模型生成第一个token前就收敛主题不确定性。模型也能通过语言报告区分on-policy与prefill，但机制不同。该工作揭示了后训练如何塑造模型行为，对自感知AI系统与安全研究有潜在意义。

↗ github.com/asving/Learning-to-be-an-agent

arxiv.org/abs/2605.25459

LAVL解决离线条件强化学习错误泛化

论文识别目标条件值函数的错误泛化是离线GCRL的关键瓶颈，提出潜在对齐值学习(LAVL)框架，集成基于潜表示的值泛化与层次规划。LAVL在OGBench基准22个数据集中的20个上达到最优，尤其在长视野和轨迹拼接场景中显著优于现有方法。该方法无需额外值网络，通过对齐状态与目标潜表示纠正错误泛化，实现稀疏奖励下可靠奖励传播。

arxiv.org/abs/2605.25740

SiST-GNN实现时空联合消息传递

SiST-GNN提出同时空间-时间消息传递范式，将每个节点当前特征与循环隐藏状态配对，构建时间增强图并运行标准图卷积。该方法在单次消息传递中融合拓扑与演化信号，解决传统先时间后空间或先空间后时间导致的耦合不足。在链接预测任务上，SiST-GNN在9个公开基准上均取得新SOTA，领先最强先前方法109%-277%（固定分割）和68%-194%（实时更新）；在动态节点分类上也超越离散时间基线7%-22%，匹配连续时间方法。

arxiv.org/abs/2605.25548

行为可信三难困境证明

论文证明强化学习中存在行为可信三难困境：置信度门控自主策略无法同时最大化帮助性、最优校准和完全自主性。几何论证表明，在严格适当评分规则上添加非仿射自主激励会破坏严格适当性，智能体系统性地夸大置信度（Brier评分下膨胀量正比于wA/(2wC)），检测需要Ω(1/Δ²)次观测。主监督规则必然是非仿射，使不可能性无条件成立。论文提出承诺与领域分离两种解决路径，540组实验确认预测。

arxiv.org/abs/2605.25739

SAE-FD用稀疏特征蒸馏持续学习

论文提出SAE-FD方法，利用预训练稀疏自编码器将LLM密集激活分解为稀疏过完备基，在稀疏特征空间进行知识蒸馏正则化，减少表示纠缠。该方法相比权重/梯度/输出空间正则化方法更精准保护旧知识，同时减少对新任务学习的干扰。在多个持续学习基准和三种模型架构上，SAE-FD平均准确率达52.70%，后向迁移仅-0.46，显著提升了旧知识保持与新任务适应的平衡。

arxiv.org/abs/2605.25525

MoDEX：法庭类比的不确定性感知分类

论文提出法庭类比框架，将不确定性感知分类建模为类特定倡导者之间的结构化辩论，每个倡导者形成Dirichlet分布，浓度分解为共享证据和类特定倡导。Mixture of Dirichlet EXperts (MoDEX)单次前向传播预测法庭参数，实现高效不确定性量化。该方法提供可解释的不确定性估计，在不同基准上取得SOTA性能，弥合了现有单次UQ方法的可解释性差距。

arxiv.org/abs/2605.25616

SafetyRepro揭露对齐基准排名不稳定性

论文形式化配置条件性排名不稳定性：仅凭评估配置选择（提示模板、解码设置等）就能翻转模型在安全对齐基准上的相对排名。提出有限包络命题将可测量成对不一致率与严格排序反转可能性关联，并提供带提交戳的评估协议。在所有检查的对齐基准上均观察到严格反转失效模式，配置主效应解释大部分方差。该工作揭示基准结果并非不变事实，强调配置规范化对评估可重复性的重要性。

arxiv.org/abs/2605.25492

Drop-Stable-Rampup：高质量数据调度策略

论文扩展功能缩放定律引入数据质量维度，联合求解数据质量与批次大小调度渐近闭式解。揭示高质量数据双重作用：噪声受限区作为信号放大器（降低批次大小），信号受限区作为噪声抑制器（后期放置）。据此提出Drop-Stable-Rampup策略：质量转换时立即降低并稳定批次大小积累信号，再逐渐增加抑制终端噪声。在15B MoE模型上相比WSD和余弦衰减平均准确率提升1.70和2.98，数学推理基准上增益显著。

arxiv.org/abs/2605.25698

DeepSeekMath变体用于高频交易强化学习

论文将订单流不平衡状态特征与策略梯度强化学习结合，采用DeepSeekMath启发的分组感知优化方法(GRPO/GSPO)，通过分组归一化更新和向下风险塑造提升训练稳定性。在AMZN、AAPL、GOOG等资产回测中，策略方法相比Q-learning基线显著提高净平均盈亏、盈利比例和最大回撤。实验证明订单流信号是策略RL的有效状态表示，分组感知PPO变体优于价值型基线。

arxiv.org/abs/2605.25527

如果这期内容对你有帮助，点个赞是最好的鼓励 ✦