多领域AI前沿论文速览:符号回归、长上下文推理与Agent安全等

涵盖符号回归参数优化、KV缓存压缩、离散扩散、LLM缩放理论、基准鲁棒性、图神经网络、强化学习策略、时间序列预测、Agent安全、LLM评估优化、对抗性多臂老虎机、本构模型设计、凸语言检测等最新研究

本期内容

SAGE-Fit提升符号回归参数优化精度
自适应质量分段KV压缩解决长上下文推理结构碎片化
VECTOR引入三路令牌路由改进KV逐出压缩
对比分布匹配提升离散扩散模型采样效率
香农缩放定律：将LLM训练建模为噪声信道
社会选择理论分析多任务基准被操纵难度
可扩展异构图神经网络用于电网最优潮流
基于得分的单步均值流策略优化
参数先验映射框架用于非平稳概率时间序列预测
多智能体系统中的归因差距：内存投毒伪装成模型失败
预算约束下多个LLM评审器的实例最优估计
Prudent-Banker实现对抗性延迟反馈下的安全稳健权衡
从图拓扑直接预测同步网络的稳定性景观
多智能体LLM设计物理约束本构模型
凸低资源口音鲁棒语言检测框架

要闻

SAGE-Fit提升符号回归参数优化精度

该论文提出SAGE-Fit框架，针对符号回归中内层参数优化因非线性算子导致非凸、局部求解器易陷入差局部最小值而误判正确结构分数的问题，利用符号表达式的结构和语义双重先验设计专门模块，提升参数拟合质量。作为即插即用模块，SAGE-Fit显著增强评估保真度并通用提升多种符号回归系统性能，推动更可靠的科学知识发现。

arxiv.org/abs/2605.23272

自适应质量分段KV压缩解决长上下文推理结构碎片化

该论文提出自适应质量分段（AMS）KV压缩方法，解决现有全局Top-k KV缓存选择导致连续推理块被严重驱逐（Region Wipe-out）的问题。AMS将KV缓存根据注意力质量空间分布自适应划分为多个段，为结构重要的推理段分配保证内存配额，而非进行token级竞争。同时引入指数移动平均（EMA）平滑机制避免段边界抖动。AMS是即插即用层，可无缝集成到现有KV压缩方法（如TOVA、Expected Attention等）和vLLM等分页KV服务框架中，不增加稳态注意力开销。实验证明AMS能有效缓解推理结构碎片化，提升长程推理任务的模型性能。

↗ github.com/EIT-NLP/AdaptiveMassSegment

arxiv.org/abs/2605.23200

VECTOR引入三路令牌路由改进KV逐出压缩

该论文提出VECTOR，一种即插即用模块，用于改进基于逐出的KV缓存压缩。核心创新在于引入三路令牌路由：保留、近似和逐出。通过结合基础评分器的重要性信号与离线校准的回归值估计的可重构性信号，VECTOR能够恢复在传统二元逐出下会不可逆丢失的有用值信息，同时保留关键向量以保证注意力路由的稳定性。实验表明，在中高压缩率下，该方法有效改善了模型质量与内存占用之间的权衡，尤其在严格的记忆预算下表现出明显优势。

arxiv.org/abs/2605.23258

对比分布匹配提升离散扩散模型采样效率

该论文提出对比分布匹配（CDM）框架，用于解决离散扩散模型中奖励倾斜分布的高效采样问题。核心创新是通过学习一个参数化的扭曲函数（twist function）来摊销顺序蒙特卡洛（SMC）推理的计算成本，利用正负样本进行训练，并使用离散扩散模型封闭形式的前向核重新设计梯度估计器。相比于需要昂贵蒙特卡洛近似估计最优扭曲函数的传统方法，CDM在推理时仅增加不到5%的额外计算开销，同时显著提升采样效率和样本质量，在毒文本生成、DNA序列设计、蛋白质设计和对齐等多个任务上超越现有基线。

arxiv.org/abs/2605.23346

香农缩放定律：将LLM训练建模为噪声信道

本文提出Shannon Scaling Law，将大语言模型训练建模为噪声信道中的信息传输，基于香农-哈特利定理。核心创新是将模型参数映射为信道带宽、训练token映射为信号功率，从而显式建模学习信号与内在噪声的交互。该定律揭示了LLM的香农容量：在不保持足够信噪比的情况下扩展模型规模或数据会放大噪声，导致性能从单调提升转变为U形退化。实验表明，该定律在多种扰动下优于经典标度律，并能准确预测未见模型性能，为理解缩放极限和模型容量设计提供了理论指导。

arxiv.org/abs/2605.23901

社会选择理论分析多任务基准被操纵难度

本论文从计算社会选择角度形式化分析了多任务基准测试的鲁棒性问题。将数据集视为选民、模型视为候选人，将基准专用训练（在训练数据中包含基准数据）建模为选举操纵中的shift bribery问题。证明了在Borda计数和平均胜率规则下，该操纵问题是NP难的。引入实例级鲁棒性度量——使目标模型登顶所需最小训练数据集数量，并推导了算术平均、中位数、平均胜率和成对多数规则下的表达式。在HELM框架下的MMLU和Open LLM排行榜的BIG-Bench Hard上进行实证评估，发现平均胜率规则最难被操纵，其鲁棒性显著高于其他规则，为设计抗操纵的benchmark提供了理论依据。

arxiv.org/abs/2605.23628

可扩展异构图神经网络用于电网最优潮流

该论文提出一种基于HydraGNN的可扩展异构图神经网络工作流，用于构建数据驱动的最优潮流（OPF）代理模型和基础模型。核心创新在于完整保留电网中母线、发电机、负荷、交流线路、变压器等异构节点和边的拓扑结构，而不是将其扁平化处理。工作流程支持在领导级超级计算机上进行分布式预处理、训练、超参数优化和下游微调。通过在三百万个覆盖14至13659个母线的异构图实例上进行超参数优化，获得了约160万参数的紧凑模型。在下游可行性分类和N-1事故回归任务中，微调预训练基础模型可在少量数据下提高精度、稳定训练、加速收敛，并降低适应成本。

arxiv.org/abs/2605.23194

基于得分的单步均值流策略优化

本文提出SOM（基于得分的一步均值流策略优化）方法，一种用于在线强化学习的演员-评论家算法。核心创新在于直接从Q函数通过得分估计和概率流ODE构建目标速度场，从而替代传统MeanFlow依赖目标分布样本的方式。该方法将概率质量集中到高价值模式上，实现单步动作生成，显著降低在线RL中推理和训练的计算开销，在运动控制任务上达到最先进性能，对于多步去噪不切实际的实时应用有重要意义。

arxiv.org/abs/2605.23365

参数先验映射框架用于非平稳概率时间序列预测

该论文提出参数化先验映射（PPM）框架，用于非平稳概率多变量时间序列预测。核心思想是将参数化结构先验注入生成模型：先利用参数化估计器获得动态自适应先验，再通过可学习映射将该先验引导至复杂预测分布的建模。该方法兼具参数化方法的高效性和深度生成模型的表达能力，并通过混合目标函数训练，实现精确预测与良好校准的不确定性估计。相比现有方法，PPM在处理非平稳数据时取得了准确性与计算效率的更优权衡，被ICML 2026接收。

↗ github.com/ljl8336/PPM

arxiv.org/abs/2605.23402

多智能体系统中的归因差距：内存投毒伪装成模型失败

该论文提出Semantic Norm Drift (SND)概念，揭示多智能体系统中一种新型内存投毒攻击：攻击者通过正常上传策略格式文档到共享向量存储，利用信任洗钱链使其在跨会话中伪装成可信系统上下文，导致智能体将注入文档引用为规范权威并遵从，无需触发器或模型访问。实验表明59/65案例中智能体执行了违规操作，且四个安全分类器零检测。作者提出Counterfactual Composition Testing方法以87.5%准确率识别因果注入条目，以及Memory-Persistent Information-Flow Control在跨会话边界阻断97%攻击，解决了现有防御在信息性案例上全部失效的问题，并释放了首个具有时间持久性和多智能体组合的对抗性内存基准SND Corpus。

arxiv.org/abs/2605.22842

预算约束下多个LLM评审器的实例最优估计

本文针对固定预算下多个LLM评审器评估大量prompt-response对的问题，提出预算化异方差多评审器估计框架。核心是逆方差加权估计量（IVWE）及其实例最优分配策略，但该分配依赖未知方差。为此，作者提出EST-IVWE自适应算法，通过构造乐观有偏的方差估计来稳定经验分配，并证明其误差率与已知方差下的最优分配匹配（忽略低阶项）。理论贡献方面，使用Assouad-type期望论证得到匹配的局部极小化下界，从而建立算法的实例最优性。数值实验验证了相比均匀分配的优势，为成本高效的LLM评估提供了理论依据。

arxiv.org/abs/2605.23362

Prudent-Banker实现对抗性延迟反馈下的安全稳健权衡

PRUDENT-BANKER是一种针对对抗性多臂老虎机（含延迟反馈）的安全感知算法，旨在同时实现最小化最坏情况遗憾（伪遗憾O~(√T+√D)）和对指定安全基线策略的近乎常数遗憾（O~(1)）。其核心技术是将延迟自适应的在线镜像下降与改进的分阶段攻击机制结合，并创新性地引入延迟校准重启阈值：该阈值精确量化未观测反馈造成的最坏情况失真，可靠检测安全比较器的次优性，从而在保守探索与激进学习之间动态切换。这是首个在有无延迟场景下均达到最优安全-鲁棒性权衡的算法，理论下界证明其遗憾界不可改进（对数因子内）。实验证明其有效平衡安全与学习，优于标准延迟鲁棒基线。

arxiv.org/abs/2605.23351

从图拓扑直接预测同步网络的稳定性景观

本文提出一种新颖的上游任务——学习同步网络的动态稳定性景观，能够提供比传统标量稳定性指数更深入的同步行为洞察。核心技术是开创图到图像的预测范式：直接从图拓扑结构为每个节点预测图像状的目标（稳定性景观），该范式在文献中未见先例。模型采用GNN编码图拓扑、CNN解码生成每节点图像，端到端训练。基于概念振荡器模型构建了两个含10000个图的数据集（节点数20和100），并带每节点景观标签。实验表明模型在分布内精度良好，能泛化至不同图规模和真实电网拓扑，证明稳定性景观可通过拓扑学习获得，为生物学、神经科学和电网等领域超越标量稳定性指数提供新途径。

arxiv.org/abs/2605.23708

多智能体LLM设计物理约束本构模型

本文提出首个多智能体LLM驱动的方法用于生成物理约束的本构模型：Creator智能体根据数据生成模型，Inspector智能体针对九个物理约束进行审计，检测到违反时返回修改。在神经网络本构模型（CANN）上演示，以脑组织、实验橡胶和合成橡胶为基准，使用Claude Opus和Kimi K2.5作为LLM骨干。添加Inspector使满足所有约束的模型比例从91%提升至100%（Opus）和从37%提升至56%（Kimi），同时保持近基线精度和对外推路径的泛化能力。该方法将生成与审查分离，使LLM驱动的本构建模成为可信任的过程，且技术无关、可随LLM能力自动扩展，为自动化的物理感知模型发现开辟了道路。

arxiv.org/abs/2605.23754

凸低资源口音鲁棒语言检测框架

该论文提出Convex Language Detection (CLD)框架，将凸优化技术集成到口语对话系统流水线中。通过多GPU的交替方向乘子法（ADMM）高效实现，提供全局最优性保证和多项式时间快速训练。理论上证明凸目标函数具有认证的边际稳定性，并提供对抗特征扰动的保证。相比标准微调，该方法样本效率高、对低资源方言变异鲁棒，在挑战性低资源场景下达到97-98%准确率。开源包已在GitHub发布，为跨口音的口语AI系统公平性提供了原理性替代方案。

arxiv.org/abs/2605.23235

如果这期内容对你有帮助，点个赞是最好的鼓励 ✦