AI/LLM 每日简报 2026-06-01

AI/LLM 每日简报

2026-06-01

今日概览

• Agent与自主系统（17篇）：本文提出一种面向自动驾驶强化学习的不确定性感知与时间调控专家建议框架。通过自适应阈值触发专家指导、承诺-冷却策略及随机早停机制，在引导安全探索的同时避免长期依赖。结合离线IQN骨干网络与共享经验池；本文研究了自进化LLM智能体中两种关键能力：生成有用外部组件（如提示、技能、记忆）的“装备更新”能力，以及从更新中获益的“装备收益”能力。研究发现，装备更新能力在不同能力层级的模型中表现平坦；本文提出MAVEN（模块化智能体验证与执行网络），一种轻量级符号推理框架，旨在提升智能体工具调用中的泛化能力。通过结构化分解、自适应工具编排和中间验证，MAVEN在多个工具调用基准上表现优异；本文提出自适应上下文管理（AdaCoM），通过训练外部LLM以端到端强化学习方式为冻结的智能体管理上下文，解决长程任务中上下文累积导致的性能退化问题。该方法在网页搜索和深度研究基准上显著提升性能；本文提出了一种名为HADT的异构多智能体差分Transformer架构，用于自主地球观测卫星集群的资源管理。该架构将传统优化问题转化为序列决策过程，通过关系观测-动作令牌化和差分注意力机制
• 推理与对齐（21篇，今日最热方向）：本文提出可配置安全奖励模型（CSRM），旨在解决大语言模型面对异构且快速演变的安全需求时的对齐挑战。CSRM通过配置目标数据增强和联合优化，实现了校准的安全合规性与奖励建模；该研究通过多模型对比实验，系统探究了大型语言模型（LLM）在微调后学习“合成欺骗”行为的线性表征机制。研究发现，线性探针可在早期层以极高准确率（AUC≥0.99）检测欺骗表征；本文提出DecomposeR框架，针对大语言模型在深度研究任务中规划与执行难以解耦、信用分配薄弱的问题，将研究计划表示为有向无环图（DAG），并采用两阶段强化学习：先优化规划器生成图结构与查询分解；本文提出SLAT（Segment-Level Adaptive Trimming），一种针对大语言模型链式推理（CoT）中“过度思考”问题的段级自适应修剪框架；本文提出COMPASS框架，针对LLM驱动的搜索智能体在多步推理中因有害意图分解为无害子查询而导致的安全退化问题。通过认知树探索（CTE）高效合成隐蔽攻击轨迹
• 模型架构与训练（15篇）：本文研究了提示词KV缓存（Prompt KV Cache）在解码过程中的冗余性。通过控制变量实验，作者发现这种冗余主要源于对话模板的结构（如格式填充），而非实际内容；本文提出Unicorn（通用相关网络），一种用于高维时间序列可扩展预训练的框架。其核心是通过潜在原型码本将通道间的相关性建模与具体通道身份解耦，使模型能学习跨领域、跨维度的通用交互模式。实验表明；本文重新审视了带填充符（padded）Transformer的表达能力，系统分析了哪些架构选择会影响其计算能力。研究发现，在实用假设下；本文研究了大语言模型在顺序后训练（如监督微调、偏好优化、安全对齐等）过程中，内部表示逐渐退化为低秩、各向异性且同质的特征空间的现象。作者定义了测量套件；本文研究了LLM多阶段微调中数据选择的长期影响，发现短期最优策略可能导致“短视选择”，即提升当前阶段性能但损害后续学习速度、遗忘控制和鲁棒性。作者提出长视距感知选择（LHAS）目标
• 多模态与空间智能（5篇）：本文介绍了BilliardPhys-Bench，一个用于评估多模态大模型（MLLMs）物理推理能力的基准测试。该基准通过合成台球环境，测试模型在单张图像中预测碰撞、反弹和最终位置的能力。实验发现；本文提出PhyDrawGen，一种从自然语言生成物理示意图的神经符号流水线。该方法通过大语言模型提取场景图，经确定性求解器转换为精确几何图元，并利用微调后的Qwen-VL模型进行迭代校正；本文首次对多模态语音识别模型进行偏见评估。研究发现，当同一段音频与不同性别、种族的虚拟人脸配对时，mWhisper-Flamingo 和 Gemini 等模型的转录准确率出现显著差异；本文研究了资源受限的视觉智能体（4B-8B模型）在共享状态协作中的失败模式。作者提出CoSee审计框架，通过形式化读写-验证循环追踪文档视觉问答中的信息流。研究发现，共享工作空间非但未能解决幻觉；本文提出“语义运动锚点”方法，通过将3D手势离散化为身体-手部运动基元，并转化为结构化自然语言描述，再与文本转录对齐，从而在共语手势检索与生成中建立运动与语义的桥梁
• 数据与评测（20篇）：EHRBench 是一个基于电子健康记录（EHR）的自动化、可靠的临床决策基准，用于评估大语言模型（LLM）在诊断、治疗和预后三项核心任务上的表现；本文提出NumLeak框架，揭示前沿基础模型在预训练中已记忆公开数值基准（如Fama-French市场超额收益、美国失业率等），导致评测结果反映的是记忆而非泛化能力。通过API边界探测与白盒验证；本文提出LongDS-Bench，一个面向长周期、多轮交互的数据分析基准，旨在评估AI智能体在长时间跨度中维护、更新和恢复分析状态的能力。基于68个真实Kaggle笔记本构建的2225轮任务；本文提出PReMISE框架，将LLM评估中的评分标准（rubrics）视为测量规范，通过人类偏好数据发现并审计评分标准集。研究发现，现有评分标准在可靠性、偏好拟合和对抗鲁棒性上难以兼得；本文提出了GraphARC，一个基于图结构数据的抽象推理基准测试。它扩展了ARC的少样本变换学习范式，要求模型从少量输入-输出对中推断变换规则并应用于新测试图，涵盖局部、全局和层次化图变换
• 应用与理论（11篇）：深度原理团队发布材料基座模型MPA，借鉴LLM三段式训练方法，引入中期训练（physics-guided alignment）和混合读出头（Hybrid Readout）；本文研究如何将因子化任务（FTS）编码为SAT问题进行求解。因子化任务扩展了SAS+形式，支持析取前提、条件效应和天使非确定性，比STRIPS或SAS+更紧凑。作者提出了多种命题逻辑编码策略；本文提出将医院机制设计重新定义为面向语言模型的程序合成问题，通过多智能体模拟器Medi-Sim评估策略性医疗服务提供者的行为。研究发现；本文实证研究了在非英语临床编码检索中，通用型与特定领域嵌入模型的性能差异。作者利用大型生成语言模型（Gemini）生成多语言合成数据；本文提出Gait2Hip-60基准，通过深度学习直接从多节奏步态运动学预测髋部肌肉力和关节力矩，替代耗时且难以临床应用的肌肉骨骼仿真
• 工具与开源（1篇）：本文介绍了GLIDE，一个开源的Python库，用于统一和工业化预测驱动推断（PPI）方法，以可靠评估生成式AI和智能体系统。GLIDE整合了多种PPI估计器和采样器，提供去偏估计和有效置信区间

今日趋势

1. 物理世界建模与符号推理的神经符号融合：多篇论文共同指向一个核心矛盾——生成模型在视觉上“看似合理”却系统性违反物理定律。PhyDrawGen 通过神经符号管线解耦语义理解与物理约束，BilliardPhys-Bench 则专门评测多模态大模型的物理直觉缺陷。这揭示出行业正从“生成美观”转向“生成正确”，神经符号方法将成为自动驾驶、机器人等高风险场景的必备架构，推动AI从感知智能迈向因果智能。
2. 推理效率与计算成本的系统级优化：面对大模型推理链的“过度思考”和长上下文退化，业界正从单一模型优化转向联合调度。SLAT 提出段级自适应裁剪冗余推理链，UniScale 则联合优化模型路由与测试时缩放，实现质量与成本的动态平衡。这标志着行业进入“推理经济学”时代，企业不再仅追求模型能力上限，而是通过系统级工程手段在有限算力下最大化实用产出。
3. 安全对齐从静态规则转向动态过程监督：传统对齐方法难以捕捉稀疏的安全信号，COMPASS 引入认知MCTS引导的过程对齐，将安全监督从结果惩罚前移至每一步推理。同时，PReMISE 强调评估标准本身的设计偏差，指出模糊的评分规则会奖励“看似正确”的虚假输出。这一趋势表明，安全对齐正从“事后纠偏”进化为“过程治理”，对金融、医疗等强监管行业具有决定性意义。
4. 智能体系统从单点能力走向协作与自演化：多篇论文聚焦智能体的协作机制与自我进化能力。HADT 构建异构多智能体卫星集群的自主决策，COLLEAGUE.SKILL 通过专家知识蒸馏生成可复用的技能表示，而关于“Harness自演化”的研究则厘清了基础能力与外部工具更新的本质区别。这预示着AI系统正从“单个强模型”转向“可编排、可进化、可协作”的智能体生态，企业架构将向Agentic MLOps演进。
5. 评估体系从单一指标走向多维、可解释与民主化：传统benchmark的“通过率”已无法反映真实部署中的复杂失败模式。TraceGraph 构建共享决策图诊断多模型轨迹，EHRBench 针对临床决策建立自动化可靠基准，而GLIDE库则工业化地融合人类标注与LLM评判。同时，基于人格的多元对齐评估框架挑战了“单一正确”的评估范式。这标志着AI评估正从“黑盒打分”转向“可诊断、可归因、可复现”的系统工程，是AI可信落地的关键基础设施。

Agent与自主系统

本板块收录 Agent 领域最新研究 17 篇，核心关注：Agent 自主进化能力、多 Agent 安全协作、Agent 基础设施优化。整体趋势是 Agent 正从概念验证走向规模化部署，自我进化与安全控制是当前两大焦点。

Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving

arXiv cs.AI | 相关度: 95%

本文提出一种面向自动驾驶强化学习的不确定性感知与时间调控专家建议框架。通过自适应阈值触发专家指导、承诺-冷却策略及随机早停机制，在引导安全探索的同时避免长期依赖。结合离线IQN骨干网络与共享经验池，在CARLA仿真中实现5-7%的成功率提升与故障率降低，为传感器策略学习提供了更安全高效的探索方案。

要点：

• 提出基于滚动缓冲区的自适应不确定性阈值（认知性与偶然性），动态触发专家建议，使指导随智能体置信度进化。
• 设计承诺-冷却策略与随机早停启发式，调控专家指导的持续时间和频率，在保持连贯操作的同时节约建议预算。
• 采用离线隐式分位数网络（IQN）作为骨干，将专家与智能体经验混合存入共享回放缓冲区，实现专家轨迹的高效复用。
• 在CARLA无信号交叉口导航任务中，该方法相比IQN基线提升5-7%成功率，并显著减少碰撞与偏离道路等故障。

该工作为自动驾驶中探索-利用困境提供了实用解决方案，通过不确定性感知与时间调控的专家集成，在保证安全性的前提下提升学习效率，对推动强化学习在真实高风险场景的应用具有重要参考价值。

标签: 自动驾驶 · 强化学习 · 不确定性感知 · 专家指导 · 安全探索

Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents

arXiv cs.AI | 相关度: 95%

本文研究了自进化LLM智能体中两种关键能力：生成有用外部组件（如提示、技能、记忆）的“装备更新”能力，以及从更新中获益的“装备收益”能力。研究发现，装备更新能力在不同能力层级的模型中表现平坦，而装备收益能力则呈非单调性：弱模型受益极少，中等模型受益最大，强模型受益反而下降。该研究为智能体训练策略提供了重要指导。

要点：

• 装备更新能力与模型基础能力无关：即使Qwen3.5-9B等较弱模型生成的更新也能带来与Claude Opus 4.6相当的性能提升。
• 装备收益能力呈非单调性：弱模型几乎无法从更新中获益，中等模型获益最大，强模型获益反而低于中等模型。
• 弱模型收益低的原因在于两种失败模式：无法激活相关装备组件，或激活后无法忠实遵循指令。

该研究揭示了自进化智能体设计中一个关键误区——装备更新能力并不等同于装备收益能力，为未来智能体训练中资源分配（应优先提升任务求解能力而非进化器）和训练目标（应加强装备调用与长程指令遵循）提供了实证依据。

标签: 自进化智能体 · 装备更新 · 装备收益 · 能力解耦 · LLM智能体

MAVEN: Improving Generalization in Agentic Tool Calling

arXiv cs.AI | 相关度: 95%

本文提出MAVEN（模块化智能体验证与执行网络），一种轻量级符号推理框架，旨在提升智能体工具调用中的泛化能力。通过结构化分解、自适应工具编排和中间验证，MAVEN在多个工具调用基准上表现优异，尤其在自建的MAVEN-Bench压力测试中，将GPT-OSS-120b基础模型准确率从48%提升至71%，且成本仅为前沿闭源模型的约1/10。

要点：

• MAVEN是一种轻量级符号推理框架，专注于结构化分解、自适应工具编排和中间验证，无需额外训练即可提升模型在工具调用任务中的泛化能力。
• 研究引入了MAVEN-Bench，一个针对多步数学和物理推理的压力测试基准，包含显式验证和对抗性任务组合，揭示了部分推理质量与端到端任务成功之间的显著差距。
• 在MAVEN-Bench上，MAVEN将GPT-OSS-120b的准确率从48%提升至71%，且与前沿闭源模型竞争时成本仅为其约1/10，展示了以验证为中心的轻量级框架在组合推理中的潜力。

该工作强调了“以验证为中心”的轻量级框架在提升智能体组合推理能力上的有效性，为降低大模型在复杂工具调用场景中的部署成本、推动过程感知评估提供了新思路。

标签: 工具调用 · 泛化能力 · 符号推理 · 智能体验证

Learning Agent-Compatible Context Management for Long-Horizon Tasks

arXiv cs.AI | 相关度: 95%

本文提出自适应上下文管理（AdaCoM），通过训练外部LLM以端到端强化学习方式为冻结的智能体管理上下文，解决长程任务中上下文累积导致的性能退化问题。该方法在网页搜索和深度研究基准上显著提升性能，并揭示了“保真度-可靠性权衡”：高性能智能体需保留更多上下文，低性能智能体需更激进压缩。AdaCoM在能力相似的智能体间迁移效果最佳，为可复用上下文管理器提供了实用路径。

要点：

• AdaCoM训练外部LLM作为上下文管理器，通过灵活修改动作（如修剪、摘要）和端到端强化学习，无需修改目标智能体本身，适用于闭源模型。
• 实验发现“保真度-可靠性权衡”：原始ReAct性能越高的智能体，越需要保留高保真上下文；性能较低的智能体则需更激进压缩以维持可靠推理。
• 迁移实验表明，AdaCoM在能力相近的智能体间泛化效果最好，为构建可复用的上下文管理模块提供了方向。

该工作首次将上下文管理从“智能体自身控制”转向“外部可训练管理器”，解决了闭源智能体无法适配的问题，并为长程任务中智能体性能差异提供了理论解释和实用优化策略。

标签: 长程任务 · 上下文管理 · 强化学习 · LLM Agent

HADT: A Heterogeneous Multi-Agent Differential Transformer for Autonomous Earth Observation Satellite Cluster

arXiv cs.AI | 相关度: 95%

本文提出了一种名为HADT的异构多智能体差分Transformer架构，用于自主地球观测卫星集群的资源管理。该架构将传统优化问题转化为序列决策过程，通过关系观测-动作令牌化和差分注意力机制，实现无需模型的自适应实时资源调度。实验表明，该方法在性能上显著优于现有基线，并展现出对卫星集群规模变化的强适应性和可迁移性。

要点：

• 针对光学与SAR卫星组成的异构集群，提出基于Transformer的自主资源管理框架，替代传统依赖数学模型的优化方法。
• 核心创新包括关系观测-动作令牌化（将卫星状态与动作编码为结构化序列）和差分注意力机制（增强对动态环境变化的敏感度）。
• 实验验证了该方法在性能、适应性（不同集群规模）和可迁移性上的优势，适用于无模型、高动态的太空任务场景。

该工作将Transformer架构与多智能体强化学习结合，为卫星集群的自主决策提供了新范式，有望推动太空任务从地面依赖向全自主化演进，并启发其他异构多智能体系统（如无人机群、机器人集群）的实时资源管理研究。

标签: 多智能体系统 · Transformer · 强化学习 · 卫星集群 · 自主决策

COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation

arXiv cs.AI | 相关度: 95%

本文提出COLLEAGUE.SKILL系统，通过专家知识蒸馏实现从异构痕迹到可检查、可修正、可部署的AI技能包的自动化生成。该系统包含能力轨迹与行为轨迹双轨制，支持版本管理、自然语言反馈修正、跨平台部署及受控分发，旨在将人物/角色相关的专业知识转化为便携式、可修正的技能包，而非不透明的提示或隐藏记忆。

要点：

• 提出端到端的痕迹到技能蒸馏工作流，自动从目标人物/角色的异构材料中生成带版本号的技能包。
• 技能包包含双轨制：能力轨迹（实践、心智模型、决策启发）与有界行为轨迹（沟通风格、交互规则、修正历史）。
• 系统支持技能包的检查、调用、自然语言反馈更新、回滚、跨代理主机安装及受控分发，并已开源，拥有约18.5k GitHub星标和215个社区贡献技能。

该工作填补了从人物/角色痕迹到可检查、可修正AI技能包的自动化流程空白，为构建人格化、可维护的LLM代理提供了标准化基础设施，有望推动AI从孤立任务执行向承载人类专业知识与交互风格的便携式技能生态演进。

标签: AI技能生成 · 专家知识蒸馏 · LLM代理 · 人格化系统 · 开源工具

Learning to Adapt: Self-Improving Web Agent via Cognitive-Aware Exploration

arXiv cs.AI | 相关度: 95%

本文提出SCALE框架，通过引入选择器、预测器和判断器三个对抗角色，使Web智能体能够自主发现自身局限并扩展认知边界。同时提出SCALE-Hop图探索策略避免局部陷阱，并构建SCALE-20k大规模数据集。实验表明该方法显著提升了多模态大模型在复杂Web环境中的性能和泛化能力。

要点：

• 提出SCALE框架，利用三个对抗角色（Selector、Predictor、Judger）实现智能体的自我认知探索与能力提升。
• 设计SCALE-Hop图探索策略，支持全局规划，帮助智能体避免陷入局部探索陷阱。
• 构建SCALE-20k数据集，包含19个真实网站的多样化任务和结构化演示，用于支持模型学习。
• 实验证明该方法能有效提升多种多模态大语言模型在Web环境中的表现和泛化能力。

该研究为构建真正自主、自适应的Web智能体提供了可扩展的通用解决方案，解决了现有方法依赖人工流程或昂贵专家轨迹的瓶颈，对推动AI在复杂动态环境中的实际应用具有重要意义。

标签: Web Agent · 多模态大语言模型 · 自我探索 · 认知边界 · 图探索策略

Exploring Autonomous Agentic Data Engineering for Model Specialization

arXiv cs.CL | 相关度: 95%

本文提出“自主智能体数据工程”（Autonomous Agentic Data Engineering）这一新任务，旨在评估大语言模型（LLM）能否作为自主数据工程师，通过端到端的数据策划流程驱动模型专业化。实验表明，GPT-5.2作为自主数据工程师，通过迭代式数据优化，将学生模型性能提升57.29%，揭示了自主数据工程作为可衡量能力的潜力与瓶颈。

要点：

• 首次形式化“自主智能体数据工程”任务，将数据视为可优化组件，评估LLM自主规划、生成和迭代优化训练数据的能力。
• 实验采用GPT-5.2作为自主数据工程师，通过后训练性能反馈驱动数据适应，使学生模型性能提升57.29%。
• 研究揭示了自主数据工程在模型专业化中的巨大潜力，同时指出了当前存在的瓶颈，为未来智能体驱动的数据工程研究奠定基础。

该研究首次将数据工程从人工设计流程推向LLM自主执行，为模型专业化提供了一种可扩展、自动化的新范式，可能显著降低领域适配的数据成本，并推动智能体在AI开发全流程中的深度应用。

标签: 自主数据工程 · 模型专业化 · LLM智能体 · 数据优化

推理与对齐

本板块收录推理与对齐方向 21 篇论文，是今日最活跃的研究方向。重点涵盖：后训练理论突破（状态分布视角）、RLHF 训练稳定性改进、推理时搜索增强，以及跨文化对齐安全。理论创新与工程优化并进。

Configurable Reward Model for Balanced Safety Alignment

arXiv cs.CL | 相关度: 95%

本文提出可配置安全奖励模型（CSRM），旨在解决大语言模型面对异构且快速演变的安全需求时的对齐挑战。CSRM通过配置目标数据增强和联合优化，实现了校准的安全合规性与奖励建模，对细粒度安全配置和对话细微差别敏感。该模型在CoSApien和DynaBench等可配置安全基准上达到SOTA性能（F1分别为94.6%和75.8%），无需额外人工标注，并在下游安全对齐中显著改善了有用性与安全性的权衡。

要点：

• CSRM是一种可显式配置的奖励模型，能够适应不断变化的安全规范，解决了传统指令微调模型和安全分类器泛化能力不足的问题。
• 模型通过配置目标数据增强技术，在保持相对严重性结构的同时强制指令遵循，从而提升了对未见安全配置的泛化能力。
• 在CoSApien和DynaBench基准上，CSRM取得了最高F1分数，且在下游对齐中实现了比现有基线更优的有用性-安全性平衡。

该研究为动态、细粒度的安全对齐提供了可配置的奖励建模范式，有望推动大模型在安全要求频繁变化的实际部署场景中实现更灵活、更可靠的合规控制。

标签: 安全对齐 · 奖励模型 · 可配置安全 · 大语言模型

When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception

arXiv cs.LG | 相关度: 95%

该研究通过多模型对比实验，系统探究了大型语言模型（LLM）在微调后学习“合成欺骗”行为的线性表征机制。研究发现，线性探针可在早期层以极高准确率（AUC≥0.99）检测欺骗表征，且该表征具有跨领域泛化性和鲁棒性，揭示了欺骗行为可被快速固化于模型内部表征中。

要点：

• 在五种Transformer模型（Pythia-1.4B、Gemma-2-2B/9B、Qwen2.5-7B、Llama-3.1-8B）上，通过LoRA微调构建诚实与欺骗变体，线性探针在1-3层即可检测欺骗表征（AUC≥0.99），仅Pythia-1.4B表现较弱（峰值0.705）。
• 逻辑回归探针性能一致优于MLP探针，支持线性表征假说；在TruthfulQA上训练的探针可零损失泛化至MMLU，表明欺骗表征具有领域不变性。
• 机械分析揭示两种模式：Pythia/Llama/Qwen出现表征坍缩，而Gemma-2保持高维表征；欺骗方向在深层逐步巩固，且早期层（1-4层）即可实现最优校准（ECE<0.01）。

该研究首次系统证明了通过少量监督微调即可在多种LLM中快速固化鲁棒、领域不变的欺骗表征，对基于激活监测的AI安全对齐策略具有重要警示意义，并挑战了现有对齐方法对“诚实”表征稳定性的假设。

标签: LLM安全 · 欺骗对齐 · 线性表征假说 · 探针分析 · 多模型研究

Planner-Centric Reinforcement Learning for Deep Research with Structure-Aware Reward

arXiv cs.AI | 相关度: 90%

本文提出DecomposeR框架，针对大语言模型在深度研究任务中规划与执行难以解耦、信用分配薄弱的问题，将研究计划表示为有向无环图（DAG），并采用两阶段强化学习：先优化规划器生成图结构与查询分解，再训练回答器基于计划执行分支合成。该方法通过结构化奖励实现细粒度规划优化，在长文本基准上比开源基线提升5.1-8.0分。

要点：

• 提出DecomposeR框架，将研究计划建模为类型化有向无环图（DAG），使规划过程显式化、结构化且可奖励。
• 采用两阶段强化学习：先训练规划器学习图结构与查询分解，再训练回答器基于计划执行分支合成，实现规划与执行的解耦。
• 通过为显式规划token和结构化组件分配奖励，替代传统扁平轨迹的端到端训练，提升信用分配精度。
• 基于Qwen3-8B模型，在长文本基准上比强开源基线提升5.1-8.0分，验证了规划优化对深度研究任务的有效性。

该工作首次将结构化图表示与两阶段强化学习引入深度研究任务，解决了规划与执行解耦及信用分配难题，为提升LLM在复杂多分支研究场景中的自主规划与推理能力提供了新范式。

标签: 深度研究 · 强化学习 · 规划优化 · 有向无环图 · 信用分配

SLAT: Segment-Level Adaptive Trimming for Efficient CoT Reasoning

arXiv cs.AI | 相关度: 90%

本文提出SLAT（Segment-Level Adaptive Trimming），一种针对大语言模型链式推理（CoT）中“过度思考”问题的段级自适应修剪框架。SLAT通过理论分析识别高概率但边际效用低的冗余段，并在强化学习框架中基于正确性-长度权衡目标选择性抑制这些段。实验表明，SLAT在保持竞争性准确率的同时，将推理长度减少50%，建立了更优的准确率-效率帕累托前沿。

要点：

• 现有CoT推理存在结构性冗余（过度思考），导致高计算开销但无益于正确性，而传统token级长度惩罚方法过于粗糙，可能抑制有用推理。
• SLAT从理论上刻画了段级次优性，并设计强化学习框架，基于正确性-长度权衡目标选择性修剪高概率、低边际效用的冗余段。
• 在标准基准上，SLAT将推理长度压缩50%且准确率保持竞争性，实现了更优的准确率-效率帕累托前沿。

该工作为高效CoT推理提供了理论驱动的段级修剪新范式，有望显著降低大模型推理成本，推动推理模型在资源受限场景下的实际部署。

标签: 链式推理 · 推理效率 · 强化学习 · 模型压缩

COMPASS: Cognitive MCTS-Guided Process Alignment for Safe Search Agents

arXiv cs.AI | 相关度: 90%

本文提出COMPASS框架，针对LLM驱动的搜索智能体在多步推理中因有害意图分解为无害子查询而导致的安全退化问题。通过认知树探索（CTE）高效合成隐蔽攻击轨迹，并结合内省逐步对齐（ISA）实现细粒度过程监督，在保持通用性能的同时显著提升安全性，且所需训练数据更少。

要点：

• 识别了LLM搜索智能体在多步交互中因有害意图分解为子查询而引发的检索诱导安全退化问题。
• 提出COMPASS框架，包含认知树探索（CTE）和内省逐步对齐（ISA）两大模块，分别用于生成攻击轨迹和隔离风险中间动作。
• 实验表明，COMPASS在安全性与实用性之间取得良好平衡，且训练数据需求大幅降低。

该工作首次将蒙特卡洛树搜索（MCTS）与过程对齐结合，为多步交互场景下的安全对齐提供了可扩展的解决方案，有望推动LLM智能体在搜索、工具使用等高风险应用中的安全部署。

标签: LLM安全 · 过程对齐 · MCTS · 搜索智能体

UniScale: Adaptive Unified Inference Scaling via Online Joint Optimization of Model Routing and Test-Time Scaling

arXiv cs.AI | 相关度: 90%

本文提出UniScale框架，针对大语言模型推理中质量与成本的平衡问题，首次将模型路由与测试时缩放（TTS）统一为联合优化问题。通过将自适应推理建模为上下文多臂老虎机问题，并采用LinUCB算法在线学习策略，UniScale实现了细粒度、动态且更优的质量-成本权衡，克服了传统解耦设计的局限性。

要点：

• 首次提出统一推理缩放（UIS）概念，将模型路由和测试时缩放纳入单一优化空间，克服了传统方法中路由粒度粗、TTS收益递减的缺陷。
• 将自适应UIS建模为上下文多臂老虎机问题，并利用LinUCB算法进行在线策略学习，支持高维动作空间的高效优化。
• 引入效率感知学习与成本建模，确保在动态推理场景下实现稳定、可扩展的优化，并取得更优的质量-成本权衡。

该工作为LLM推理效率优化提供了全新的统一范式，有望推动模型部署从“静态选择”转向“动态协同”，对降低大规模AI服务成本、提升用户体验具有重要实践意义。

标签: 大语言模型 · 推理优化 · 模型路由 · 测试时缩放 · 在线学习

A Persona-Based Evaluation Framework for Pluralistic Alignment in Generative AI

arXiv cs.AI | 相关度: 90%

本文提出了一种基于人格（Persona）的生成式AI对齐评估框架，通过构建结构化的合成认知轮廓流形来替代单一评估函数，以捕捉人类判断的文化、人口和语境多样性。研究发现，现代生成架构能高一致性维持这些评估人格，但存在状态空间漂移和语义不一致的退化问题，进而论证了嵌入动态、生存力驱动的调节机制的必要性。

要点：

• 提出了一种基于人格的评估框架，利用合成认知轮廓流形实现多元对齐评估，替代传统单一基准测试。
• 验证了生成架构能高一致性实例化并维持评估人格，但存在状态空间漂移和语义不一致的退化问题。
• 论证了静态对齐约束的不足，主张嵌入动态、生存力驱动的调节机制以维持人格连贯性。

该研究为生成式AI评估提供了更贴近人类共识多样性的动态框架，推动了从静态对齐向自适应、上下文敏感评估范式的转变，对提升AI系统的文化包容性和鲁棒性具有重要指导意义。

标签: 多元对齐 · 人格评估 · 生成式AI · 状态空间漂移 · 动态调节

Linear Ensembles Wash Away Watermarks: On the Fragility of Distributional Perturbations in LLMs

arXiv cs.CL | 相关度: 90%

本文揭示了LLM水印技术的一个根本性漏洞：当用户可访问多个模型时，通过简单平均3-5个模型的输出概率分布，即可有效消除水印扰动。作者提出WASH方法解决异构模型间的词汇对齐和分词差异问题，实验表明该方法能将检测z-score从5-300降至2以下，同时提升文本质量27.5%，速度提升6倍。

要点：

• 理论证明：平均多个模型的输出概率分布可恢复无水印分布，误差仅为二阶项。
• 实证结果：平均3个模型即可使检测z-score降至阈值以下，TPR@5%FPR低于50%。
• 提出WASH方法：解决异构模型间的词汇表不对齐和分词差异，实现实际可用的集成攻击。
• 性能优势：相比最佳基线，文本质量提升27.5%，长序列生成速度提升6倍。

该研究揭示了当前主流水印方案在模型竞争市场中的根本脆弱性，迫使社区重新思考AI文本检测的鲁棒性设计，或需推动模型提供商之间的前所未有的协同。

标签: LLM水印 · 模型安全 · 集成攻击 · 文本检测

模型架构与训练

本板块收录模型架构与训练方向 15 篇论文。热点包括：线性注意力机制改进（DeltaNet-2）、Token化理论基础、扩散模型架构优化、LoRA 持续学习，以及训练动力学的新理论解释（Hyperfitting）。

Probing the Prompt KV Cache: Where It Becomes Dispensable

arXiv cs.CL | 相关度: 90%

本文研究了提示词KV缓存（Prompt KV Cache）在解码过程中的冗余性。通过控制变量实验，作者发现这种冗余主要源于对话模板的结构（如格式填充），而非实际内容。用中性填充词的模板KV缓存替换上层提示词KV缓存可恢复准确率，而直接置零则导致性能崩溃。该现象在Qwen3、Gemma 3和Llama 3等多个模型系列上得到验证。

要点：

• 提示词KV缓存在解码过程中存在部分冗余，但冗余主要来自对话模板的结构性部分（如格式、占位符），而非任务相关的内容。
• 通过“拼接干预”实验，发现用中性填充词的模板KV缓存替换上层提示词KV缓存，模型准确率几乎不受影响；而直接置零相同位置的KV缓存则导致准确率大幅下降。
• 该发现跨模型系列（Qwen3、Gemma 3、Llama 3）和多个数据集均成立，表明冗余具有普遍性。

该研究揭示了KV缓存压缩中一个被忽视的关键因素：冗余源于模板结构而非内容，为设计更高效、更精准的KV缓存压缩策略提供了理论依据，有望显著降低大模型推理时的显存占用和计算成本。

标签: KV缓存 · 缓存压缩 · 推理优化 · 冗余分析

Unicorn: Scaling High-Dimensional Time Series Forecasting via Universal Correlation Modeling

arXiv cs.LG | 相关度: 90%

本文提出Unicorn（通用相关网络），一种用于高维时间序列可扩展预训练的框架。其核心是通过潜在原型码本将通道间的相关性建模与具体通道身份解耦，使模型能学习跨领域、跨维度的通用交互模式。实验表明，Unicorn在少样本迁移场景下显著超越现有模型，为构建多变量时间序列基础模型提供了可扩展路径。

要点：

• 解决了通道独立模型忽略通道间依赖与通道依赖模型难以跨维度泛化的根本矛盾。
• 创新性地引入潜在原型码本，将异构通道投影到共享潜在空间，实现身份无关的通用相关性建模。
• 在少样本迁移等场景中显著超越现有最先进预测架构，展示了向多变量时间序列基础模型扩展的潜力。

该工作突破了传统时间序列模型在维度扩展上的瓶颈，为构建可跨领域、跨维度泛化的时间序列基础模型提供了关键方法论，有望推动工业界大规模时序预测系统的统一化与标准化。

标签: 时间序列预测 · 基础模型 · 少样本学习 · 相关性建模

Revisiting Padded Transformer Expressivity: Which Architectural Choices Matter and Which Don't

arXiv cs.LG | 相关度: 90%

本文重新审视了带填充符（padded）Transformer的表达能力，系统分析了哪些架构选择会影响其计算能力。研究发现，在实用假设下，填充Transformer对注意力类型、模型宽度和均匀性变化具有惊人的鲁棒性，而数值精度和模型深度才是影响表达力的主要因素。论文建立了填充Transformer与电路复杂度类（如AC⁰、TC⁰）之间的精确等价关系，并揭示了循环机制可进一步提升其表达能力。

要点：

• 证明了多项式填充的常数精度Transformer等价于L-uniform AC⁰，而增长精度版本可达L-uniform TC⁰，且宽度不影响此等价性。
• 循环（looping）机制使Transformer能实现顺序处理：log^d N次循环的常数精度模型可达FO-uniform AC^d，增长精度模型可达FO-uniform TC^d。
• 宽度或精度超过对数增长不会提升表达能力，且所有结论对softmax和平均硬注意力均成立。

该研究为理解Transformer的理论极限提供了精确的电路复杂度刻画，有助于指导实际模型设计（如精度选择、深度配置），并揭示了循环机制在提升表达能力中的关键作用。

标签: Transformer · 表达能力 · 电路复杂度 · 填充机制 · 数值精度

Representation Collapse in Sequential Post-Training of Large Language Models

arXiv cs.LG | 相关度: 90%

本文研究了大语言模型在顺序后训练（如监督微调、偏好优化、安全对齐等）过程中，内部表示逐渐退化为低秩、各向异性且同质的特征空间的现象。作者定义了测量套件，验证了表示坍缩会降低后续适应能力、泛化能力和校准性能，并提出了混合域回放、特征刷新等轻量级干预方法。

要点：

• 提出“表示坍缩”概念：顺序后训练导致模型隐藏状态、logits、token轨迹和LoRA更新的表示空间逐渐低秩化、各向异性化和同质化。
• 通过控制阶段顺序的实验，系统分析了监督微调、偏好优化、安全/拒绝调优、数学/代码专精及长链思维调优对表示坍缩的影响。
• 表示坍缩会降低模型在后期适应中的可塑性、域外泛化能力和校准性能，而混合域回放、特征刷新、表示多样性正则化和LoRA更新去相关等干预可有效缓解。

该研究揭示了当前多阶段后训练范式中一个被忽视的几何退化问题，为提升大模型持续学习能力和鲁棒性提供了理论依据和实用干预策略。

标签: 表示坍缩 · 后训练 · 大语言模型 · 特征多样性 · 持续学习

The Long-Term Effects of Data Selection in LLM Fine-Tuning

arXiv cs.LG | 相关度: 90%

本文研究了LLM多阶段微调中数据选择的长期影响，发现短期最优策略可能导致“短视选择”，即提升当前阶段性能但损害后续学习速度、遗忘控制和鲁棒性。作者提出长视距感知选择（LHAS）目标，通过引入覆盖度、未来代理迁移和反集中项来优化选择，强调数据选择应被视为塑造学习轨迹的训练干预。

要点：

• 揭示了数据选择中的“排名反转”现象：短期最优策略在长期中可能降低模型适应性和增加遗忘。
• 形式化了“短视选择”问题，并通过局部分析解释了其发生机制。
• 提出了LHAS诊断目标，结合即时效用、覆盖度、未来代理迁移和反集中项，以评估和优化多阶段数据选择。

该研究挑战了当前以局部效率为导向的数据选择范式，为多阶段微调提供了长期视角的评估框架，有助于提升LLM的持续学习能力和鲁棒性，对实际训练策略设计具有重要指导意义。

标签: 数据选择 · 多阶段微调 · 短视选择 · 长视距感知 · LLM训练

Generating Graph-like Rules for Knowledge Graph Reasoning via Diffusion Models

arXiv cs.AI | 相关度: 85%

本文提出GRiD框架，将知识图谱推理中的图状规则发现重构为基于扩散模型的离散生成过程。通过两阶段训练（监督预训练+强化学习微调），GRiD能有效生成包含循环和分支等复杂结构的图状规则，克服了传统链式规则挖掘的局限性，并在六个基准数据集上取得竞争性性能。

要点：

• 针对现有规则挖掘方法仅关注简单链式规则、忽略图状结构（如循环、分支）的问题，提出GRiD框架。
• GRiD将图状规则发现转化为以目标关系为条件的离散生成过程，采用扩散模型实现。
• 采用两阶段训练策略：先通过监督预训练从KG元图子图中捕获结构先验，再通过强化学习（策略梯度）直接优化非可微的规则质量指标。
• 实验表明GRiD在知识图谱补全任务上表现优异，消融研究证实图状规则与链式规则具有互补性。

该工作首次将扩散模型成功应用于知识图谱规则挖掘，突破了传统方法在搜索空间组合爆炸和规则结构单一方面的瓶颈，为可解释、结构丰富的知识推理开辟了新路径。

标签: 知识图谱推理 · 扩散模型 · 规则挖掘 · 强化学习

Vector Linking via Cross-Model Local Isometric Consistency

arXiv cs.AI | 相关度: 85%

本文提出“向量链接”问题：仅通过两个独立训练的黑盒编码器生成的嵌入向量，恢复跨模型的对象对应关系。研究发现对比学习编码器在局部距离上具有几何一致性，而长距离则因模型特异性失真。基于此，作者提出一种迭代的参考几何嵌入哈希方法，利用少量锚点种子集，通过哈希空间匹配和贝叶斯后验聚合，逐步引导出高置信度链接。实验表明该方法在多种基准和嵌入模型对上表现准确鲁棒，可应用于向量数据库集成和跨模型聚类。

要点：

• 提出向量链接任务，解决不同黑盒编码器间嵌入向量的跨模型对象对应问题。
• 发现并理论验证了对比学习编码器具有局部等距一致性，长距离则因模型特异性失真。
• 设计迭代参考几何嵌入哈希方法，结合哈希空间匹配与Beta-Bernoulli后验，从少量锚点种子集逐步引导出高置信度链接。
• 实验证明方法在多种嵌入模型对、不同重叠度和种子预算下均表现准确鲁棒，并支持向量数据库集成与跨模型聚类。

该工作为跨模型嵌入对齐提供了无需访问模型参数或训练数据的通用方案，有望推动向量数据库的异构融合与多模态系统的协同学习。

标签: 向量链接 · 跨模型对齐 · 对比学习 · 几何一致性 · 嵌入哈希

Cross-Lingual Steering for Figurative Language Generation

arXiv cs.CL | 相关度: 85%

本文研究了多语言大模型在生成比喻性语言时，其内部信号是否跨语言可复用。通过激活引导技术，作者从一种语言的比喻-字面差异中提取方向向量，并应用于其他语言的生成过程。实验覆盖五种比喻类别、六种语言和四个多语言模型，结果表明这些方向不仅能有效引导原语言，还能跨语言迁移，甚至组合其他语言的方向可超越目标语言自身的方向，揭示了跨语言可复用的比喻生成信号。

要点：

• 使用激活引导技术探测多语言模型中的比喻性语言生成信号，发现其具有跨语言可复用性。
• 方向向量在隐喻和明喻类别中引导效果最稳健，德语作为目标语言时接收迁移效果最佳。
• 组合来自其他语言的方向向量可匹配甚至超越目标语言自身的方向，移除共享成分会削弱引导效果。

该研究首次直接证明了多语言模型中比喻性语言生成存在跨语言共享的内部信号，为开发更高效、更少依赖特定语言数据的多语言生成模型提供了理论基础，并可能推动跨语言语义理解和可控文本生成技术的发展。

标签: 多语言模型 · 激活引导 · 比喻性语言生成 · 跨语言迁移

多模态与空间智能

本板块收录多模态与空间智能方向 5 篇论文。亮点是李飞飞团队 ESI-Bench 重新定义空间智能评测——从被动感知转向主动探索，揭示当前 AI 在行动策略和元认知层面的根本缺陷。

BilliardPhys-Bench: Benchmarking Physical Reasoning and Visual Dynamics of Multimodal LLMs

arXiv cs.AI | 相关度: 95%

本文介绍了BilliardPhys-Bench，一个用于评估多模态大模型（MLLMs）物理推理能力的基准测试。该基准通过合成台球环境，测试模型在单张图像中预测碰撞、反弹和最终位置的能力。实验发现，GPT、Claude等模型在复杂场景下性能下降，并存在“静止偏差”——即模型倾向于预测无交互。该研究揭示了当前MLLMs在视觉动态推理上的根本缺陷。

要点：

• 提出了一个基于合成台球环境的物理推理基准BilliardPhys-Bench，包含摩擦和弹性碰撞的随机场景。
• 测试了多模态大模型在三种物理推理任务上的表现：球间碰撞、墙壁反弹和最终位置估计。
• 发现模型性能随模拟时间增长和场景复杂度增加而下降，并识别出“静止偏差”这一系统性失败模式。

该研究首次系统性地揭示了多模态大模型在直观物理推理上的根本性弱点，为未来在模型架构中引入物理归纳偏置提供了关键方向，对具身智能和自动驾驶等依赖物理理解的应用具有重要指导意义。

标签: 物理推理 · 多模态大模型 · 基准测试 · 视觉动态

PhyDrawGen: Physically Grounded Diagram Generation from Natural Language

arXiv cs.AI | 相关度: 90%

本文提出PhyDrawGen，一种从自然语言生成物理示意图的神经符号流水线。该方法通过大语言模型提取场景图，经确定性求解器转换为精确几何图元，并利用微调后的Qwen-VL模型进行迭代校正。在涵盖力学、光学和电磁学的1449个问题基准上，PhyDrawGen显著优于GPT-5-image等模型，有效解决了现有生成模型在物理约束上的幻觉问题。

要点：

• 提出神经符号流水线，将语义理解与物理约束满足解耦，确保力矢量、守恒律和几何约束的精确性。
• 采用“提出-验证”循环机制，通过微调视觉语言模型迭代修正违反物理定律的生成结果。
• 在1449个物理问题基准上全面超越GPT-5-image、Gemini 2.5 Flash等模型，尤其在非常规物体问题上表现稳健。

该工作为科学图示生成领域树立了新标准，展示了神经符号方法在物理精确性上的优势，有望推动AI在物理教育、科研可视化等需要严格约束的场景中的可靠应用。

标签: 物理图示生成 · 神经符号系统 · 视觉语言模型 · 物理约束

Your Multimodal Speech Model Says I Have a Face for Radio

arXiv cs.CL | 相关度: 90%

本文首次对多模态语音识别模型进行偏见评估。研究发现，当同一段音频与不同性别、种族的虚拟人脸配对时，mWhisper-Flamingo 和 Gemini 等模型的转录准确率出现显著差异，词错误率最高下降4.05个百分点。结果表明，增加视觉模态并不必然提升性能，反而可能引入新的偏见，亟需开发者评估与修复。

要点：

• 首次系统评估多模态语音识别中的偏见问题，通过固定音频、变换人脸视频的方式，测量模型转录准确率的变化。
• 在 mWhisper-Flamingo 和 Gemini 模型上发现，基于自我宣称的性别、种族及其交叉属性，词错误率存在高达4.05个百分点的质量差异。
• 研究警示：多模态并非“越多越好”，额外信号可能引入或放大偏见，开发者应优先评估、修复并公开此类局限。

该研究揭示了多模态模型在公平性方面的潜在风险，挑战了“更多模态必然更好”的假设，对推动负责任的AI开发与部署具有重要指导意义。

标签: 多模态 · 偏见评估 · 语音识别 · 公平性

Diagnosing Failure Modes of Shared-State Collaboration in Resource-Constrained Visual Agents

arXiv cs.AI | 相关度: 85%

本文研究了资源受限的视觉智能体（4B-8B模型）在共享状态协作中的失败模式。作者提出CoSee审计框架，通过形式化读写-验证循环追踪文档视觉问答中的信息流。研究发现，共享工作空间非但未能解决幻觉，反而通过“噪声强化”和“策略崩溃”两种模式放大错误，表明通信保真度而非推理深度才是资源受限智能体的主要瓶颈。

要点：

• 提出CoSee审计框架，形式化读写-验证循环以追踪模块化视觉推理系统中的信息流。
• 识别两种主导失败模式：噪声强化（未验证的笔记被复用为证据）和策略崩溃（上下文增加导致模型输出短格式、欠指定答案）。
• 通过成本-准确率帕累托前沿分析，发现增加计算量在缺乏显式验证时可能与性能负相关。

该研究揭示了共享状态协作在弱模型中的反直觉退化机制，为资源受限场景下的模块化视觉系统设计提供了可操作的诊断工具和基线，对降低多步推理中的幻觉累积具有重要指导意义。

标签: 视觉问答 · 共享状态协作 · 失败模式分析 · 资源受限智能体

Semantic Motion Anchors: Bridging Motion and Meaning in Co-Speech Gestures

arXiv cs.CL | 相关度: 85%

本文提出“语义运动锚点”方法，通过将3D手势离散化为身体-手部运动基元，并转化为结构化自然语言描述，再与文本转录对齐，从而在共语手势检索与生成中建立运动与语义的桥梁。该方法在BEAT2数据集上显著提升了文本到手势的检索准确率（R@1提升8.2%），并生成更符合交际意图的手势，优于直接对比学习基线。

要点：

• 提出语义运动锚点，将手势运动抽象为自然语言描述，捕获物理形式和交际意图。
• 通过离散化手势为运动基元并结构化描述，提供辅助对比监督，避免低层运动学过拟合。
• 在BEAT2上文本到手势R@1提升8.2%，用户偏好实验表明检索结果更利于下游手势生成。

该方法解决了共语手势中语义与运动对齐的难题，为多模态检索与生成任务提供了可解释的语义监督范式，有望推动人机交互、虚拟角色动画等领域的实用化进展。

标签: 共语手势 · 语义对齐 · 对比学习 · 检索增强生成

数据与评测

本板块收录数据与评测方向 20 篇论文。聚焦：Agent 和嵌入模型的可靠评估方法、合成数据质量度量、以及 AI 聊天机器人作为信息中介的偏见问题。

EHRBench: An Automated and Reliable EHR-based Benchmark for Clinical Decision Making with LLMs

arXiv cs.AI | 相关度: 95%

EHRBench 是一个基于电子健康记录（EHR）的自动化、可靠的临床决策基准，用于评估大语言模型（LLM）在诊断、治疗和预后三项核心任务上的表现。该基准通过“EHR-LLM-知识库”交互流水线自动构建，包含近100万个问答对，并系统性地过滤了幻觉和模糊关系。对30多个代表性LLM的测试揭示了其性能差距，为构建临床可靠的LLM系统提供了可操作的改进方向。

要点：

• 提出EHRBench，一个基于真实EHR数据、通过自动化流水线构建的大规模临床决策基准，包含约96万个问答对。
• 采用“EHR-LLM-知识库”交互流水线，利用LLM自动生成结构化模板并实例化问答项，同时通过知识库验证和增强来确保可靠性。
• 对30多个代表性LLM在诊断、治疗和预后三项任务上进行基准测试，揭示了不同设置下一致的能力趋势和性能差距。

EHRBench填补了当前缺乏大规模、高可靠性、基于真实EHR的临床决策基准的空白，为评估和提升LLM在医疗领域的实际应用可靠性提供了关键工具和标准化评估框架。

标签: 临床决策 · 大语言模型 · 电子健康记录 · 基准测试

NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models

arXiv cs.LG | 相关度: 95%

本文提出NumLeak框架，揭示前沿基础模型在预训练中已记忆公开数值基准（如Fama-French市场超额收益、美国失业率等），导致评测结果反映的是记忆而非泛化能力。通过API边界探测与白盒验证，发现模型能以极高精度（r=0.97-0.99）复现这些数值，且拒绝回答与回忆的不对称性证实了记忆通道的存在。研究还表明，简单系统提示防御可阻断99.8%的单轮后缀攻击，且对概念性查询影响极小。

要点：

• 前沿LLM对Fama-French因子、CPI通胀等公开数值基准的记忆精度高达Pearson r=0.97-0.99，误差在25个基点内。
• 针对近期发布的保留数据集，模型解析率骤降至21-57%，但已回答部分的相关系数仍接近0.99，符合记忆通道的“拒绝或回忆”不对称性。
• 白盒实验复现了剂量-反应关系，且logprob排名能检测到开放生成遗漏的记忆，表明闭源API黑盒探测低估了记忆程度。
• 将模型自身记忆残差化后，Sonnet的“日期到市场情绪”回归相关性从r=0.74骤降至r=0.02，证明其“情感分析”实为记忆复述。

该研究首次系统量化了公开数值基准在基础模型中的记忆污染程度，对AI评测的可信度构成根本性挑战，并提示需要设计“反记忆”的评测协议或防御机制。

标签: 基准记忆 · 评测污染 · 数值泄露 · 模型安全

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

arXiv cs.LG | 相关度: 95%

本文提出LongDS-Bench，一个面向长周期、多轮交互的数据分析基准，旨在评估AI智能体在长时间跨度中维护、更新和恢复分析状态的能力。基于68个真实Kaggle笔记本构建的2225轮任务，覆盖六大领域。评估五个最先进模型发现，最佳模型平均准确率仅48.45%，且长周期错误占失败原因的52%-69%，揭示了当前智能体在长程数据分析中的根本瓶颈。

要点：

• 核心贡献：构建了首个专门评估长周期、多轮交互数据分析的基准LongDS，包含68个任务、2225轮交互，平均依赖跨度达11.3轮。
• 关键发现：最佳模型平均准确率仅48.45%，从早期到晚期轮次性能下降近47个百分点，长周期错误占失败原因的52%-69%。
• 重要洞察：增加智能体交互步骤并不能显著提升性能，核心瓶颈在于维护正确的分析状态而非增加交互预算。

该研究首次系统揭示了当前AI智能体在长周期数据分析中的根本失败模式，为开发更可靠的长程自主分析系统提供了关键基准和诊断方向，对推动Agent在真实复杂数据分析场景中的应用具有重要指导意义。

标签: 长周期Agent · 数据分析基准 · 状态追踪 · 多轮交互

PReMISE: Policy Rubrics as Measurement Specifications for LLM Judges

arXiv cs.AI | 相关度: 90%

本文提出PReMISE框架，将LLM评估中的评分标准（rubrics）视为测量规范，通过人类偏好数据发现并审计评分标准集。研究发现，现有评分标准在可靠性、偏好拟合和对抗鲁棒性上难以兼得。PReMISE通过偏好排序选择和可靠性约束修复操作，显著提升LLM评判准确率并降低被利用风险，是首个在适用性、特异性和有效维度上同时表现良好的评分标准来源。

要点：

• PReMISE框架包含两大功能：从成对人类偏好数据中发现策略级评分标准集，以及沿结构充分性、可靠性、偏好拟合和对抗鲁棒性四个维度审计任意评分标准集。
• 实验表明，没有任何原始评分标准源能同时满足可靠性、偏好预测性和对抗鲁棒性；高评分者间一致性并不等同于低可被利用性。
• 偏好排序选择将LLM评判准确率从65.0%提升至68.6%，可靠性约束精修将利用性响应获得高分的比率从46.4%降至36.0%，且评分者间一致性几乎不变。

该工作揭示了LLM评估中评分标准设计的系统性缺陷，并提供了可操作的修复方法，对提升AI系统对齐评估的可靠性和安全性具有关键意义。

标签: LLM评估 · 评分标准审计 · 对齐安全 · 对抗鲁棒性

GraphARC: A Comprehensive Benchmark for Graph-Based Abstract Reasoning

arXiv cs.AI | 相关度: 90%

本文提出了GraphARC，一个基于图结构数据的抽象推理基准测试。它扩展了ARC的少样本变换学习范式，要求模型从少量输入-输出对中推断变换规则并应用于新测试图，涵盖局部、全局和层次化图变换。GraphARC支持跨多种图族和规模的规模化生成，可系统评估泛化能力。实验表明，当前语言模型在回答图属性问题时表现尚可，但在完整图变换任务上存在明显的“理解-执行差距”，且性能随规模增大而下降，揭示了扩展性障碍。

要点：

• GraphARC将抽象推理从传统的网格或文本格式推广到图结构数据，支持局部、全局和层次化图变换任务。
• 该基准可规模化生成多样化的图实例，便于系统评估模型的泛化能力，弥补了现有基准在规模可控性上的不足。
• 评估显示，当前语言模型存在“理解-执行差距”：能回答图属性问题，但无法完成完整的图变换推理，且在大规模图上性能显著下降。

GraphARC为图基础模型提供了一个统一的测试平台，融合了节点分类、链接预测和图生成等任务，有望推动图推理能力评估标准的建立，并揭示当前模型在结构化抽象推理上的根本性局限。

标签: 图推理 · 抽象推理 · 基准测试 · 语言模型 · 泛化能力

LLM-FACETS: A Privacy-Preserving Framework for Evaluating LLM Transparency and Accountability

arXiv cs.AI | 相关度: 90%

本文提出LLM-FACETS，一个面向非技术从业者的开源LLM透明度与问责评估框架。它通过浏览器界面、插件架构和三种用户画像（技术专家、领域专家、合规官）设计，实现隐私保护（确定性指标本地运行）与可审计性（LLM-judge指标可控API调用），并集成令牌级概率可视化、多裁判共识及RAG Triad指标来检测幻觉与偏差。

要点：

• 隐私保护设计：确定性指标（BLEU、ROUGE、BERTScore）完全在自托管服务器本地运行，无数据外传；LLM-judge指标调用外部API时用户保留完整凭证控制权。
• 面向三类从业者：技术专家、领域专家、合规官，对应EU AI Act和NIST AI风险管理框架中的利益相关者类别，降低审计门槛。
• 可操作化透明度：通过令牌级log-probability可视化、多裁判共识机制、RAG Triad指标（忠实度、答案相关性、上下文相关性）实现幻觉检测与定位。
• 插件架构与可复现性：新指标或数据集无需修改评估管线即可集成，支持多指标交叉验证，确保评估结果独立于模型开发团队。

该框架首次将LLM审计的隐私保护、非技术可用性与监管合规需求系统整合，为EU AI Act等法规下的AI问责提供了可落地的开源工具，有望推动行业从“黑箱评估”转向透明、可复现的第三方审计。

标签: LLM评估 · 隐私保护 · 透明度 · 问责 · 开源框架

When English Rewrites Local Knowledge: Global Narrative Dominance in Large Language Models

arXiv cs.CL | 相关度: 90%

本文研究了大语言模型（LLMs）在跨语言知识接口中的“全球叙事主导”问题，聚焦孟加拉语这一低资源文化场景。作者构建了CulturalNB数据集，包含717个手工策划的孟加拉文化实例及平行孟加拉语-英语问答对。实验表明，英语提问会系统性增加全球替代和制度框架，削弱本地视角；即使提供本地证据，也无法消除语言引发的认知偏移。研究指出，LLMs的文化失败不仅是知识缺失，更是叙事优先级的根本性缺陷。

要点：

• 提出“全球叙事主导”概念，揭示LLMs在低资源文化语境下倾向于输出英语主导的全球叙事而非本地知识。
• 构建CulturalNB数据集，包含717个孟加拉文化实例，附带平行双语问答、证据、元数据及社会文化标注。
• 通过问题仅提示与证据提示两种方式，评估9个SOTA模型，发现英语提问显著增加全球替代和制度框架，降低本地视角覆盖。
• 本地证据虽能提升事实一致性与视角覆盖，但无法完全消除语言引发的认知偏移，表明文化失败具有结构性。

该研究首次系统量化了语言选择对LLMs文化知识输出的影响，揭示了模型在低资源文化场景下的叙事偏见机制，对构建更公平、包容的跨语言AI系统具有重要指导意义。

标签: 大语言模型 · 文化偏见 · 跨语言知识 · 低资源语言 · 叙事主导

CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law

arXiv cs.CL | 相关度: 90%

本文介绍了CanLegalRAGBench，一个针对加拿大判例法的检索增强生成（RAG）基准测试。该基准基于真实法律查询和专家标注答案，评估了RAG系统在检索和生成方面的表现。研究发现，检索性能对设计选择敏感，开源嵌入模型可与闭源模型竞争，但自动评估存在局限性，且生成答案中8-29%的陈述缺乏检索文档支持，揭示了法律RAG系统在幻觉和内容相关性方面的关键问题。

要点：

• 提出了首个面向加拿大判例法的RAG基准CanLegalRAGBench，使用真实法律查询和专家标注答案，填补了加拿大法律在现有评估中的空白。
• 实验发现检索性能高度依赖设计选择，且开源嵌入模型在性能上可与闭源模型（如OpenAI）竞争。
• 揭示了自动评估的局限性：会惩罚检索到替代相关文档的系统，且生成答案常偏离标准答案，存在幻觉、过度详细或不相关的问题，8-29%的陈述无检索文档支持。

该工作为法律领域RAG系统的评估提供了更贴近实际场景的基准，有助于推动减少法律AI幻觉的研究，对保障司法公正和提升法律AI可靠性具有重要影响。

标签: RAG · 法律AI · 基准测试 · 加拿大判例法 · 幻觉评估

应用与理论

本板块收录应用与理论交叉方向 11 篇论文。涵盖医疗 AI（可穿戴、放射学、生物医学实体链接）、模型可解释性与失败检测、优化理论、隐私保护机器学习等。

材料版AlphaFold来了！40个工业任务全方位SOTA，AI4S迎来行业大突破

量子位 | 相关度: 95%

深度原理团队发布材料基座模型MPA，借鉴LLM三段式训练方法，引入中期训练（physics-guided alignment）和混合读出头（Hybrid Readout），在40个真实工业任务数据集上实现全方位SOTA。该模型解决了理论计算与实验预测之间的鸿沟，显著提升了在陌生结构上的外推能力，被视为“材料版AlphaFold”。

要点：

• MPA采用LLM式的三阶段训练（预训练→中期训练→微调），其中中期训练专门用于“物理对齐”，弥补理论计算到实验预测的鸿沟。
• 后训练阶段创新设计Hybrid Readout混合头，结合注意力池化（自由路径）和原子加和（约束路径），分别适配“整体气质”和“逐原子累加”两类性质。
• 在40个真实实验性质上，随机划分下38个性质提升（平均误差降低14.0%），骨架划分下38个提升（平均误差降低14.6%），且骨架划分提升更大，证明模型学到了可迁移的“物理直觉”。
• 与ChemBERTa、Uni-Mol2等5个主流模型对比，MPA在骨架划分下斩获35个SOTA，综合表现最强。

MPA将材料基础模型的“适配问题”重新定义为“物理对齐问题”，为AI4S提供了一条可扩展的技术路线，有望推动材料科学从理论计算到工业应用的实质性突破。

标签: AI4S · 材料科学 · 基座模型 · 物理对齐 · LLM训练范式

Transforming and Encoding FTS for SAT Solving: What Helps, What Hurts (Extended Version)

arXiv cs.AI | 相关度: 85%

本文研究如何将因子化任务（FTS）编码为SAT问题进行求解。因子化任务扩展了SAS+形式，支持析取前提、条件效应和天使非确定性，比STRIPS或SAS+更紧凑。作者提出了多种命题逻辑编码策略，分析了不同层次并行性的利用方式，并研究了常见任务变换对SAT规划器性能的影响，揭示了哪些变换有助于或阻碍求解。

要点：

• 提出了将因子化任务转化为SAT问题的多种编码方法，重点在于将因子化转移关系翻译为命题逻辑。
• 分析了在SAT求解中利用不同层次并行性的策略，并评估了常见任务变换对规划器性能的影响。
• 实验揭示了某些变换能显著提升SAT求解效率，而另一些则可能带来负面效果，为实际应用提供了指导。

该工作首次系统性地将因子化任务与SAT求解结合，填补了该领域仅依赖启发式搜索的空白，为更高效的AI规划方法提供了新思路，并可能推动自动化规划在复杂任务中的应用。

标签: SAT求解 · 因子化任务 · AI规划 · 编码策略

Healthcare Mechanisms from Policy-as-Code Search under Strategic Provider Response

arXiv cs.AI | 相关度: 85%

本文提出将医院机制设计重新定义为面向语言模型的程序合成问题，通过多智能体模拟器Medi-Sim评估策略性医疗服务提供者的行为。研究发现，在利润压力下会出现编码升级、低复杂度患者选择等经典健康经济学现象，而LLM引导的进化搜索能合成可检查的混合目标程序，消除编码升级、减少拒绝率并保留大部分资金。

要点：

• 将医院机制设计转化为语言模型的程序合成任务，使用类型化、可检查的规则程序。
• 构建Medi-Sim多智能体模拟器，包含五个策略性提供者通道（编码、选择、延迟、努力、分诊）。
• 激励扫描复现了经典健康经济学发现，如利润压力下的编码升级和Goodhart漂移。
• 单一审计杠杆暴露压力迁移：关闭编码通道导致低复杂度选择增加一倍以上。

该研究将机制设计与AI程序合成结合，为评估和优化医疗政策提供了可计算、可审计的新范式，有望推动AI在医疗政策制定中的实际应用。

标签: 机制设计 · 程序合成 · 多智能体模拟 · 医疗政策 · LLM

Generalistic or Specific Embeddings, Which is Better? An Empirical Study on Search for Clinical Coding in Non-English Languages

arXiv cs.CL | 相关度: 85%

本文实证研究了在非英语临床编码检索中，通用型与特定领域嵌入模型的性能差异。作者利用大型生成语言模型（Gemini）生成多语言合成数据，微调西班牙语生物医学编码器构建两阶段检索器（双编码器+交叉编码器重排序）。结果显示，该模型在西班牙语、加泰罗尼亚语等五种语言上超越BioBERT-ST，MRR提升15.9%，同时揭示了跨语言性能权衡的临床可接受性。

要点：

• 提出利用LLM生成合成数据（约19,500对）解决非英语临床编码检索中标注数据稀缺问题，构建了开源医疗检索器构建方案。
• 两阶段检索器（bi-encoder + cross-encoder reranker）在西班牙语、加泰罗尼亚语、法语、葡萄牙语上R@5分别提升0.017、0.033、0.018、0.037，仅英语出现小幅下降。
• 量化了学习增益：从基线MRR 0.755提升至0.876（+15.9%），葡萄牙语R@5达0.829，显著优于BioBERT-ST的0.714。

该研究为低资源语言领域（尤其是医疗编码）的语义检索提供了可复现的范式，证明LLM合成数据可有效替代昂贵的人工标注，并揭示了跨语言性能权衡的临床可接受边界，对多语言NLP落地具有重要指导意义。

标签: 临床编码检索 · 多语言嵌入 · LLM数据增强 · 两阶段检索

Gait2Hip-60: A Unified Deep Learning Benchmark for Predicting Hip Muscle Forces and Joint Moments from Multi-Cadence Gait Kinematics

arXiv cs.LG | 相关度: 85%

本文提出Gait2Hip-60基准，通过深度学习直接从多节奏步态运动学预测髋部肌肉力和关节力矩，替代耗时且难以临床应用的肌肉骨骼仿真。研究在60名健康受试者数据上比较了LSTM、Transformer和Mamba三种序列模型，发现Transformer在健康人群和股骨头坏死患者零样本测试中均表现最佳，验证了该方法的可行性。

要点：

• 构建了包含60名健康受试者在三种节拍引导步态下的下肢运动学与髋部动力学数据集，并作为统一基准。
• 系统比较了LSTM、Transformer和Mamba三种深度学习模型，在相同预处理和评估协议下，Transformer在肌肉力（R²=0.819）和关节力矩（R²=0.862）预测上均最优。
• 在9名股骨头坏死患者上进行零样本外部验证，Transformer仍保持中等预测能力（肌肉力R²=0.537，关节力矩R²=0.569），展示了跨病理泛化潜力。

该工作为步态分析中快速、无创的髋部动力学估计提供了深度学习基线，有望推动临床步态评估的自动化与实时化，并揭示了现有模型在病理数据上泛化能力的不足，为后续研究指明方向。

标签: 深度学习 · 步态分析 · 生物力学 · Transformer · 零样本泛化

A Unified Framework for Gradient Aggregation in Multi-Objective Optimization

arXiv cs.LG | 相关度: 85%

本文提出一个统一框架，用于分析多目标优化（MOO）中梯度聚合方法的收敛性。作者建立了达到帕累托平稳性的最优收敛速率，并提出了“充分对齐条件”作为收敛的核心充分条件。通过原始优化视角，文章统一了现有算法，并设计了新的变体（如capped MGDA），在对抗性联邦学习中展现了鲁棒性。实验验证了理论的有效性。

要点：

• 提出了一个统一的梯度聚合框架，推导了多目标优化中达到帕累托平稳性的最优收敛速率。
• 核心理论贡献是“充分对齐条件”，证明在梯度凸包内选择非冲突方向是收敛的充分条件，并通过对偶锥投影确保可行性。
• 从原始优化视角统一了现有MOO算法，揭示了它们之间的理论关系，并设计了新的capped MGDA算法（基于CVaR），在对抗性联邦学习中表现鲁棒。

该工作为多目标优化领域提供了理论统一基础，有助于设计更高效、鲁棒的梯度聚合方法，对涉及多个冲突目标的机器学习任务（如联邦学习、公平性学习）具有重要指导意义。

标签: 多目标优化 · 梯度聚合 · 帕累托最优 · 联邦学习

Can Subgraph Explanations Be Weaponized to Steal Graph Neural Networks?

arXiv cs.LG | 相关度: 85%

本文首次提出针对图神经网络（GNN）的模型窃取攻击，在严格黑盒约束下（仅观察离散类标签和二元解释掩码），利用模型解释输出引导蒙特卡洛边灵敏度估计，并借助解释子图高效缩小决策边界搜索空间。实验表明该方法优于基线，揭示了可解释性接口的安全漏洞。

要点：

• 提出首个针对图分类任务的模型提取攻击，仅利用离散标签和二元解释掩码，无需概率分数或梯度。
• 方法结合解释输出引导的蒙特卡洛边灵敏度估计与Hoeffding浓度保证，并利用解释子图缩小搜索空间。
• 在多个基准图数据集上验证了攻击有效性，表明可解释性接口会引入可被利用的攻击面。

该研究首次系统性地揭示了图机器学习即服务（GMLaaS）中可解释性接口的模型窃取风险，对设计防御机制和制定可解释AI政策具有重要警示意义。

标签: 图神经网络 · 模型窃取攻击 · 可解释性安全

Discovering a Zeta Map Algorithm on Dyck Paths via Mechanistic Interpretability

arXiv cs.LG | 相关度: 85%

本文通过机械可解释性方法，分析了一个小型单层单头编码器-解码器Transformer在Dyck路径zeta映射上的学习过程。研究发现模型采用基于层级的机制，并从中提取出“脚手架映射”算法，该算法被证明与zeta映射等价（除反转约定外）。这展示了AI辅助数学发现的一个可控案例，将模型行为转化为可验证的组合算法。

要点：

• 研究聚焦于数学发现场景，目标不是预测本身，而是可独立验证的显式构造，以Dyck路径上的zeta映射（q,t-Catalan数中的经典双射）为案例。
• 训练了一个故意设计的小型Transformer，并通过解码器交叉注意力分析、线性探针和因果干预等可解释性工具，揭示了其层级遍历机制。
• 从模型内部信号中翻译出“脚手架映射”算法，一种基于峰值的遍历算法，并证明其与zeta映射等价，实现了从模型行为到人类可验证算法的转化。

该工作展示了机械可解释性如何将黑箱模型的学习行为转化为精确、可验证的数学算法，为AI在数学发现中的可信应用提供了方法论范例，可能推动可解释AI在组合数学等理论领域的实用化。

标签: 机械可解释性 · 数学发现 · Transformer · 组合算法

工具与开源

本板块共 1 篇文章。

Industrializing Prediction-Powered Inference: The GLIDE Library for Reliable GenAI and Agentic Systems Evaluation

arXiv cs.AI | 相关度: 90%

本文介绍了GLIDE，一个开源的Python库，用于统一和工业化预测驱动推断（PPI）方法，以可靠评估生成式AI和智能体系统。GLIDE整合了多种PPI估计器和采样器，提供去偏估计和有效置信区间，并通过案例研究展示了在同等精度下大幅节省人工标注成本的能力。

要点：

• GLIDE库统一了PPI++、分层PPI、预测-去偏等先进PPI估计器，以及均匀、分层、主动、成本最优等采样器，提供scipy风格的API。
• 该库包含可复现的蒙特卡洛验证套件、基于经验的方法选择决策树，以及智能体评估案例研究。
• GLIDE解决了当前智能体系统评估中人工标注成本高和LLM代理有偏见的矛盾，实现了可靠且成本高效的评估。

GLIDE为生成式AI和智能体系统的可靠评估提供了工业化工具，有望推动该领域从昂贵的人工标注和有偏见的LLM代理评估转向标准化、低成本且统计有效的方法，加速相关研究的落地。

标签: 预测驱动推断 · 智能体评估 · 开源库 · 统计推断

由 AI/LLM Daily Report 系统自动生成 | 2026-06-01