AI应用论文|语言模型智能体的探索与利用误差可测量 (1/20篇) · 4月17日

📡 AI 创新应用

2026年04月17日星期五

共 20 篇精选论文

🔥# 1

85%

语言模型智能体的探索与利用误差可测量

Exploration and Exploitation Errors Are Measurable for Language Model Agents

🤗 22

针对语言模型（LM）智能体在开放决策任务中难以量化评估探索与利用行为的问题，本研究设计了可控的具身AI环境与任务DAG，并提出一种无需访问内部策略即可从行动中量化探索与利用误差的度量方法。评估发现，前沿模型在该任务上表现不佳，且不同模型呈现不同的失败模式；推理模型表现更优，且通过简单的约束工程可显著提升探索与利用能力。

⭐# 2

85%

SemaClaw：通过约束工程迈向通用个人AI智能体的一步

SemaClaw: A Step Towards General-Purpose Personal AI Agents through Harness Engineering

🤗 15

随着个人AI智能体的大规模应用，AI工程范式正从提示工程转向约束工程，人机交互也向持续协作演进。为此，我们提出了SemaClaw开源多智能体框架，其核心贡献包括：基于DAG的两阶段混合团队编排方法、PermissionBridge行为安全系统、三层上下文管理架构，以及用于自动化构建个人知识库的智能体维基技能。

💡# 3

90%

CONSCIENTIA：LLM智能体能否学会制定策略？多智能体纽约市模拟中的涌现欺骗与信任

CONSCIENTIA: Can LLM Agents Learn to Strategize? Emergent Deception and Trust in a Multi-Agent NYC Simulation

🤗 1

为实证研究LLM智能体在多智能体环境中的策略行为涌现，我们构建了一个简化的纽约市模拟环境，其中蓝方与红方智能体目标对立。通过Kahneman-Tversky优化迭代学习策略，研究发现智能体能够展现出有限的策略行为（如选择性信任与欺骗），但对抗性说服的脆弱性依然很高。最佳蓝方策略将任务成功率从46.0%提升至57.3%，但易感性仍达70.7%，且存在安全性与任务完成度的权衡。

🔬# 4

90%

基于增强步级转移的分层强化学习用于LLM智能体

Hierarchical Reinforcement Learning with Augmented Step-Level Transitions for LLM Agents

针对现有大语言模型（LLM）智能体依赖冗长交互历史导致计算成本高、可扩展性有限的问题，本文提出STEP-HRL分层强化学习框架。该框架通过仅以单步转移而非完整历史为条件，实现步级学习。它将任务分层结构化，利用已完成的子任务表示整体任务的全局进度，并通过局部进度模块迭代、选择性地总结每个子任务内的交互历史，产生紧凑的局部进度摘要。这些组件共同为高层和低层策略生成增强的步级转移。在ScienceWorld和ALFWorld基准上的实验结果表明，STEP-HRL在性能和泛化能力上显著优于基线，同时减少了token使用量。

📌# 5

90%

FinTrace：面向长视野金融任务的LLM工具调用轨迹级整体评估

FinTrace: Holistic Trajectory-Level Evaluation of LLM Tool Calling for Long-Horizon Financial Tasks

现有金融工具调用评估基准场景有限且依赖调用级指标。为此，我们提出FinTrace基准，包含800条专家标注轨迹，并设计了涵盖动作正确性、执行效率、过程质量和输出质量四个维度的九项指标进行细粒度评估。对13个LLM的评估显示，前沿模型工具选择能力强，但信息利用和最终答案质量普遍不佳。基于此构建的首个轨迹级偏好数据集FinTrace-Training，经DPO微调后能有效提升中间推理指标，但端到端答案质量仍是瓶颈。

🎯# 6

90%

三重角色，一个模型：通过推理时角色编排缩小大小智能体性能差距

Three Roles, One Model: Role Orchestration at Inference Time to Close the Performance Gap Between Small and Large Agents

为在有限硬件上提升小模型在复杂多步任务中的表现，本研究提出一种无需额外训练、仅通过推理时支架的方法。该方法将同一冻结模型部署为三个角色：摘要模型、主推理模型和独立修正模型。在AppWorld基准上，该支架使Qwen3-8B的任务目标完成率在FP16和AWQ配置下均提升约一倍，其中FP16配置下的8B模型性能甚至超越了原评估中33B的模型，证明了结构化推理时干预的有效性。

💎# 7

90%

空间图集：面向空间感知研究智能体基准的计算驱动推理

Spatial Atlas: Compute-Grounded Reasoning for Spatial-Aware Research Agent Benchmarks

我们提出计算驱动推理（CGR）设计范式，要求所有可解答的子问题在语言模型生成前均由确定性计算解决。空间图集作为其实例，是一个处理FieldWorkArena和MLE-Bench两大挑战性基准的A2A服务器。其通过结构化空间场景图引擎提取实体关系并进行确定性计算，结合熵引导的动作选择与三层前沿模型栈，在保持竞争力的准确率的同时，通过结构化中间表示和确定性空间计算确保了可解释性。

🚀# 8

90%

ContractSkill：面向多模态网络智能体的可修复、基于契约的技能

ContractSkill: Repairable Contract-Based Skills for Multimodal Web Agents

针对网络智能体自生成技能不稳定且难以修复的问题，本文提出了ContractSkill框架。它将草稿技能转换为具有显式过程结构的可执行构件，支持确定性验证、故障定位和最小化局部修复，从而将技能优化从完全重写转变为局部编辑。实验表明，该框架在真实网络环境中有效，修复后的技能构件在移除源模型后仍可重用，证明了其可移植性。

🧠# 9

90%

RoboLab：用于任务通用策略分析的高保真仿真基准

RoboLab: A High-Fidelity Simulation Benchmark for Analysis of Task Generalist Policies

为应对现有机器人仿真基准性能易饱和、缺乏真正泛化测试的问题，我们提出了RoboLab框架。它支持以与机器人及策略无关的方式生成高物理与照片真实性的场景与任务，并据此构建了涵盖视觉、程序、关系三个能力轴共120个任务的RoboLab-120基准。该框架能系统分析真实世界策略的性能及其对受控扰动的敏感性，评估揭示了当前最先进模型存在显著性能差距，为评估任务通用策略的真实泛化能力提供了可扩展工具。

⚡# 10

90%

SciFi：一个用于科学应用的安全、轻量、用户友好且全自主的智能体AI工作流

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

为实现智能体AI在真实世界科研中的可靠部署，我们提出了一个安全、轻量、用户友好的自主执行框架。该框架结合了隔离执行环境、三层智能体循环和自评估do-until机制，确保安全可靠运行的同时，有效利用不同能力级别的大语言模型。通过聚焦于具有明确定义上下文和停止条件的结构化任务，该框架支持端到端自动化，使研究人员能卸载常规工作，专注于创造性活动。

🌟# 11

90%

[新兴观点]人工三分智能：一种面向物理AI的仿生、传感器优先架构

[Emerging Ideas] Artificial Tripartite Intelligence: A Bio-Inspired, Sensor-First Architecture for Physical AI

针对物理AI面临的延迟、能耗等约束，本文提出仿生的传感器优先架构——人工三分智能（ATI）。它在系统层面分为三部分：脑干（L1）负责反射安全与信号完整性控制，小脑（L2）进行连续传感器校准，大脑推理子系统（L3/L4）支持常规技能执行与深度推理。在移动相机原型上的评估表明，ATI的自适应感知将端到端准确率从53.8%提升至88%，同时将远程L4调用减少了43.3%，证明了传感与推理协同设计对具身AI的价值。

🔎# 12

90%

有形无实：Moltbook网络中的智能体社交行为

Form Without Function: Agent Social Behavior in the Moltbook Network

本研究分析了纯AI智能体社交网络Moltbook在40天内产生的海量数据。研究发现：在交互层，对话扁平、互惠率极低（3.3%），且大部分评论与帖子无论证关联；在内容层，智能体行为与社区主题严重脱节，内容高度同质化；在指令层，硬约束能立即改变行为，而软指导则被忽略。平台还存在凭证泄露、攻击性讨论等技术风险。研究表明，该平台虽复现了社交媒体的形式，但其社交功能并未真正涌现。

📊# 13

90%

LiveClawBench：在复杂现实世界助理任务上对LLM智能体进行基准测试

LiveClawBench: Benchmarking LLM Agents on Complex, Real-World Assistant Tasks

现有基准测试通常孤立地评估LLM智能体，与现实部署的复合挑战存在差距。为此，本文提出LiveClawBench基准，基于对真实用例的分析，构建了包含环境复杂性、认知需求和运行时适应性三个维度的“三重轴复杂性框架”。该框架指导构建了具有明确复杂度标注的试点基准，为在真实助理场景中评估LLM智能体提供了原则性基础，并为未来扩展奠定了基础。

🎓# 14

90%

自适应记忆结晶：面向动态环境中自主AI智能体学习的记忆架构

Adaptive Memory Crystallization for Autonomous AI Agent Learning in Dynamic Environments

为应对动态环境中自主AI智能体持续学习时“灾难性遗忘”的挑战，本文提出自适应记忆结晶（AMC）架构。AMC受突触标记与捕获理论启发，将记忆建模为从可塑态到稳定态的连续结晶过程，并由一个随机微分方程描述。理论证明其收敛性，并在多个持续学习任务上的实验表明，该方法显著提升了正向迁移（+34–43%），减少了遗忘（67–80%），并降低了62%的内存占用。

🏆# 15

90%

编码智能体能成为通用智能体吗？

Can Coding Agents Be General Agents?

随着编码智能体能力与应用的快速增长，用户开始将其用于软件工程之外的通用任务。本文通过案例研究，评估了编码智能体在开源企业资源规划系统中端到端业务流程自动化任务上的表现。研究发现，智能体能可靠完成简单任务，但在复杂任务上表现出特征性失败，表明连接领域逻辑与代码执行是实现通用性的关键瓶颈。

💻# 16

90%

AgentForge：基于执行验证的多智能体LLM框架，用于自主软件工程

AgentForge: Execution-Grounded Multi-Agent LLM Framework for Autonomous Software Engineering

针对大语言模型生成代码但无法验证正确性的问题，本文提出将“基于执行的验证”作为核心原则，要求所有代码变更必须在沙箱中执行通过。基于此，我们构建了多智能体框架AGENTFORGE，包含规划、编码、测试、调试和评审等角色，通过共享内存和强制Docker沙箱进行协调。在SWE-BENCH Lite基准上，该框架实现了40.0%的解决率，优于单智能体基线26-28个百分点，消融实验证实执行反馈和角色分解各自独立驱动了性能提升。

🔗# 17

90%

SemiFA：用于自主生成半导体失效分析报告的智能体多模态框架

SemiFA: An Agentic Multi-Modal Framework for Autonomous Semiconductor Failure Analysis Report Generation

半导体失效分析（FA）报告生成过程耗时且依赖专家。本文提出SemiFA，一个智能体多模态框架，可在1分钟内从检测图像自主生成结构化FA报告。该框架将FA分解为由四个智能体组成的流水线，分别负责缺陷描述、根因分析、严重性分类和工艺调整建议，并引入包含930张标注图像的SemiFA-930数据集。实验表明，其分类准确率达92.1%，完整报告生成仅需48秒，且多模态融合（图像与设备遥测）将根因推理能力提升了0.86分（1-5分制）。

📈# 18

90%

从MARL到SARL：一种通过潜在共识实现顺序无关的多智能体Transformer

Bridging MARL to SARL: An Order-Independent Multi-Agent Transformer via Latent Consensus

为解决合作多智能体强化学习（MARL）中的非平稳性、训练不稳定和协调困难等问题，本文提出共识多智能体Transformer（CMAT）。该框架将多智能体视为统一实体，利用Transformer编码器处理联合观察空间，并通过解码器自回归生成高层潜在共识向量来模拟智能体策略协调。基于此共识，所有智能体同时生成动作，实现了顺序无关的联合决策。实验表明，CMAT在星际争霸II等多智能体基准任务上优于现有集中式、顺序式及传统MARL方法。

🛠️# 19

90%

SafeHarness：面向LLM智能体部署的生命周期集成安全架构

SafeHarness: Lifecycle-Integrated Security Architecture for LLM-based Agent Deployment

LLM智能体的执行框架是其性能关键，但也成为高价值攻击面。针对现有安全方案存在结构性不匹配的问题，本文提出SafeHarness安全架构，将四层防御机制（对抗性上下文过滤、分层因果验证、权限分离的工具控制、安全回滚与自适应降级）直接编织到智能体生命周期中。跨层机制协调这些防御层，在检测到持续异常时提升验证强度、触发回滚并收紧工具权限。评估显示，相比无保护基线，该架构平均将不安全行为率和攻击成功率分别降低了约38%和42%，同时保持了核心任务效用。

✨# 20

90%

MIND：用于材料研究的AI联合科学家

MIND: AI Co-Scientist for Material Research

现有基于大语言模型（LLM）的科学发现系统多限于文本推理，缺乏自动化实验验证。为此，本文提出MIND框架，用于材料研究中的自动化假设验证。MIND将科学发现过程组织为假设精炼、实验和基于辩论的验证多智能体流水线。为实现实验验证，系统集成了机器学习原子间势（如SevenNet-Omni），支持可扩展的硅基实验。该模块化设计允许集成更多实验模块，以适应更广泛的科学工作流。

数据来源：arXiv
由智能助手@AIIA Lab 生成