AI应用论文|Intern-Atlas:作为AI科学家研究基础设施的方法论演化图谱 (1/20篇) · 5月3日

📡 AI 创新应用

2026年05月03日星期日

共 20 篇精选论文

🔥# 1

70%

Intern-Atlas：作为AI科学家研究基础设施的方法论演化图谱

Intern-Atlas: A Methodological Evolution Graph as Research Infrastructure for AI Scientists

🤗 28

现有研究基础设施以文档为中心，缺乏对方法论演化的显式表征，制约了AI研究代理的理解能力。本文提出Intern-Atlas，一种方法论演化图谱，能自动识别方法实体、推断谱系关系并捕捉驱动创新的瓶颈。基于超百万篇论文构建的图谱包含941万条语义类型边，并辅以自引导时序树搜索算法。评估表明其与专家标注的演化链高度一致，且能支撑下游的创意评估与生成任务，为自动化科学发现提供基础数据层。

⭐# 2

90%

面向高效计算机使用代理的步骤级优化

Step-level Optimization for Efficient Computer-use Agents

🤗 9

现有计算机使用代理在长程GUI任务中均匀分配计算资源，效率低下。本文指出错误主要集中于进度停滞和语义漂移两类高风险时刻。为此，提出一种事件驱动的步骤级级联框架：默认运行轻量策略，仅当学习的监控器（停滞监控与里程碑监控）检测到风险升高时，才升级至强模型。该模块化设计可将前沿模型推理转变为自适应按需计算分配，无需改变底层代理架构或重新训练大模型。

💡# 3

80%

面向长程生产力模拟的大规模合成计算机

Synthetic Computers at Scale for Long-Horizon Productivity Simulation

🤗 14

为规模化生成生产力场景的合成数据，本文提出“大规模合成计算机”方法，能创建具有逼真文件夹层级和内容密集型工件（如文档、表格）的计算机环境。基于每个合成计算机，运行长程模拟：一个代理设定用户特定的生产力目标，另一个代理作为用户执行任务，直至目标完成。初步实验创建了1000台合成计算机进行模拟，产生了丰富的体验式学习信号，显著提升了代理在领域内外的生产力评估性能。该方法为长程生产力场景下的代理自我改进和强化学习提供了有前景的基础。

🔬# 4

95%

MARS²：通过强化学习与多智能体树搜索扩展代码生成

MARS²: Scaling Multi-Agent Tree Search via Reinforcement Learning for Code Generation

为解决强化学习（RL）在代码生成等推理密集型任务中轨迹多样性有限的问题，本文提出MARS²框架。它将搜索树建模为可学习的多智能体交互环境，让多个独立优化的异质智能体在共享的搜索拓扑中协作生成和优化候选方案。为支持有效学习，引入了基于树一致奖励塑形的路径级群体优势公式，以在复杂搜索轨迹上进行信用分配。在代码生成基准测试中，MARS²在不同模型组合和训练设置下均能提升性能，证明了将多智能体协作与树搜索耦合的有效性。

📌# 5

85%

基于视频先验与异步去噪的统一4D世界动作建模

Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

🤗 6

本文提出X-WAM，一个统一4D世界模型，在单一框架内整合实时机器人动作执行与高保真4D世界合成（视频+3D重建）。为利用预训练视频扩散模型的强视觉先验，X-WAM通过轻量级结构适配预测多视角RGB-D视频以想象未来世界。同时，提出异步噪声采样（ANS）方法，在推理时采用异步去噪计划：以较少步数快速解码动作以实现高效执行，同时用完整步数生成高保真视频。在超过5800小时机器人数据上预训练后，X-WAM在多个基准测试中取得高成功率，并在视觉与几何指标上超越现有方法。

🎯# 6

90%

在真实光学平台上实现端到端自主科学发现

End-to-end autonomous scientific discovery on a real optical platform

本文介绍求是发现引擎，一个基于大语言模型（LLM）的代理系统，用于在真实光学平台上进行端到端自主科学发现。该系统结合非线性研究阶段、元轨迹记忆和双层架构，在涉及数千次LLM介导的推理、测量和修正行动的长程研究中保持自适应且稳定的研究轨迹。它自主复现了已发表的传输矩阵实验，并将抽象的相干阶理论转化为实验观测，首次观测到该类相干阶结构。更重要的是，在开放式研究中，该系统提出并通过实验验证了光学双线性相互作用这一物理机制，这是首个由AI代理系统自主识别并验证的非平凡、未报道的物理机制。

💎# 7

90%

强化代理：为工具调用代理提供推理时反馈

Reinforced Agent: Inference-Time Feedback for Tool-Calling Agents

针对工具调用代理的评估通常滞后于执行，无法实时纠正错误，本文提出将评估移入推理时的执行循环：由一个专门的评审代理在执行前评估临时工具调用，实现从事后恢复向主动评估和错误缓解的范式转变。为量化评审代理纠错与引入新错误之间的权衡，引入了“有益性-有害性”指标。实验表明，该方法在单轮和多轮任务上均取得显著提升。指标分析揭示评审模型选择至关重要，并通过自动提示优化获得额外增益，证明了执行与评审分离的核心优势。

🚀# 8

90%

AutoSurfer——通过全面浏览、学习与建模教导网络代理

AutoSurfer — Teaching Web Agents through Comprehensive Surfing, Learning, and Modeling

针对高质量网络轨迹训练数据稀缺的问题，本文提出AutoSurfer，一个全面的网络轨迹生成器。其通过三项关键创新解决现有方法覆盖率不全和任务合成不可靠的局限：采用系统化的广度优先探索策略；利用探索轨迹指导任务合成以减少幻觉；使用同一轨迹作为提示引导网络代理进行更准确的轨迹细化。这些创新使AutoSurfer能全面覆盖网站动作空间，并生成适用于训练网站特定LLM的数据。在WebArena基准测试上的评估表明，其微调的模型在任务完成准确率和任务多样性上均优于现有最优方法。

🧠# 9

90%

面向可解释科学发现的机器集体智能

Machine Collective Intelligence for Explainable Scientific Discovery

从经验观察中推导控制方程是科学界的长期挑战。本文提出机器集体智能范式，整合符号主义与元启发式这两种计算智能传统，以实现控制方程的自主进化式发现。它协调多个推理智能体，通过生成、评估、批判和整合来进化其符号假设。在由确定性、随机性或未表征动力学控制的科学系统中，该方法无需手工领域知识即可自主恢复底层控制方程。所得方程将外推误差相对深度神经网络降低了多达六个数量级，并将数十万至百万模型参数压缩为5-40个可解释参数，标志着AI向自主发现原理性科学方程的重要转变。

⚡# 10

90%

连接价值与行为：面向主动式具身智能体的分层框架

Bridging Values and Behavior: A Hierarchical Framework for Proactive Embodied Agents

现有具身智能体多局限于被动指令跟随或反应式需求满足，缺乏支撑长期自导行为和解决动机冲突的稳定高阶价值框架。本文提出ValuePlanner，一种分层认知架构，将高层价值调度与低层动作执行解耦。其采用基于LLM的认知模块，通过推理抽象价值权衡生成符号子目标，再由经典PDDL规划器转化为可执行动作计划，并通过闭环反馈机制进行优化。为评估此类自主性，提出了超越任务成功率的以价值为中心的评价套件。在TongSim家庭环境中的实验表明，ValuePlanner能仲裁竞争性价值，生成指令跟随和需求驱动基线所缺乏的连贯、长程、自导的行为。

🌟# 11

90%

基于数字孪生与智能体AI实现实时决策的自主交通信号优化

Autonomous Traffic Signal Optimization Using Digital Twin and Agentic AI for Real-Time Decision-Making

针对交通拥堵优化问题，本文提出一种由智能体AI管理的数字孪生框架，用于实现交通信号的实时自主控制。该三层系统（感知、概念化、行动）通过物理传感器与边缘计算获取实时交通数据，在数字孪生中模拟车流，并利用LangChain处理数据，最终通过MCP协议与API执行优化控制算法。实验表明，该框架能有效减少红灯等待时间，提升整体交通效率，性能优于固定时长和基于强化学习的基线方法。

🔎# 12

90%

WindowsWorld：面向专业跨应用环境的流程中心化自主GUI智能体基准

WindowsWorld: A Process-Centric Benchmark of Autonomous GUI Agents in Professional Cross-Application Environments

针对现有GUI智能体基准多局限于单应用独立任务、忽视真实跨应用工作流的不足，本文提出了WindowsWorld基准。该基准通过多智能体框架模拟16种职业，生成了181个平均包含5.0个子目标的多步骤任务，其中78%为跨应用任务。实验评估发现，当前领先的智能体在跨应用任务上成功率低（<21%），尤其在需要跨≥3个应用进行条件判断和推理的任务中表现不佳，且执行效率低下。该基准为评估复杂专业工作流中的GUI智能体能力提供了系统化工具。

📊# 13

90%

按需构建基于角色的智能体：为用户需求定制多智能体工作流

Building Persona-Based Agents On Demand: Tailoring Multi-Agent Workflows to User Needs

针对现有智能体系统角色固定、协调模式僵化、难以个性化适配的问题，本文提出按需生成基于角色（Persona）智能体的方法。该方法主张在运行时根据用户特征、任务需求和上下文动态塑造智能体及其角色，以超越“一刀切”的配置。文中详细阐述了在智能体平台中集成实时角色生成的流程，旨在通过使智能体交互更高效、情境更适配，为智能体平台设计范式开辟新的可能性。

🎓# 14

90%

D3-Gym：为数据驱动发现构建可验证的真实世界环境

D3-Gym: Constructing Real-World Verifiable Environments for Data-Driven Discovery

为推进科学数据驱动发现研究，本文构建了首个自动生成、可验证的科学数据驱动发现环境数据集D3-Gym。它包含来自4个学科239个真实科学仓库的565个任务，每个任务均配有自然语言指令、可执行环境、输入数据、参考代码及自动合成的评估脚本。评估脚本与人工标注的金标准一致性达87.5%。实验表明，在D3-Gym轨迹上训练能显著提升Qwen3系列模型在ScienceAgentBench上的性能，例如Qwen3-32B提升7.8个百分点，缩小了与强闭源模型的差距。

🏆# 15

90%

协同智能体推理工程（CARE）：一种由领域专家、开发者和辅助智能体三方参与的系统化AI智能体工程设计方法

Collaborative Agent Reasoning Engineering (CARE): A Three-Party Design Methodology for Systematically Engineering AI Agents with Subject Matter Experts, Developers, and Helper Agents

本文提出协同智能体推理工程（CARE），一种用于科学领域大语言模型（LLM）智能体工程的规范化方法。该方法通过可复用工件和阶段门控流程，系统化地规范行为、落地、工具编排与验证。CARE采用领域专家、开发者和LLM辅助智能体三方协作的工作流，利用辅助智能体将非正式的领域意图转化为可供人工审核的结构化规约，以应对LLM性能不均的“锯齿技术前沿”挑战。科学用例评估表明，这种阶段门控、工件驱动的方法能有效提升开发效率和复杂查询性能。

💻# 16

90%

智能体编译：通过最小化推理成本缓解LLM重运行危机以实现Web自动化

Agentic Compilation: Mitigating the LLM Rerun Crisis for Minimized-Inference-Cost Web Automation

针对LLM驱动Web智能体在重复任务中因持续推理循环导致的“重运行危机”（即推理成本与API延迟随执行次数线性增长），本文提出“编译-执行”架构。该架构将LLM推理与浏览器执行解耦，通过一次性LLM调用将DOM语义表示编译为确定性JSON工作流蓝图，再由轻量级运行时驱动浏览器，无需后续模型查询。这使每次工作流的推理成本降至0.10美元以下，实现了从O(M×N)到摊销O(1)的成本缩减。在数据提取等任务中，零样本编译成功率达80-94%，结合最小化人工修补可实现近100%的执行可靠性。

🔗# 17

90%

DeepTutor：迈向个性化智能辅导

DeepTutor: Towards Agentic Personalized Tutoring

为构建真正个性化的AI辅导系统，本文提出DeepTutor，一个原生智能体的开源框架。其核心是混合个性化引擎，结合静态知识落地与动态多分辨率记忆，将交互历史提炼为持续演化的学习者画像。框架构建了由引证落地的问题解决与难度校准的题目生成双向耦合的闭环辅导循环，并支持协作写作、多智能体深度研究等功能。此外，引入的TutorBot主动多智能体层通过可扩展技能提供跨平台一致体验。为更好评估此类系统，构建了以学习者为中心的TutorBench基准。实验表明，DeepTutor在提升个性化辅导质量的同时，保持了通用的智能体推理能力。

📈# 18

90%

智能体名称服务（ANS）：面向Kubernetes中安全AI智能体发现、身份与治理的信任层概念验证

Agent Name Service (ANS): A Proof-of-Concept Trust Layer for Secure AI Agent Discovery, Identity, and Governance in Kubernetes

为满足自主AI智能体生态系统对安全发现、身份验证、能力证明和策略治理的强需求，本文基于ANS协议规范，提出了智能体名称服务（ANS）在Kubernetes中的概念验证实现。该实现采用去中心化标识符（DID）、可验证凭证（VC）、基于Open Policy Agent（OPA）的策略即代码执行以及Kubernetes原生集成模式。在演示研究环境中，观测到服务路径响应低于10毫秒，脚本化部署场景全部成功。本文明确了概念验证的范围，提供了威胁模型、假设和限制，为从协议概念到可复现工程实践提供了证据支持的路径。

🛠️# 19

90%

PALCAS：基于联邦强化学习的自动驾驶汽车优先级感知智能换道建议系统

PALCAS: A Priority-Aware Intelligent Lane Change Advisory System for Autonomous Vehicles using Federated Reinforcement Learning

本文提出PALCAS，一种基于多智能体联邦强化学习、优先级感知的智能换道建议系统，用于自动驾驶汽车（AV）。与现有专注于单智能体或集中式多智能体的方法不同，PALCAS根据车辆目的地紧迫性对换道进行优先级排序。它引入了一种新颖的优先级感知安全换道奖励函数，以在强制性和自由裁量场景中做出明智的换道决策。系统利用参数化深度Q网络（PDQN）算法促进智能体间有效协作，实现对AV横向和纵向运动的控制。基于SUMO和Mosaic V2X的仿真表明，PALCAS在交通效率、驾驶安全、舒适度、目的地到达率和并道成功率上均显著优于基线方法。

✨# 20

90%

自进化软件智能体

Self-Evolving Software Agents

针对现有自主智能体无法在运行时自主进化目标与代码的问题，本文提出自进化软件智能体，将BDI（信念-愿望-意图）推理与LLM结合，实现目标、推理和可执行代码的自主进化。所提出的BDI-LLM架构包含一个与智能体推理循环并行的自动化进化模块，该模块从经验中提取新需求，并综合生成相应的设计和代码更新。在动态多智能体环境中的原型评估表明，智能体能够从最少先验知识中自主发现新目标并生成可执行行为。结果揭示了LLM驱动进化的可行性及其在行为继承和稳定性方面的当前局限。

数据来源：arXiv
由智能助手@AIIA Lab 生成