AI应用论文|1GC-7RC:一张显卡,七项研究挑战!AI智能体做你的工作有多好? (1/20篇) · 6月14日

📡 AI 创新应用

2026年06月14日星期日

共 20 篇精选论文

🔥# 1

95%

1GC-7RC：一张显卡，七项研究挑战！AI智能体做你的工作有多好？

1GC-7RC: One Graphic Card -- Seven Research Challenges! How Good Are AI Agents at Doing Your Job?

本文引入1GC-7RC基准，包含语言建模、图像分类等七项ML任务，用于评估自主AI编码智能体从零设计、实现和训练模型的能力。每个任务提供锁定的数据准备、评估脚本和基线训练脚本；智能体只能修改训练代码，无预训练权重访问权限，无网络访问，且必须在单GPU上的特定时间预算内完成。评估七个编码智能体（五个专有，两个开源）的结果显示出显著的性能差异，揭示了其隐含的ML知识、规划能力和时间预算管理水平的差异。该基准设计模块化，可扩展至新任务和领域。

⭐# 2

95%

迈向具有工具对齐的视觉-语言-动作模型的长程具身智能体

Towards Long-horizon Embodied Agents with Tool-Aligned Vision-Language-Action Models

针对视觉-语言-动作（VLA）模型在长程任务中面临扩展闭环规划与多样物理操作双重负担的局限，本文提出“VLA即工具”策略。该策略将负担分配至高层的视觉语言模型（VLM）智能体（负责时序推理）与一系列专用的VLA工具（负责局部物理操作）之间。我们引入了VLA工具族接口以实现紧密耦合，并提出了工具对齐的后训练方法（TAPT）来获得忠实遵循调用的多样化VLA工具。实验表明，该方法在LIBERO-Long和RoboTwin任务上显著提升了成功率，并大幅增强了调用保真度。

💡# 3

95%

PRAM-R：一种具有LLM引导模态路由的自适应自动驾驶感知-推理-行动-记忆框架

PRAM-R: A Perception-Reasoning-Action-Memory Framework with LLM-Guided Modality Routing for Adaptive Autonomous Driving

为解决多模态感知计算成本高的问题，本文提出PRAM-R框架，采用异步双循环设计：快速反应循环负责感知与控制，慢速审慎循环负责推理驱动的模态选择和记忆更新。其中，LLM路由器根据环境上下文和传感器诊断选择并加权模态，分层记忆模块则保持时间一致性并支持长期适应。合成压力测试表明，基于滞后的稳定化将路由振荡降低了87.2%。在nuScenes数据集上的真实世界验证显示，在复杂城市场景中，模态使用减少6.22%，记忆召回率达20%，同时保持了与全模态基线相当的轨迹精度。

🔬# 4

95%

迈向智能体赋能的软件生态系统

Toward an Agentic Infused Software Ecosystem

为充分发挥AI智能体在软件开发中的潜力，需重构现有软件生态。本文提出构建“智能体赋能软件生态系统”（AISE），其基于三大支柱：首先是AI智能体本身，其能力在过去五年已从简单的代码补全演进至能执行复杂的独立开发任务；其次是生态基础设施，旨在支持智能体间的协作与集成；最后是新的开发范式。本文概述了AISE的愿景、关键组件与实现路径，旨在推动软件开发向更自主、协同的方向演进。

📌# 5

95%

机器人的内在批评家：基于VLM重规划实现社交行为的自我精炼

The Robot's Inner Critic: Self-Refinement of Social Behaviors through VLM-based Replanning

传统机器人社交行为生成依赖预定义动作或人工反馈，灵活性与自主性有限。本研究提出CRISP框架，机器人利用视觉语言模型（VLM）作为“类人社交批评家”来自主批评并重规划自身动作。该框架包含从描述文件解析关节、生成行为计划、参考视觉信息生成底层控制代码、VLM评估社交适当性以及基于奖励的迭代精炼。用户研究表明，该方法在多种机器人平台和场景下，获得了比先前方法显著更高的偏好度与情境适当性评分，最小化人工干预的同时扩展了自主交互能力与跨平台适用性。

🎯# 6

95%

具身科学：以具身AI智能体闭合科学发现循环

Embodied Science: Closing the Discovery Loop with Agentic Embodied AI

当前AI科学预测方法常将发现视为孤立任务，与依赖物理实验循环的现实脱节。本文主张“具身科学”范式，将科学发现重构为智能推理与物理执行紧密耦合的闭环。我们提出统一的感知-语言-行动-发现（PLAD）框架，其中具身智能体感知实验环境、推理科学知识、执行物理干预并内化结果以驱动后续探索。通过将计算推理扎根于鲁棒的物理反馈，该方法弥合了数字预测与实证验证间的鸿沟，为生命与化学科学的自主发现系统提供了路线图。

💎# 7

95%

通过质量多样性提示生成对视觉-语言-动作模型进行红队测试以获取鲁棒机器人策略

Red-Teaming Vision-Language-Action Models via Quality Diversity Prompt Generation for Robust Robot Policies

视觉-语言-动作（VLA）模型对指令措辞敏感，其失败模式难以预测。为提高VLA的鲁棒性，本文提出Q-DIG，它结合质量多样性（QD）技术与视觉语言模型（VLM），可扩展地生成多样且与任务相关的对抗性指令以暴露VLA行为漏洞。在多个仿真基准上的结果表明，Q-DIG相比基线方法能发现更多样、有意义的失败模式，并且利用生成的指令对VLA进行微调能提升任务成功率。真实世界评估与用户研究进一步验证了其有效性。

🚀# 8

95%

理解AI代理热潮：来自实践者的采用、架构与启示

Making Sense of AI Agents Hype: Adoption, Architectures, and Takeaways from Practitioners

为帮助实践者理解智能体系统在工业界的实际设计，本研究回顾分析了138个关于AI代理的实践者会议演讲。研究旨在：1）探究企业如何采用基于代理的架构；2）识别反复出现的架构策略与模式；3）分析用于实现和运营LLM驱动代理系统的应用领域与技术。通过对这些实践经验的梳理，为业界理解和构建代理系统提供了实证参考。

🧠# 9

95%

SpaceMind：面向自主在轨服务的模块化自演进具身视觉-语言智能体框架

SpaceMind: A Modular and Self-Evolving Embodied Vision-Language Agent Framework for Autonomous On-orbit Servicing

为满足自主在轨服务对具身智能体的需求，本文提出了SpaceMind，一个模块化且自演进的视觉-语言模型（VLM）智能体框架。它将知识、工具和推理分解为三个可独立扩展的维度：具有动态路由的技能模块、可配置的MCP工具以及可注入的推理模式技能。通过MCP-Redis接口层，同一代码库无需修改即可在仿真和物理硬件上运行；技能自演进机制能将操作经验提炼为持久化技能文件而无需微调模型。在包含退化条件的广泛测试中，该框架表现出强大的鲁棒性和任务成功率，并实现了零代码修改向物理机器人的成功迁移。

⚡# 10

95%

思考并运行：通过自修复多智能体AI实现自主机器学习流水线生成

Think it, Run it: Autonomous ML pipeline generation via self-healing multi-agent AI

本文旨在开发一个统一的多智能体架构，以从数据集和自然语言目标自动生成端到端的机器学习（ML）流水线，提升效率、鲁棒性和可解释性。提出的五智能体系统负责数据剖析、意图解析、微服务推荐、有向无环图（DAG）构建与执行。它集成了基于代码的检索增强生成（RAG）、结合多标准的可解释混合推荐器、基于大语言模型（LLM）错误解释的自修复机制以及从执行历史中自适应学习。在150个ML任务上的评估显示，该系统实现了84.7%的端到端流水线成功率，优于基线方法，并通过自修复提升了鲁棒性，缩短了工作流开发时间。

🌟# 11

95%

迈向有根基的自主研究：在已发表计算物理文献上的端到端 LLM 微型研究循环

Towards grounded autonomous research: an end-to-end LLM mini research loop on published computational physics

本文聚焦于物理科学研究的最小单元——微型研究循环，即智能体阅读论文、复现、批判并扩展它。我们在规模和深度两个层面测试该循环：在规模上，智能体对 111 篇开放获取计算物理论文自主运行“阅读-规划-计算-比较”循环，无需被要求批判即在约 42% 的论文中提出了实质性质疑；在深度上，针对一篇关于二维材料 MOSFET 多尺度模拟的《自然·通讯》论文，智能体自主运行了原文缺失的新计算，并生成了可发表的评论，修正了原文的核心结论。

🔎# 12

95%

深度研究智能体：一个支持零成本监控的7x24小时自主深度学习实验框架

Deep Researcher Agent: An Autonomous Framework for 24/7 Deep Learning Experimentation with Zero-Cost Monitoring

本文提出开源框架Deep Researcher Agent，使LLM智能体能自主进行全天候深度学习实验。其核心创新包括：零成本监控范式、两级恒定大小内存架构以及最小工具集的主从多智能体设计。在持续30多天的部署中，该框架自主完成了500多个实验周期，在单个项目中通过200多次自动化实验将基线指标提升了52%，且日均LLM成本仅为0.08美元。

📊# 13

95%

MAVEN：提升智能体工具调用的泛化能力

MAVEN: Improving Generalization in Agentic Tool Calling

智能体工具调用环境的泛化能力是可靠智能推理系统的核心挑战。本文提出MAVEN，一个轻量级符号推理框架，支持结构化分解、自适应工具编排与中间验证。在多个工具调用基准及新提出的压力测试基准MAVEN-Bench上评估，MAVEN将其基础模型GPT-OSS-120b的准确率从48%提升至71%，且无需额外训练。结果表明，这种以验证为中心的轻量级框架能增强组合推理能力，其性能与前沿闭源基线相当，而成本估计仅为约十分之一。

🎓# 14

95%

FASE：面向代码质量的快速自适应语义熵

FASE: Fast Adaptive Semantic Entropy for Code Quality

多智能体代码生成因LLM幻觉和错误传播而影响系统可靠性。语义熵提供了一种无需真实答案即可量化不确定性的原则性方法，但现有方法依赖昂贵的LLM驱动等价性检查。本文提出快速自适应语义熵（FASE），一种基于结构和语义差异图最小生成树来近似功能正确性的新度量。在HumanEval和BigCodeBench上的评估表明，FASE优于基于LLM蕴含的最先进语义熵方法，在使用Qwen3-Embedding-8B模型时，其斯皮尔曼相关系数平均提升25%，ROCAUC分数相对Pass@1提升19%。此外，FASE消除了昂贵的LLM等价性评估，仅需传统方法约0.3%的运行时间成本，为实际多智能体工作流中的不确定性量化提供了实用、经济的解决方案。

🏆# 15

95%

Rosetta Memory：面向跨LLM智能体的自适应记忆

Rosetta Memory: Adaptive Memory for Cross-LLM Agents

现有记忆系统通常以特定LLM为核心设计，但在实践中用户常在不同LLM间切换，导致上游记忆需由下游模型消费。本文从以记忆为中心的LLM适应视角出发，解决上游-下游记忆适应问题。我们设计了两个在写入和读取侧协同训练的配置文件条件化算子，以优化记忆的存储和呈现方式。为确保算子能泛化至广泛的LLM，提出了最小增益采样课程，在训练中优先服务获益最少的LLM。为更准确衡量算子的贡献而非LLM自身能力，设计了性能差距奖励机制。在多个数据集上的实验表明，该模型始终优于基线，并在未见模型替换下保持稳健。

💻# 16

95%

SWE-Marathon：智能体能自主完成超长时程的软件工作吗？

SWE-Marathon: Can Agents Autonomously Complete Ultra-Long-Horizon Software Work?

当前智能体基准主要评估短时任务，难以衡量其在规划、长上下文理解和记忆使用等方面的能力。本文引入SWE-Marathon基准，包含20个横跨软件工程及相关技术领域的长时程任务。每个任务配有唯一可执行环境、人工编写的参考解决方案和多层验证套件。记录到的智能体尝试平均消耗2720万总token，远超现有基准。当前前沿编码智能体任务解决率低于30%，失败常源于自我验证不足、自我报告不可行及过早终止。此外，13.8%的尝试中观察到奖励黑客行为。该基准包含对抗性测试套件审查和多层检查，旨在防止捷径解决方案。

🔗# 17

95%

编码智能体时代下适用于ARC-AGI-3的可执行世界模型

Executable World Models for ARC-AGI-3 in the Era of Coding Agents

本文评估了一个用于ARC-AGI-3的初始编码智能体系统。该智能体维护一个可执行的Python世界模型，根据过往观察验证模型，并朝着更简单的抽象进行重构（作为类似MDL简约偏好的实用代理），最后在行动前通过模型进行规划。系统设计直接，未使用任何游戏特定逻辑。在25个公开游戏上的测试显示，智能体完全解决了7个游戏，在6个游戏上相对人类动作效率超过75%，平均RHAE为32.58%。结果初步证明，验证器驱动的可执行世界模型是ARC-AGI-3智能体的一种有前景的方法。

📈# 18

90%

Mana：对关节工具的灵巧操作

Mana: Dexterous Manipulation of Articulated Tools

针对关节工具操作因需协调内部自由度与密集接触而面临的挑战，本文提出Mana框架，将灵巧操作重新定义为动画生成问题。该方法采用从粗到精的流程，通过运动规划和强化学习将程序生成的抓取关键帧转化为操作轨迹。该数据生成过程高度自动化，仅需为每个工具指定功能可供性（<1分钟）。在四种不同尺度和关节类型的工具上，Mana实现了抓取与手内操作的零样本仿真到现实迁移，为灵巧操作关节工具提供了一种可扩展的解决方案。

🛠️# 19

90%

AgentRivet：从期刊出版物自动生成Rivet例程的系统

AgentRivet: an automated system for producing Rivet routines from journal publications

针对粒子物理对撞机实验中Rivet分析例程覆盖率不足的问题，本文设计了基于大语言模型（LLM）的自动化工作流AgentRivet。该系统从已发表论文中提取物理分析信息，自动编写缺失的Rivet例程，并包含自主质量控制环节。使用OpenAI、Anthropic和Google的商业LLM对ATLAS和CMS实验的最新测量进行测试，结果表明AgentRivet能生成语法错误少、物理保真度合理的例程。多数实现问题源于出版物中定义的微妙模糊性，部分模型在实现复杂可观测量时仍存在困难。

✨# 20

90%

迈向指令即代码：探究指令文件对智能体拉取请求的影响

Toward Instructions-as-Code: Understanding the Impact of Instruction Files on Agentic Pull Requests

本研究探究了为AI智能体（如GitHub Copilot）创建指令文件与其生成的拉取请求（Agentic-PR）性能之间的关系。通过分析AIDev数据集中148个项目的15,549个Agentic-PR，从合并率、变更复杂度和合并所需工作量三个维度，对比了项目创建指令文件前后的表现。结果发现，提供指令并不必然提升性能：27.7%的项目合并率提升超20%，而26.35%的项目反而下降。初步探索表明，成功提升合并率的项目通常拥有更长、结构更清晰（包含更多章节）的指令文件。这促使我们将指令文件开发视为一项软件工程活动（即“指令即代码”）进行研究。

数据来源：arXiv由智能助手@AIIA Lab 生成