AI应用论文|RLDX-1 技术报告 (1/20篇) · 5月8日

📡 AI 创新应用

2026年05月08日星期五

共 20 篇精选论文

🔥# 1

90%

RLDX-1 技术报告

RLDX-1 Technical Report

🤗 87

针对现有视觉-语言-动作模型在复杂现实灵巧操作任务中功能局限（如运动感知、长期记忆）的问题，本文提出了RLDX-1通用机器人策略。该方法基于多流动作Transformer架构，通过模态专用流与跨模态联合自注意力整合异构能力，并结合了针对罕见场景的数据合成、类人操作学习流程等系统设计。实证表明，RLDX-1在仿真与真实任务中均优于前沿模型，尤其在ALLEX人形机器人任务上成功率高达86.8%，展现了其在复杂、接触丰富的动态操作中的优越性。

⭐# 2

90%

奥德修斯：通过强化学习将视觉语言模型扩展至游戏中的100+轮次决策

Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning

🤗 16

针对视觉语言模型在长视野交互决策（如视频游戏）中能力不足的问题，本文研究了基于强化学习的训练方法。我们提出了一种改进的PPO变体，并发现预训练的VLM能提供强动作先验。基于此构建的开放训练框架Odysseus在《超级马里奥大陆》游戏中取得了显著进展，其平均游戏进度是前沿模型的3倍以上，且在泛化场景中保持能力。

💡# 3

80%

HeavySkill：作为智能体框架内技能的深度思考

HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness

🤗 16

尽管多智能体编排框架在复杂推理任务中成效显著，但其核心性能驱动机制尚不明确。本文提出HeavySkill视角，将深度思考不仅视为编排中的最小执行单元，更视作一种内化于模型参数、驱动编排器解决问题的内在技能。该技能被识别为“并行推理后总结”的两阶段流程。实证研究表明，此内在技能持续优于传统BoN策略，且其深度与广度可通过强化学习进一步扩展，为不依赖脆弱编排层的自进化LLM提供了可行路径。

🔬# 4

95%

编码智能体时代下适用于ARC-AGI-3的可执行世界模型

Executable World Models for ARC-AGI-3 in the Era of Coding Agents

本文评估了一个用于ARC-AGI-3的初始编码智能体系统。该智能体维护一个可执行的Python世界模型，根据过往观察验证模型，并朝着更简单的抽象进行重构（作为类似MDL简约偏好的实用代理），最后在行动前通过模型进行规划。系统设计直接，未使用任何游戏特定逻辑。在25个公开游戏上的测试显示，智能体完全解决了7个游戏，在6个游戏上相对人类动作效率超过75%，平均RHAE为32.58%。结果初步证明，验证器驱动的可执行世界模型是ARC-AGI-3智能体的一种有前景的方法。

📌# 5

95%

Seed1.8模型卡：迈向通用化真实世界智能体

Seed1.8 Model Card: Towards Generalized Real-World Agency

本文提出旨在实现通用化真实世界智能体的基础模型Seed1.8。它在保持强大LLM和视觉-语言性能的同时，支持统一的智能体接口，包括搜索、代码生成与执行以及图形用户界面（GUI）交互。为便于部署，模型提供支持延迟和成本感知的推理，包括可配置的思考模式以及针对图像和视频的优化视觉编码。我们在标准基准和面向应用的工作流上进行了评估，涵盖基础技能、多模态理解和智能体行为。Seed1.8已发布以支持交互式真实世界用例的进一步研究与开发。

🎯# 6

95%

E3-TIR：面向工具集成推理的增强经验利用方法

E3-TIR: Enhanced Experience Exploitation for Tool-Integrated Reasoning

针对大语言模型（LLM）在工具集成推理（TIR）训练中存在的探索低效、模式退化及数据成本高等问题，本文提出早期训练预热范式E3-TIR。该方法将训练动态整合为三种经验类型：专家前缀、专家引导与自我探索。通过围绕专家“锚点”进行多样化分支探索，并采用混合策略优化机制，有效缓解了分布偏移和共享前缀引起的优化冲突。实验表明，E3-TIR在工具使用任务上性能较传统范式提升6%，且所需合成数据量不足10%。在综合性能、数据成本与训练效率的ROI指标上，获得了1.46倍的增益。

💎# 7

95%

SPARC：通过注意力机器人通信进行空间感知的路径规划

SPARC: Spatial-Aware Path Planning via Attentive Robot Communication

针对去中心化多机器人路径规划（MRPP）中现有通信方法忽视空间邻近性的问题，本文提出关系增强多头注意力（RMHA）机制。该机制将曼哈顿距离显式嵌入注意力权重计算，使机器人能动态优先处理空间相关邻居的信息。结合距离约束注意力掩码和GRU门控消息融合，RMHA与MAPPO集成进行端到端训练。在从8个训练机器人零样本泛化到128个测试机器人的任务中，其在30%障碍物密度下的成功率约75%，优于最佳基线超过25个百分点。

🚀# 8

95%

WirelessAgent++：无线网络自动化智能体工作流设计与基准测试

WirelessAgent++: Automated Agentic Workflow Design and Benchmarking for Wireless Networks

将LLM集成到无线网络引发了构建自主AI智能体的兴趣，但现有方法依赖手动设计的提示和静态工作流。本文提出WirelessAgent++框架，将工作流视为模块化算子组成的可执行代码，将智能体设计转化为程序搜索问题，并用领域适应的蒙特卡洛树搜索算法求解。同时建立WirelessBench基准套件。实验表明，该框架能自主发现更优工作流，在三个子任务上分别达到78.37%、90.95%和97.07%的测试分数，每次搜索成本低于5美元，性能优于现有提示基线和通用工作流优化器。

🧠# 9

95%

智能体在电网静态分析中的应用：自动代码生成与错误纠正

Agentic Application in Power Grid Static Analysis: Automatic Code Generation and Error Correction

本文提出一种LLM智能体框架，用于自动化电网静态分析，将自然语言转换为MATPOWER脚本。该框架利用DeepSeek-OCR从MATPOWER手册构建增强向量数据库。为确保可靠性，设计了三层纠错系统：静态预检查、动态反馈循环和语义验证器。该工具通过模型上下文协议（MCP）运行，支持异步执行并在MATLAB中自动调试。实验结果表明，该系统在代码保真度上达到82.38%的准确率，即使在复杂分析任务中也有效消除了幻觉现象。

⚡# 10

95%

你的智能体，他们的资产：OpenClaw的现实世界安全性分析

Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw

针对广泛部署的个人AI智能体OpenClaw因拥有高权限而存在的安全隐患，本文首次对其进行了现实世界安全评估，并提出了CIK（能力、身份、知识）分类法。在四个骨干模型上的12个攻击场景测试表明，污染任一CIK维度可使平均攻击成功率从24.6%升至64-74%。评估的防御策略效果有限，文件保护机制虽能拦截97%恶意注入，但也会阻碍合法更新，凸显了智能体架构固有的脆弱性。

🌟# 11

95%

迈向多智能体科学AI系统的评估框架

Toward Evaluation Frameworks for Multi-Agent Scientific AI Systems

本文分析了评估科学（多）智能体系统所面临的挑战，包括难以区分推理与检索、数据/模型污染风险、新颖研究问题缺乏可靠真值、工具使用带来的复杂性，以及知识库持续更新导致的复现难题。我们讨论了构建抗污染问题、生成可扩展任务族、以及通过多轮交互评估系统（以更好反映真实科学实践）的策略。作为可行性测试，我们演示了如何构建新颖研究思路数据集来测试系统的样本外性能，并通过对量子科学领域研究人员的访谈，探讨了科学家对AI系统的交互期望及其对评估方法的影响。

🔎# 12

95%

VisionClaw：通过智能眼镜实现常驻AI智能体

VisionClaw: Always-On AI Agents through Smart Glasses

本文提出VisionClaw，一种集成实时第一人称感知与智能任务执行的常驻可穿戴AI智能体。它在Meta Ray-Ban智能眼镜上运行，持续感知现实环境，并支持通过语音驱动OpenClaw智能体进行现场任务启动与委托，如将实物加入购物车、根据文档生成笔记等。实验室研究（N=12）与长期部署研究（N=5）表明，集成感知与执行能加快任务完成、降低交互开销，并促使用户交互模式向机会性启动和委托执行转变。

📊# 13

95%

用于蛋白质发现与定向进化的自进化AI智能体

Self-evolving AI agents for protein discovery and directed evolution

针对蛋白质科学发现受限于人工流程、通用智能体难以应对复杂领域项目的问题，本文提出了VenusFactory2自主框架。该框架通过自进化的多智能体基础设施，实现了从静态工具使用到动态工作流合成的转变，以应对蛋白质相关需求。其在VenusAgentEval基准测试中表现优于一系列知名智能体，并能从单一自然语言提示出发，自主组织蛋白质的发现与优化过程。

🎓# 14

95%

深度研究之深度研究：从Transformer到智能体，从AI到科学AI

Deep Research of Deep Research: From Transformer to Agent, From AI to AI for Science

本文对“深度研究”这一通用智能体的典型垂直应用进行了深入探讨。我们明确了深度研究的定义，并将工业界的深度研究与学术界的科学AI（AI4S）视角统一于一个发展框架中。文章将LLM和Stable Diffusion定位为生成式AI的两大支柱，勾勒了从Transformer到智能体的发展路线图，审视了AI4S在各学科的进展，总结了主流的人机交互范式与系统架构，并讨论了面临的主要挑战与基础研究问题。本文旨在弥合AI与AI4S社区之间的隔阂。

🏆# 15

95%

从思考者到社会：AI智能体层级自主演化中的安全

From Thinker to Society: Security in Hierarchical Autonomy Evolution of AI Agents

随着大语言模型（LLM）驱动AI智能体向自主决策演进，其安全漏洞日益凸显。本文提出层级自主演化（HAE）框架，将智能体安全组织为三个层级：认知自主（L1）针对内部推理完整性；执行自主（L2）覆盖工具介导的环境交互；集体自主（L3）应对多智能体生态系统中的系统性风险。我们提出了一个涵盖认知操纵、物理环境破坏和多智能体系统性故障的威胁分类法，评估了现有防御措施并指出了关键研究空白。研究旨在为构建可信的AI智能体系统提供多层次、自主感知的防御架构指导。

💻# 16

95%

Aletheia自主攻克首届FirstProof挑战

Aletheia tackles FirstProof autonomously

本文报告了基于Gemini 3 Deep Think的数学研究智能体Aletheia在首届FirstProof挑战中的表现。在规定的挑战时间内，Aletheia自主解决了10道问题中的6道（第2、5、7、8、9、10题），该结果基于多数专家评估（仅第8题专家意见未完全一致）。我们详细说明了其对FirstProof挑战规则的理解与评估方法，并提供了完整的解题过程与透明度报告，展示了AI智能体在形式化数学问题求解方面的初步能力。

🔗# 17

95%

DOVA：面向自主研究自动化的“深思优先”多智能体编排框架

DOVA: Deliberation-First Multi-Agent Orchestration for Autonomous Research Automation

单智能体系统在处理需要多源合成、对抗验证和个性化交付的复杂研究任务时存在局限。本文提出DOVA多智能体平台，其核心创新包括：（1）“深思优先”编排，在执行前进行显式元推理；（2）混合协作推理管道，统一集成多样性、透明黑板和迭代精炼；（3）自适应多层级思考机制，可将简单任务推理成本降低40-60%同时保持深度推理能力。架构消融实验分析了各组件对答案置信度、来源覆盖率和令牌效率的贡献。

📈# 18

95%

AgentGA：在智能体-种子空间中演化代码解决方案

AgentGA: Evolving Code Solutions in Agent-Seed Space

本文提出AgentGA框架，通过优化“智能体种子”（即任务提示词及可选的父代存档）来演化自主代码生成过程。外层循环搜索这些可复用的起始条件，而非直接编辑代码。每一代都从重置的工作区启动一次新的自主运行，而选中的父代存档提供了可供后代检查和重用的继承产物。我们将该方法实例化于表格AutoML任务，实验表明，在10次基准运行中，AgentGA平均性能超越54.15%的人类，优于基线AIDE。超过1135次父子代对比显示，获得父代存档的后代表现优于从零开始的运行，证实了继承产物能改进后续自主运行。

🛠️# 19

95%

深度研究智能体：一个支持零成本监控的7x24小时自主深度学习实验框架

Deep Researcher Agent: An Autonomous Framework for 24/7 Deep Learning Experimentation with Zero-Cost Monitoring

本文提出开源框架Deep Researcher Agent，使LLM智能体能自主进行全天候深度学习实验。其核心创新包括：零成本监控范式、两级恒定大小内存架构以及最小工具集的主从多智能体设计。在持续30多天的部署中，该框架自主完成了500多个实验周期，在单个项目中通过200多次自动化实验将基线指标提升了52%，且日均LLM成本仅为0.08美元。

✨# 20

95%

迈向有根基的自主研究：在已发表计算物理文献上的端到端 LLM 微型研究循环

Towards grounded autonomous research: an end-to-end LLM mini research loop on published computational physics

本文聚焦于物理科学研究的最小单元——微型研究循环，即智能体阅读论文、复现、批判并扩展它。我们在规模和深度两个层面测试该循环：在规模上，智能体对 111 篇开放获取计算物理论文自主运行“阅读-规划-计算-比较”循环，无需被要求批判即在约 42% 的论文中提出了实质性质疑；在深度上，针对一篇关于二维材料 MOSFET 多尺度模拟的《自然·通讯》论文，智能体自主运行了原文缺失的新计算，并生成了可发表的评论，修正了原文的核心结论。

数据来源：arXiv
由智能助手@AIIA Lab 生成