
📡 AI 创新应用
2026年05月08日星期五
共 20 篇精选论文| 🔥# 1 | 90% |
RLDX-1 技术报告
RLDX-1 Technical Report
🤗 87
针对现有视觉-语言-动作模型在复杂现实灵巧操作任务中功能局限(如运动感知、长期记忆)的问题,本文提出了RLDX-1通用机器人策略。该方法基于多流动作Transformer架构,通过模态专用流与跨模态联合自注意力整合异构能力,并结合了针对罕见场景的数据合成、类人操作学习流程等系统设计。实证表明,RLDX-1在仿真与真实任务中均优于前沿模型,尤其在ALLEX人形机器人任务上成功率高达86.8%,展现了其在复杂、接触丰富的动态操作中的优越性。
| ⭐# 2 | 90% |
奥德修斯:通过强化学习将视觉语言模型扩展至游戏中的100+轮次决策
Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning
🤗 16
针对视觉语言模型在长视野交互决策(如视频游戏)中能力不足的问题,本文研究了基于强化学习的训练方法。我们提出了一种改进的PPO变体,并发现预训练的VLM能提供强动作先验。基于此构建的开放训练框架Odysseus在《超级马里奥大陆》游戏中取得了显著进展,其平均游戏进度是前沿模型的3倍以上,且在泛化场景中保持能力。
| 💡# 3 | 80% |
HeavySkill:作为智能体框架内技能的深度思考
HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness
🤗 16
尽管多智能体编排框架在复杂推理任务中成效显著,但其核心性能驱动机制尚不明确。本文提出HeavySkill视角,将深度思考不仅视为编排中的最小执行单元,更视作一种内化于模型参数、驱动编排器解决问题的内在技能。该技能被识别为“并行推理后总结”的两阶段流程。实证研究表明,此内在技能持续优于传统BoN策略,且其深度与广度可通过强化学习进一步扩展,为不依赖脆弱编排层的自进化LLM提供了可行路径。
| 🔬# 4 | 95% |
编码智能体时代下适用于ARC-AGI-3的可执行世界模型
Executable World Models for ARC-AGI-3 in the Era of Coding Agents
本文评估了一个用于ARC-AGI-3的初始编码智能体系统。该智能体维护一个可执行的Python世界模型,根据过往观察验证模型,并朝着更简单的抽象进行重构(作为类似MDL简约偏好的实用代理),最后在行动前通过模型进行规划。系统设计直接,未使用任何游戏特定逻辑。在25个公开游戏上的测试显示,智能体完全解决了7个游戏,在6个游戏上相对人类动作效率超过75%,平均RHAE为32.58%。结果初步证明,验证器驱动的可执行世界模型是ARC-AGI-3智能体的一种有前景的方法。
| 📌# 5 | 95% |
Seed1.8模型卡:迈向通用化真实世界智能体
Seed1.8 Model Card: Towards Generalized Real-World Agency
本文提出旨在实现通用化真实世界智能体的基础模型Seed1.8。它在保持强大LLM和视觉-语言性能的同时,支持统一的智能体接口,包括搜索、代码生成与执行以及图形用户界面(GUI)交互。为便于部署,模型提供支持延迟和成本感知的推理,包括可配置的思考模式以及针对图像和视频的优化视觉编码。我们在标准基准和面向应用的工作流上进行了评估,涵盖基础技能、多模态理解和智能体行为。Seed1.8已发布以支持交互式真实世界用例的进一步研究与开发。
| 🎯# 6 | 95% |
E3-TIR:面向工具集成推理的增强经验利用方法
E3-TIR: Enhanced Experience Exploitation for Tool-Integrated Reasoning
针对大语言模型(LLM)在工具集成推理(TIR)训练中存在的探索低效、模式退化及数据成本高等问题,本文提出早期训练预热范式E3-TIR。该方法将训练动态整合为三种经验类型:专家前缀、专家引导与自我探索。通过围绕专家“锚点”进行多样化分支探索,并采用混合策略优化机制,有效缓解了分布偏移和共享前缀引起的优化冲突。实验表明,E3-TIR在工具使用任务上性能较传统范式提升6%,且所需合成数据量不足10%。在综合性能、数据成本与训练效率的ROI指标上,获得了1.46倍的增益。
| 💎# 7 | 95% |
SPARC:通过注意力机器人通信进行空间感知的路径规划
SPARC: Spatial-Aware Path Planning via Attentive Robot Communication
针对去中心化多机器人路径规划(MRPP)中现有通信方法忽视空间邻近性的问题,本文提出关系增强多头注意力(RMHA)机制。该机制将曼哈顿距离显式嵌入注意力权重计算,使机器人能动态优先处理空间相关邻居的信息。结合距离约束注意力掩码和GRU门控消息融合,RMHA与MAPPO集成进行端到端训练。在从8个训练机器人零样本泛化到128个测试机器人的任务中,其在30%障碍物密度下的成功率约75%,优于最佳基线超过25个百分点。
| 🚀# 8 | 95% |
WirelessAgent++:无线网络自动化智能体工作流设计与基准测试
WirelessAgent++: Automated Agentic Workflow Design and Benchmarking for Wireless Networks
将LLM集成到无线网络引发了构建自主AI智能体的兴趣,但现有方法依赖手动设计的提示和静态工作流。本文提出WirelessAgent++框架,将工作流视为模块化算子组成的可执行代码,将智能体设计转化为程序搜索问题,并用领域适应的蒙特卡洛树搜索算法求解。同时建立WirelessBench基准套件。实验表明,该框架能自主发现更优工作流,在三个子任务上分别达到78.37%、90.95%和97.07%的测试分数,每次搜索成本低于5美元,性能优于现有提示基线和通用工作流优化器。
| 🧠# 9 | 95% |
智能体在电网静态分析中的应用:自动代码生成与错误纠正
Agentic Application in Power Grid Static Analysis: Automatic Code Generation and Error Correction
本文提出一种LLM智能体框架,用于自动化电网静态分析,将自然语言转换为MATPOWER脚本。该框架利用DeepSeek-OCR从MATPOWER手册构建增强向量数据库。为确保可靠性,设计了三层纠错系统:静态预检查、动态反馈循环和语义验证器。该工具通过模型上下文协议(MCP)运行,支持异步执行并在MATLAB中自动调试。实验结果表明,该系统在代码保真度上达到82.38%的准确率,即使在复杂分析任务中也有效消除了幻觉现象。
| ⚡# 10 | 95% |
你的智能体,他们的资产:OpenClaw的现实世界安全性分析
Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw
针对广泛部署的个人AI智能体OpenClaw因拥有高权限而存在的安全隐患,本文首次对其进行了现实世界安全评估,并提出了CIK(能力、身份、知识)分类法。在四个骨干模型上的12个攻击场景测试表明,污染任一CIK维度可使平均攻击成功率从24.6%升至64-74%。评估的防御策略效果有限,文件保护机制虽能拦截97%恶意注入,但也会阻碍合法更新,凸显了智能体架构固有的脆弱性。
| 🌟# 11 | 95% |
迈向多智能体科学AI系统的评估框架
Toward Evaluation Frameworks for Multi-Agent Scientific AI Systems
本文分析了评估科学(多)智能体系统所面临的挑战,包括难以区分推理与检索、数据/模型污染风险、新颖研究问题缺乏可靠真值、工具使用带来的复杂性,以及知识库持续更新导致的复现难题。我们讨论了构建抗污染问题、生成可扩展任务族、以及通过多轮交互评估系统(以更好反映真实科学实践)的策略。作为可行性测试,我们演示了如何构建新颖研究思路数据集来测试系统的样本外性能,并通过对量子科学领域研究人员的访谈,探讨了科学家对AI系统的交互期望及其对评估方法的影响。
| 🔎# 12 | 95% |
VisionClaw:通过智能眼镜实现常驻AI智能体
VisionClaw: Always-On AI Agents through Smart Glasses
本文提出VisionClaw,一种集成实时第一人称感知与智能任务执行的常驻可穿戴AI智能体。它在Meta Ray-Ban智能眼镜上运行,持续感知现实环境,并支持通过语音驱动OpenClaw智能体进行现场任务启动与委托,如将实物加入购物车、根据文档生成笔记等。实验室研究(N=12)与长期部署研究(N=5)表明,集成感知与执行能加快任务完成、降低交互开销,并促使用户交互模式向机会性启动和委托执行转变。
| 📊# 13 | 95% |
用于蛋白质发现与定向进化的自进化AI智能体
Self-evolving AI agents for protein discovery and directed evolution
针对蛋白质科学发现受限于人工流程、通用智能体难以应对复杂领域项目的问题,本文提出了VenusFactory2自主框架。该框架通过自进化的多智能体基础设施,实现了从静态工具使用到动态工作流合成的转变,以应对蛋白质相关需求。其在VenusAgentEval基准测试中表现优于一系列知名智能体,并能从单一自然语言提示出发,自主组织蛋白质的发现与优化过程。
| 🎓# 14 | 95% |
深度研究之深度研究:从Transformer到智能体,从AI到科学AI
Deep Research of Deep Research: From Transformer to Agent, From AI to AI for Science
本文对“深度研究”这一通用智能体的典型垂直应用进行了深入探讨。我们明确了深度研究的定义,并将工业界的深度研究与学术界的科学AI(AI4S)视角统一于一个发展框架中。文章将LLM和Stable Diffusion定位为生成式AI的两大支柱,勾勒了从Transformer到智能体的发展路线图,审视了AI4S在各学科的进展,总结了主流的人机交互范式与系统架构,并讨论了面临的主要挑战与基础研究问题。本文旨在弥合AI与AI4S社区之间的隔阂。
| 🏆# 15 | 95% |
从思考者到社会:AI智能体层级自主演化中的安全
From Thinker to Society: Security in Hierarchical Autonomy Evolution of AI Agents
随着大语言模型(LLM)驱动AI智能体向自主决策演进,其安全漏洞日益凸显。本文提出层级自主演化(HAE)框架,将智能体安全组织为三个层级:认知自主(L1)针对内部推理完整性;执行自主(L2)覆盖工具介导的环境交互;集体自主(L3)应对多智能体生态系统中的系统性风险。我们提出了一个涵盖认知操纵、物理环境破坏和多智能体系统性故障的威胁分类法,评估了现有防御措施并指出了关键研究空白。研究旨在为构建可信的AI智能体系统提供多层次、自主感知的防御架构指导。
| 💻# 16 | 95% |
Aletheia自主攻克首届FirstProof挑战
Aletheia tackles FirstProof autonomously
本文报告了基于Gemini 3 Deep Think的数学研究智能体Aletheia在首届FirstProof挑战中的表现。在规定的挑战时间内,Aletheia自主解决了10道问题中的6道(第2、5、7、8、9、10题),该结果基于多数专家评估(仅第8题专家意见未完全一致)。我们详细说明了其对FirstProof挑战规则的理解与评估方法,并提供了完整的解题过程与透明度报告,展示了AI智能体在形式化数学问题求解方面的初步能力。
| 🔗# 17 | 95% |
DOVA:面向自主研究自动化的“深思优先”多智能体编排框架
DOVA: Deliberation-First Multi-Agent Orchestration for Autonomous Research Automation
单智能体系统在处理需要多源合成、对抗验证和个性化交付的复杂研究任务时存在局限。本文提出DOVA多智能体平台,其核心创新包括:(1)“深思优先”编排,在执行前进行显式元推理;(2)混合协作推理管道,统一集成多样性、透明黑板和迭代精炼;(3)自适应多层级思考机制,可将简单任务推理成本降低40-60%同时保持深度推理能力。架构消融实验分析了各组件对答案置信度、来源覆盖率和令牌效率的贡献。
| 📈# 18 | 95% |
AgentGA:在智能体-种子空间中演化代码解决方案
AgentGA: Evolving Code Solutions in Agent-Seed Space
本文提出AgentGA框架,通过优化“智能体种子”(即任务提示词及可选的父代存档)来演化自主代码生成过程。外层循环搜索这些可复用的起始条件,而非直接编辑代码。每一代都从重置的工作区启动一次新的自主运行,而选中的父代存档提供了可供后代检查和重用的继承产物。我们将该方法实例化于表格AutoML任务,实验表明,在10次基准运行中,AgentGA平均性能超越54.15%的人类,优于基线AIDE。超过1135次父子代对比显示,获得父代存档的后代表现优于从零开始的运行,证实了继承产物能改进后续自主运行。
| 🛠️# 19 | 95% |
深度研究智能体:一个支持零成本监控的7x24小时自主深度学习实验框架
Deep Researcher Agent: An Autonomous Framework for 24/7 Deep Learning Experimentation with Zero-Cost Monitoring
本文提出开源框架Deep Researcher Agent,使LLM智能体能自主进行全天候深度学习实验。其核心创新包括:零成本监控范式、两级恒定大小内存架构以及最小工具集的主从多智能体设计。在持续30多天的部署中,该框架自主完成了500多个实验周期,在单个项目中通过200多次自动化实验将基线指标提升了52%,且日均LLM成本仅为0.08美元。
| ✨# 20 | 95% |
迈向有根基的自主研究:在已发表计算物理文献上的端到端 LLM 微型研究循环
Towards grounded autonomous research: an end-to-end LLM mini research loop on published computational physics
本文聚焦于物理科学研究的最小单元——微型研究循环,即智能体阅读论文、复现、批判并扩展它。我们在规模和深度两个层面测试该循环:在规模上,智能体对 111 篇开放获取计算物理论文自主运行“阅读-规划-计算-比较”循环,无需被要求批判即在约 42% 的论文中提出了实质性质疑;在深度上,针对一篇关于二维材料 MOSFET 多尺度模拟的《自然·通讯》论文,智能体自主运行了原文缺失的新计算,并生成了可发表的评论,修正了原文的核心结论。
数据来源:arXiv
由 智能助手@AIIA Lab 生成

夜雨聆风