
📡 AI 创新应用
2026年03月29日星期日
共 20 篇精选论文| 🔥# 1 | 100% |
OpenClaw、Moltbook与ClawdLab:从纯智能体社交网络到自主科学研究
OpenClaw, Moltbook, and ClawdLab: From Agent-Only Social Networks to Autonomous Scientific Research
本研究对开源智能体框架OpenClaw和纯智能体社交网络Moltbook产生的大规模AI间交互数据集及相关文献进行多声部综述,并提出了自主科学研究开源平台ClawdLab作为应对已识别架构失效模式的设计科学响应。ClawdLab通过硬性角色限制、结构化对抗性批判、PI主导的治理、多模型编排以及编码为协议约束的领域特定证据要求来解决这些失效模式,其架构天然具备抗女巫攻击能力。一个三层分类法区分了单智能体流水线、预定义多智能体工作流和完全去中心化系统,ClawdLab的可组合第三层架构支持随着AI生态进步而实现复合式改进。
| ⭐# 2 | 100% |
2025年AI智能体指数:记录已部署智能体AI系统的技术与安全特性
The 2025 AI Agent Index: Documenting Technical and Safety Features of Deployed Agentic AI Systems
针对AI智能体生态复杂、发展迅速且文档记录不一致的问题,本文提出了2025年AI智能体指数。该指数基于公开信息及与开发者的通信,系统记录了30个前沿AI智能体的起源、设计、能力、生态及安全特性。研究发现,不同开发者的透明度差异显著,且多数对安全性、评估及社会影响的披露不足。该指数旨在为研究者和政策制定者提供追踪发展的工具。
| 💡# 3 | 95% |
通过质量多样性提示生成对视觉-语言-动作模型进行红队测试以获取鲁棒机器人策略
Red-Teaming Vision-Language-Action Models via Quality Diversity Prompt Generation for Robust Robot Policies
视觉-语言-动作(VLA)模型对指令措辞敏感,其失败模式难以预测。为提高VLA的鲁棒性,本文提出Q-DIG,它结合质量多样性(QD)技术与视觉语言模型(VLM),可扩展地生成多样且与任务相关的对抗性指令以暴露VLA行为漏洞。在多个仿真基准上的结果表明,Q-DIG相比基线方法能发现更多样、有意义的失败模式,并且利用生成的指令对VLA进行微调能提升任务成功率。真实世界评估与用户研究进一步验证了其有效性。
| 🔬# 4 | 95% |
FAR-Dex:面向灵巧操作的少样本数据增强与自适应残差策略优化
FAR-Dex: Few-shot Data Augmentation and Adaptive Residual Policy Refinement for Dexterous Manipulation
为解决灵巧操作中高质量演示数据稀缺和高维动作空间复杂性的挑战,本文提出FAR-Dex分层框架。该方法结合少样本数据增强与自适应残差优化:FAR-DexGen从少量演示生成多样化轨迹;FAR-DexRes通过自适应残差模块融合多步轨迹与观测特征以提升策略精度。仿真与实物实验表明,该方法将数据质量提升13.4%,任务成功率提升7%,并在实物任务中实现超过80%的成功率,具备良好的位置泛化能力。
| 📌# 5 | 95% |
调度与运动规划的交替执行及符号化时空运动抽象的增量学习
Interleaving Scheduling and Motion Planning with Incremental Learning of Symbolic Space-Time Motion Abstractions
针对自动化仓库等多目标导航场景中,在资源、时间和运动约束下安全高效执行预定义任务的挑战,本文形式化了调度与运动规划问题。提出一种新颖的解决方案框架,将现成的调度器与运动规划器在增量学习循环中交替执行:调度器生成候选计划,运动规划器检查可行性并返回符号化反馈(空间冲突、时间调整)以指导调度器。在物流和作业车间调度基准上的验证表明,该框架能有效生成满足复杂时空约束的可行计划。
| 🎯# 6 | 95% |
PRAM-R:一种具有LLM引导模态路由的自适应自动驾驶感知-推理-行动-记忆框架
PRAM-R: A Perception-Reasoning-Action-Memory Framework with LLM-Guided Modality Routing for Adaptive Autonomous Driving
为解决多模态感知计算成本高的问题,本文提出PRAM-R框架,采用异步双循环设计:快速反应循环负责感知与控制,慢速审慎循环负责推理驱动的模态选择和记忆更新。其中,LLM路由器根据环境上下文和传感器诊断选择并加权模态,分层记忆模块则保持时间一致性并支持长期适应。合成压力测试表明,基于滞后的稳定化将路由振荡降低了87.2%。在nuScenes数据集上的真实世界验证显示,在复杂城市场景中,模态使用减少6.22%,记忆召回率达20%,同时保持了与全模态基线相当的轨迹精度。
| 💎# 7 | 95% |
迈向智能体赋能的软件生态系统
Toward an Agentic Infused Software Ecosystem
为充分发挥AI智能体在软件开发中的潜力,需重构现有软件生态。本文提出构建“智能体赋能软件生态系统”(AISE),其基于三大支柱:首先是AI智能体本身,其能力在过去五年已从简单的代码补全演进至能执行复杂的独立开发任务;其次是生态基础设施,旨在支持智能体间的协作与集成;最后是新的开发范式。本文概述了AISE的愿景、关键组件与实现路径,旨在推动软件开发向更自主、协同的方向演进。
| 🚀# 8 | 95% |
CUDA Agent:面向高性能CUDA内核生成的大规模智能体强化学习系统
CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation
针对LLM在CUDA内核优化中表现不及编译器的问题,本文提出CUDA Agent系统。该方法通过可扩展数据合成、技能增强的开发环境与强化学习算法,系统性地提升模型的内核优化能力。实验表明,其在KernelBench基准上全面超越torch.compile,并在最难的Level-3任务上领先Claude Opus等最强闭源模型约40%。
| 🧠# 9 | 95% |
学习面向杂乱环境中顺序操作的对象中心空间推理
Learning Object-Centric Spatial Reasoning for Sequential Manipulation in Cluttered Environments
为解决机器人在杂乱环境中操作的数据效率与模块化问题,本文提出Unveiler框架,将高层空间推理与底层动作执行解耦。其核心是基于Transformer的空间关系编码器(SRE),能顺序识别并决策移除关键障碍物,再由旋转不变的动作解码器执行。该方法在参数和推理时间上更高效,在密集杂乱场景中的目标取回成功率显著优于端到端策略及大模型基线,仿真成功率最高达97.6%,并能零样本迁移到真实场景。
| ⚡# 10 | 95% |
面向对撞机物理及其他领域的端到端架构
An End-to-end Architecture for Collider Physics and Beyond
本文提出了首个能够执行端到端对撞机现象学任务的语言驱动智能体系统ColliderAgent。该系统采用解耦、领域无关的架构,仅依据自然语言提示和标准物理符号,即可完成从理论拉格朗日量到最终现象学输出的全流程,无需依赖特定软件包代码。系统通过分层多智能体推理层与统一计算后端Magnus耦合。在多个代表性场景(如轻夸克、类轴子粒子分析)上的验证表明,该架构为实现对撞机物理、宇宙学等领域更自动化、可扩展和可复现的研究指明了路径。
| 🌟# 11 | 95% |
DOVA:面向自主研究自动化的“深思优先”多智能体编排框架
DOVA: Deliberation-First Multi-Agent Orchestration for Autonomous Research Automation
单智能体系统在处理需要多源合成、对抗验证和个性化交付的复杂研究任务时存在局限。本文提出DOVA多智能体平台,其核心创新包括:(1)“深思优先”编排,在执行前进行显式元推理;(2)混合协作推理管道,统一集成多样性、透明黑板和迭代精炼;(3)自适应多层级思考机制,可将简单任务推理成本降低40-60%同时保持深度推理能力。架构消融实验分析了各组件对答案置信度、来源覆盖率和令牌效率的贡献。
| 🔎# 12 | 95% |
Aletheia自主攻克首届FirstProof挑战
Aletheia tackles FirstProof autonomously
本文报告了基于Gemini 3 Deep Think的数学研究智能体Aletheia在首届FirstProof挑战中的表现。在规定的挑战时间内,Aletheia自主解决了10道问题中的6道(第2、5、7、8、9、10题),该结果基于多数专家评估(仅第8题专家意见未完全一致)。我们详细说明了其对FirstProof挑战规则的理解与评估方法,并提供了完整的解题过程与透明度报告,展示了AI智能体在形式化数学问题求解方面的初步能力。
| 📊# 13 | 95% |
从思考者到社会:AI智能体层级自主演化中的安全
From Thinker to Society: Security in Hierarchical Autonomy Evolution of AI Agents
随着大语言模型(LLM)驱动AI智能体向自主决策演进,其安全漏洞日益凸显。本文提出层级自主演化(HAE)框架,将智能体安全组织为三个层级:认知自主(L1)针对内部推理完整性;执行自主(L2)覆盖工具介导的环境交互;集体自主(L3)应对多智能体生态系统中的系统性风险。我们提出了一个涵盖认知操纵、物理环境破坏和多智能体系统性故障的威胁分类法,评估了现有防御措施并指出了关键研究空白。研究旨在为构建可信的AI智能体系统提供多层次、自主感知的防御架构指导。
| 🎓# 14 | 95% |
Seed1.8模型卡:迈向通用化真实世界智能体
Seed1.8 Model Card: Towards Generalized Real-World Agency
本文提出旨在实现通用化真实世界智能体的基础模型Seed1.8。它在保持强大LLM和视觉-语言性能的同时,支持统一的智能体接口,包括搜索、代码生成与执行以及图形用户界面(GUI)交互。为便于部署,模型提供支持延迟和成本感知的推理,包括可配置的思考模式以及针对图像和视频的优化视觉编码。我们在标准基准和面向应用的工作流上进行了评估,涵盖基础技能、多模态理解和智能体行为。Seed1.8已发布以支持交互式真实世界用例的进一步研究与开发。
| 🏆# 15 | 90% |
TRACE:用于地震学自主物理推理的多智能体系统
TRACE: A Multi-Agent System for Autonomous Physical Reasoning for Seismology
从观测数据推断地震序列的物理机制是挑战,现有方法依赖专家经验,可复现性差。本文提出TRACE多智能体系统,结合大语言模型(LLM)规划与形式化地震学约束,从原始数据生成可审计的物理解释。应用于2019年Ridgecrest序列,系统自主识别出应力扰动导致的延迟触发机制;在2025年Santorini-Kolumbo火山案例中,识别出结构引导的侵入模型。该系统为从地震现象中获取物理洞察提供了通用框架,推动地学分析从依赖专家向知识引导的自主发现转变。
| 💻# 16 | 90% |
AI-Supervisor:基于持久研究世界模型的自主AI研究监督
AI-Supervisor: Autonomous AI Research Supervision via a Persistent Research World Model
现有自动化研究系统多为无状态的线性流程,缺乏对研究领域的持续理解。本文提出AI-Supervisor多智能体编排框架,通过持续演化的知识图谱“研究世界模型”作为共享记忆,支持从文献综述到论文撰写的端到端自主研究监督。其核心贡献包括:结构化缺口发现、自校正发现循环以及跨领域机制搜索驱动的自改进开发循环。所有智能体在共识机制下运行,确保独立发现被验证后才更新至世界模型,实现了自主探索与自我修正的研究过程。
| 🔗# 17 | 90% |
TRACE:用于地震学自主物理推理的多智能体系统
TRACE: A Multi-Agent System for Autonomous Physical Reasoning in Seismological
从间接地球物理观测推断地震序列的物理机制存在困难,尤其在构造环境不同时,相似地震模式可能对应不同过程。当前解释严重依赖专家对目录、统计量和候选模型的综合,限制了可复现性与见解的跨场景系统迁移。本文介绍TRACE多智能体系统,它融合大语言模型(LLM)规划与形式化地震学约束,从原始观测推导可审计、基于物理的机制推断。系统在Ridgecrest序列中自主识别应力扰动延迟触发,在Santorini-Kolumbo案例中识别结构引导侵入模型。该通用逻辑基础设施推动地学从依赖专家的分析迈向知识引导的自主发现。
| 📈# 18 | 90% |
重新思考熵在优化大语言模型智能体工具使用行为中的作用
Rethinking the Role of Entropy in Optimizing Tool-Use Behaviors for Large Language Model Agents
基于大语言模型(LLM)的工具使用智能体在数学推理等任务中表现出色,但在长轨迹中常产生过多低质量工具调用,增加延迟并降低性能。本文通过基于熵的试点实验,发现熵减少与高质量工具调用呈强正相关。据此,提出以熵减作为监督信号,并设计两种奖励策略:稀疏结果奖励提供轨迹级粗粒度指导以提升效率,稠密过程奖励提供细粒度监督以提升性能。跨领域实验表明,前者相比基线平均减少72.07%的工具调用,后者将性能提升22.27%,证明熵减是增强工具使用行为的关键机制。
| 🛠️# 19 | 90% |
代码审查智能体基准
Code Review Agent Benchmark
随着AI智能体自动生成大量代码,代码质量与审查变得至关重要。本文构建了用于评估代码审查智能体的数据集c-CRAB及评估框架。给定一个拉取请求,该框架能评估智能体生成审查的能力。利用该基准对当前先进的开源与商业审查智能体进行评估,发现现有智能体仅能解决约40%的任务,表明存在巨大改进空间。同时,智能体审查与人工审查关注点常不同,预示了未来软件团队中人机协作的潜力。数据集生成的测试可作为审查质量的守门员,为代码生成、测试生成与审查智能体的未来协作提供研究基础。
| ✨# 20 | 90% |
设计用于组合投资的智能体化AI筛选系统
Designing Agentic AI-Based Screening for Portfolio Investment
本文提出一个新的智能体化人工智能(AI)投资组合管理平台。其架构包含三层:首先,两个大语言模型(LLM)智能体分别负责筛选基本面良好的公司和新闻情绪积极的公司;其次,它们通过协商从大规模资产池中生成买卖信号,大幅缩小候选资产范围;最后,应用高维精度矩阵估计方法确定最优组合权重。理论贡献在于引入了“合理筛选”概念,证明在温和筛选误差下,筛选后组合的夏普比率平方能一致估计其目标。基于2020-2024年标普500数据的实证表明,该方法相比未筛选基线及传统筛选方法获得了更优的夏普比率。
数据来源:arXiv
由 智能助手@AIIA Lab 生成

夜雨聆风