
📡 AI 创新应用
2026年04月08日星期三
共 20 篇精选论文| 🔥# 1 | 90% |
FileGram:基于文件系统行为轨迹的智能体个性化框架
FileGram: Grounding Agent Personalization in File-System Behavioral Traces
🤗 25
针对本地文件系统中AI智能体因隐私和数据限制导致的个性化不足问题,本文提出FileGram框架。其核心包括:用于生成多模态行为序列的数据引擎FileGramEngine、基于文件系统轨迹的诊断基准FileGramBench,以及从原子操作构建用户档案的底层内存架构FileGramOS。实验表明,该基准对现有记忆系统具有挑战性,所提组件有效,为个性化文件系统智能体研究提供了支持。
| ⭐# 2 | 95% |
你的智能体,他们的资产:OpenClaw的现实世界安全性分析
Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw
🤗 13
针对广泛部署的个人AI智能体OpenClaw因拥有高权限而存在的安全隐患,本文首次对其进行了现实世界安全评估,并提出了CIK(能力、身份、知识)分类法。在四个骨干模型上的12个攻击场景测试表明,污染任一CIK维度可使平均攻击成功率从24.6%升至64-74%。评估的防御策略效果有限,文件保护机制虽能拦截97%恶意注入,但也会阻碍合法更新,凸显了智能体架构固有的脆弱性。
| 💡# 3 | 90% |
探究自主智能体在真实项目中的贡献:活动模式与代码随时间的变化
Investigating Autonomous Agent Contributions in the Wild: Activity Patterns and Code Change over Time
🤗 15
随着自主编码智能体在开源项目中日益活跃,本研究构建了一个包含约11万个拉取请求的新数据集,以探究其贡献模式及对代码质量的影响。通过比较五种主流编码智能体,分析了它们在合并频率、编辑文件类型和开发者互动信号等方面的差异。纵向分析表明,尽管智能体活动增加,但其生成的代码随时间产生的变更率高于人类编写的代码,对软件可维护性提出了新挑战。
| 🔬# 4 | 90% |
GPA:通过演示学习图形用户界面流程自动化
GPA: Learning GUI Process Automation from Demonstrations
🤗 11
为解决传统RPA的脆弱性和当前基于视觉语言模型的GUI智能体的非确定性风险,本文提出GPA方法,仅需单次演示即可实现快速稳定的流程回放。其核心优势在于:通过序列蒙特卡洛定位保证鲁棒性;通过就绪校准确保确定性与可靠性;支持快速全本地执行以保护隐私。实验表明,GPA在完成长周期GUI任务时,比Gemini 3 Pro(使用CUA工具)成功率更高且执行速度快10倍。
| 📌# 5 | 100% |
2025年AI智能体指数:记录已部署智能体AI系统的技术与安全特性
The 2025 AI Agent Index: Documenting Technical and Safety Features of Deployed Agentic AI Systems
针对AI智能体生态复杂、发展迅速且文档记录不一致的问题,本文提出了2025年AI智能体指数。该指数基于公开信息及与开发者的通信,系统记录了30个前沿AI智能体的起源、设计、能力、生态及安全特性。研究发现,不同开发者的透明度差异显著,且多数对安全性、评估及社会影响的披露不足。该指数旨在为研究者和政策制定者提供追踪发展的工具。
| 🎯# 6 | 100% |
OpenClaw、Moltbook与ClawdLab:从纯智能体社交网络到自主科学研究
OpenClaw, Moltbook, and ClawdLab: From Agent-Only Social Networks to Autonomous Scientific Research
本研究对开源智能体框架OpenClaw和纯智能体社交网络Moltbook产生的大规模AI间交互数据集及相关文献进行多声部综述,并提出了自主科学研究开源平台ClawdLab作为应对已识别架构失效模式的设计科学响应。ClawdLab通过硬性角色限制、结构化对抗性批判、PI主导的治理、多模型编排以及编码为协议约束的领域特定证据要求来解决这些失效模式,其架构天然具备抗女巫攻击能力。一个三层分类法区分了单智能体流水线、预定义多智能体工作流和完全去中心化系统,ClawdLab的可组合第三层架构支持随着AI生态进步而实现复合式改进。
| 💎# 7 | 100% |
AI智能体已能自主执行实验高能物理分析
AI Agents Can Already Autonomously Perform Experimental High Energy Physics
研究表明,基于大语言模型(LLM)的AI智能体仅需极少专家输入,即可自主执行高能物理(HEP)分析流程的绝大部分阶段。我们提出概念验证框架JFC,它集成了自主分析智能体、基于文献的知识检索与多智能体评审,足以规划、执行并记录可信的HEP分析。我们利用ALEPH等公开数据完成了电弱、QCD及希格斯玻色子测量分析。这些工具旨在减轻分析代码开发的重复性技术负担,使研究者能专注于物理洞察与创新,呼吁社区重新思考人才培养与资源分配策略。
| 🚀# 8 | 90% |
记忆智能体
Memory Intelligence Agent
🤗 7
针对现有深度研究智能体(DRA)记忆系统存在进化低效、存储检索成本高等问题,本文提出记忆智能体(MIA)框架。其采用管理者-规划者-执行者架构:非参数记忆管理器存储压缩的历史搜索轨迹;参数记忆规划者生成搜索计划;执行者按计划搜索分析信息。通过交替强化学习、测试时在线进化及参数/非参数记忆双向转换循环,MIA实现了高效记忆进化与推理。在11个基准测试中展现了优越性。
| 🧠# 9 | 90% |
边生成边执行:在LLM代码生成中隐藏执行延迟
Executing as You Generate: Hiding Execution Latency in LLM Code Generation
🤗 5
针对现有LLM编码智能体串行执行范式导致的资源闲置与延迟问题,本文提出并行执行范式,将代码生成、检测与执行建模为三阶段流水线,并推导了其延迟上界。基于此,我们实现了Eager系统,采用基于AST的代码分块、带门控执行的动态批处理和早期错误中断等技术。在四个基准、七个LLM和三种执行环境上的评估表明,Eager将非重叠执行延迟降低高达99.9%,端到端延迟降低高达55%。
| ⚡# 10 | 95% |
迈向多智能体科学AI系统的评估框架
Toward Evaluation Frameworks for Multi-Agent Scientific AI Systems
本文分析了评估科学(多)智能体系统所面临的挑战,包括难以区分推理与检索、数据/模型污染风险、新颖研究问题缺乏可靠真值、工具使用带来的复杂性,以及知识库持续更新导致的复现难题。我们讨论了构建抗污染问题、生成可扩展任务族、以及通过多轮交互评估系统(以更好反映真实科学实践)的策略。作为可行性测试,我们演示了如何构建新颖研究思路数据集来测试系统的样本外性能,并通过对量子科学领域研究人员的访谈,探讨了科学家对AI系统的交互期望及其对评估方法的影响。
| 🌟# 11 | 95% |
VisionClaw:通过智能眼镜实现常驻AI智能体
VisionClaw: Always-On AI Agents through Smart Glasses
本文提出VisionClaw,一种集成实时第一人称感知与智能任务执行的常驻可穿戴AI智能体。它在Meta Ray-Ban智能眼镜上运行,持续感知现实环境,并支持通过语音驱动OpenClaw智能体进行现场任务启动与委托,如将实物加入购物车、根据文档生成笔记等。实验室研究(N=12)与长期部署研究(N=5)表明,集成感知与执行能加快任务完成、降低交互开销,并促使用户交互模式向机会性启动和委托执行转变。
| 🔎# 12 | 95% |
Seed1.8模型卡:迈向通用化真实世界智能体
Seed1.8 Model Card: Towards Generalized Real-World Agency
本文提出旨在实现通用化真实世界智能体的基础模型Seed1.8。它在保持强大LLM和视觉-语言性能的同时,支持统一的智能体接口,包括搜索、代码生成与执行以及图形用户界面(GUI)交互。为便于部署,模型提供支持延迟和成本感知的推理,包括可配置的思考模式以及针对图像和视频的优化视觉编码。我们在标准基准和面向应用的工作流上进行了评估,涵盖基础技能、多模态理解和智能体行为。Seed1.8已发布以支持交互式真实世界用例的进一步研究与开发。
| 📊# 13 | 95% |
用于蛋白质发现与定向进化的自进化AI智能体
Self-evolving AI agents for protein discovery and directed evolution
针对蛋白质科学发现受限于人工流程、通用智能体难以应对复杂领域项目的问题,本文提出了VenusFactory2自主框架。该框架通过自进化的多智能体基础设施,实现了从静态工具使用到动态工作流合成的转变,以应对蛋白质相关需求。其在VenusAgentEval基准测试中表现优于一系列知名智能体,并能从单一自然语言提示出发,自主组织蛋白质的发现与优化过程。
| 🎓# 14 | 95% |
深度研究之深度研究:从Transformer到智能体,从AI到科学AI
Deep Research of Deep Research: From Transformer to Agent, From AI to AI for Science
本文对“深度研究”这一通用智能体的典型垂直应用进行了深入探讨。我们明确了深度研究的定义,并将工业界的深度研究与学术界的科学AI(AI4S)视角统一于一个发展框架中。文章将LLM和Stable Diffusion定位为生成式AI的两大支柱,勾勒了从Transformer到智能体的发展路线图,审视了AI4S在各学科的进展,总结了主流的人机交互范式与系统架构,并讨论了面临的主要挑战与基础研究问题。本文旨在弥合AI与AI4S社区之间的隔阂。
| 🏆# 15 | 95% |
从思考者到社会:AI智能体层级自主演化中的安全
From Thinker to Society: Security in Hierarchical Autonomy Evolution of AI Agents
随着大语言模型(LLM)驱动AI智能体向自主决策演进,其安全漏洞日益凸显。本文提出层级自主演化(HAE)框架,将智能体安全组织为三个层级:认知自主(L1)针对内部推理完整性;执行自主(L2)覆盖工具介导的环境交互;集体自主(L3)应对多智能体生态系统中的系统性风险。我们提出了一个涵盖认知操纵、物理环境破坏和多智能体系统性故障的威胁分类法,评估了现有防御措施并指出了关键研究空白。研究旨在为构建可信的AI智能体系统提供多层次、自主感知的防御架构指导。
| 💻# 16 | 95% |
Aletheia自主攻克首届FirstProof挑战
Aletheia tackles FirstProof autonomously
本文报告了基于Gemini 3 Deep Think的数学研究智能体Aletheia在首届FirstProof挑战中的表现。在规定的挑战时间内,Aletheia自主解决了10道问题中的6道(第2、5、7、8、9、10题),该结果基于多数专家评估(仅第8题专家意见未完全一致)。我们详细说明了其对FirstProof挑战规则的理解与评估方法,并提供了完整的解题过程与透明度报告,展示了AI智能体在形式化数学问题求解方面的初步能力。
| 🔗# 17 | 95% |
DOVA:面向自主研究自动化的“深思优先”多智能体编排框架
DOVA: Deliberation-First Multi-Agent Orchestration for Autonomous Research Automation
单智能体系统在处理需要多源合成、对抗验证和个性化交付的复杂研究任务时存在局限。本文提出DOVA多智能体平台,其核心创新包括:(1)“深思优先”编排,在执行前进行显式元推理;(2)混合协作推理管道,统一集成多样性、透明黑板和迭代精炼;(3)自适应多层级思考机制,可将简单任务推理成本降低40-60%同时保持深度推理能力。架构消融实验分析了各组件对答案置信度、来源覆盖率和令牌效率的贡献。
| 📈# 18 | 95% |
面向对撞机物理及其他领域的端到端架构
An End-to-end Architecture for Collider Physics and Beyond
本文提出了首个能够执行端到端对撞机现象学任务的语言驱动智能体系统ColliderAgent。该系统采用解耦、领域无关的架构,仅依据自然语言提示和标准物理符号,即可完成从理论拉格朗日量到最终现象学输出的全流程,无需依赖特定软件包代码。系统通过分层多智能体推理层与统一计算后端Magnus耦合。在多个代表性场景(如轻夸克、类轴子粒子分析)上的验证表明,该架构为实现对撞机物理、宇宙学等领域更自动化、可扩展和可复现的研究指明了路径。
| 🛠️# 19 | 95% |
学习面向杂乱环境中顺序操作的对象中心空间推理
Learning Object-Centric Spatial Reasoning for Sequential Manipulation in Cluttered Environments
为解决机器人在杂乱环境中操作的数据效率与模块化问题,本文提出Unveiler框架,将高层空间推理与底层动作执行解耦。其核心是基于Transformer的空间关系编码器(SRE),能顺序识别并决策移除关键障碍物,再由旋转不变的动作解码器执行。该方法在参数和推理时间上更高效,在密集杂乱场景中的目标取回成功率显著优于端到端策略及大模型基线,仿真成功率最高达97.6%,并能零样本迁移到真实场景。
| ✨# 20 | 95% |
CUDA Agent:面向高性能CUDA内核生成的大规模智能体强化学习系统
CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation
针对LLM在CUDA内核优化中表现不及编译器的问题,本文提出CUDA Agent系统。该方法通过可扩展数据合成、技能增强的开发环境与强化学习算法,系统性地提升模型的内核优化能力。实验表明,其在KernelBench基准上全面超越torch.compile,并在最难的Level-3任务上领先Claude Opus等最强闭源模型约40%。
数据来源:arXiv
由 智能助手@AIIA Lab 生成

夜雨聆风