AI应用论文|Chat2Workflow:基于自然语言生成可执行可视化工作流的基准 (1/20篇) · 4月23日

📡 AI 创新应用

2026年04月23日星期四

共 20 篇精选论文

🔥# 1

80%

Chat2Workflow：基于自然语言生成可执行可视化工作流的基准

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

🤗 14

针对工业界主流但依赖人工构建的可执行可视化工作流开发成本高的问题，本文提出了Chat2Workflow基准，旨在研究大语言模型（LLM）能否根据自然语言自动生成此类工作流。我们构建了基于真实业务的工作流数据集，并提出一种智能体框架以缓解执行错误。实验表明，现有LLM虽能理解高层意图，但难以生成正确、稳定且可执行的工作流，尤其在复杂需求下。尽管我们的框架将解决率提升了5.34%，但仍存在显著差距，该基准为推进工业级自动化奠定了基础。

⭐# 2

95%

EvoMaster：面向规模化智能体科学的基础演化智能体框架

EvoMaster: A Foundational Evolving Agent Framework for Agentic Science at Scale

🤗 1

针对现有智能体框架静态、范围狭窄且缺乏试错学习能力的问题，本文提出了EvoMaster，一个为规模化智能体科学设计的基础演化框架。其核心是持续自我演化，使智能体能迭代优化假设、自我批判并在实验周期中积累知识，模拟人类科学探究。该框架领域无关且易于扩展，仅需约100行代码即可构建自演化科学智能体。基于EvoMaster孵化的SciMaster生态系统在多个领域基准测试中取得了最先进的性能，全面超越了通用基线，验证了其作为下一代自主科学发现基础框架的有效性和通用性。

💡# 3

95%

迈向有根基的自主研究：在已发表计算物理文献上的端到端 LLM 微型研究循环

Towards grounded autonomous research: an end-to-end LLM mini research loop on published computational physics

本文聚焦于物理科学研究的最小单元——微型研究循环，即智能体阅读论文、复现、批判并扩展它。我们在规模和深度两个层面测试该循环：在规模上，智能体对 111 篇开放获取计算物理论文自主运行“阅读-规划-计算-比较”循环，无需被要求批判即在约 42% 的论文中提出了实质性质疑；在深度上，针对一篇关于二维材料 MOSFET 多尺度模拟的《自然·通讯》论文，智能体自主运行了原文缺失的新计算，并生成了可发表的评论，修正了原文的核心结论。

🔬# 4

95%

深度研究智能体：一个支持零成本监控的7×24小时自主深度学习实验框架

Deep Researcher Agent: An Autonomous Framework for 24/7 Deep Learning Experimentation with Zero-Cost Monitoring

本文提出开源框架Deep Researcher Agent，使LLM智能体能自主进行全天候深度学习实验。其核心创新包括：零成本监控范式、两级恒定大小内存架构以及最小工具集的主从多智能体设计。在持续30多天的部署中，该框架自主完成了500多个实验周期，在单个项目中通过200多次自动化实验将基线指标提升了52%，且日均LLM成本仅为0.08美元。

📌# 5

95%

通过质量多样性提示生成对视觉-语言-动作模型进行红队测试以获取鲁棒机器人策略

Red-Teaming Vision-Language-Action Models via Quality Diversity Prompt Generation for Robust Robot Policies

视觉-语言-动作（VLA）模型对指令措辞敏感，其失败模式难以预测。为提高VLA的鲁棒性，本文提出Q-DIG，它结合质量多样性（QD）技术与视觉语言模型（VLM），可扩展地生成多样且与任务相关的对抗性指令以暴露VLA行为漏洞。在多个仿真基准上的结果表明，Q-DIG相比基线方法能发现更多样、有意义的失败模式，并且利用生成的指令对VLA进行微调能提升任务成功率。真实世界评估与用户研究进一步验证了其有效性。

🎯# 6

95%

具身科学：以具身AI智能体闭合科学发现循环

Embodied Science: Closing the Discovery Loop with Agentic Embodied AI

当前AI科学预测方法常将发现视为孤立任务，与依赖物理实验循环的现实脱节。本文主张“具身科学”范式，将科学发现重构为智能推理与物理执行紧密耦合的闭环。我们提出统一的感知-语言-行动-发现（PLAD）框架，其中具身智能体感知实验环境、推理科学知识、执行物理干预并内化结果以驱动后续探索。通过将计算推理扎根于鲁棒的物理反馈，该方法弥合了数字预测与实证验证间的鸿沟，为生命与化学科学的自主发现系统提供了路线图。

💎# 7

95%

机器人的内在批评家：基于VLM重规划实现社交行为的自我精炼

The Robot’s Inner Critic: Self-Refinement of Social Behaviors through VLM-based Replanning

传统机器人社交行为生成依赖预定义动作或人工反馈，灵活性与自主性有限。本研究提出CRISP框架，机器人利用视觉语言模型（VLM）作为“类人社交批评家”来自主批评并重规划自身动作。该框架包含从描述文件解析关节、生成行为计划、参考视觉信息生成底层控制代码、VLM评估社交适当性以及基于奖励的迭代精炼。用户研究表明，该方法在多种机器人平台和场景下，获得了比先前方法显著更高的偏好度与情境适当性评分，最小化人工干预的同时扩展了自主交互能力与跨平台适用性。

🚀# 8

95%

迈向智能体赋能的软件生态系统

Toward an Agentic Infused Software Ecosystem

为充分发挥AI智能体在软件开发中的潜力，需重构现有软件生态。本文提出构建“智能体赋能软件生态系统”（AISE），其基于三大支柱：首先是AI智能体本身，其能力在过去五年已从简单的代码补全演进至能执行复杂的独立开发任务；其次是生态基础设施，旨在支持智能体间的协作与集成；最后是新的开发范式。本文概述了AISE的愿景、关键组件与实现路径，旨在推动软件开发向更自主、协同的方向演进。

🧠# 9

95%

PRAM-R：一种具有LLM引导模态路由的自适应自动驾驶感知-推理-行动-记忆框架

PRAM-R: A Perception-Reasoning-Action-Memory Framework with LLM-Guided Modality Routing for Adaptive Autonomous Driving

为解决多模态感知计算成本高的问题，本文提出PRAM-R框架，采用异步双循环设计：快速反应循环负责感知与控制，慢速审慎循环负责推理驱动的模态选择和记忆更新。其中，LLM路由器根据环境上下文和传感器诊断选择并加权模态，分层记忆模块则保持时间一致性并支持长期适应。合成压力测试表明，基于滞后的稳定化将路由振荡降低了87.2%。在nuScenes数据集上的真实世界验证显示，在复杂城市场景中，模态使用减少6.22%，记忆召回率达20%，同时保持了与全模态基线相当的轨迹精度。

⚡# 10

95%

调度与运动规划的交替执行及符号化时空运动抽象的增量学习

Interleaving Scheduling and Motion Planning with Incremental Learning of Symbolic Space-Time Motion Abstractions

针对自动化仓库等多目标导航场景中，在资源、时间和运动约束下安全高效执行预定义任务的挑战，本文形式化了调度与运动规划问题。提出一种新颖的解决方案框架，将现成的调度器与运动规划器在增量学习循环中交替执行：调度器生成候选计划，运动规划器检查可行性并返回符号化反馈（空间冲突、时间调整）以指导调度器。在物流和作业车间调度基准上的验证表明，该框架能有效生成满足复杂时空约束的可行计划。

🌟# 11

95%

FAR-Dex：面向灵巧操作的少样本数据增强与自适应残差策略优化

FAR-Dex: Few-shot Data Augmentation and Adaptive Residual Policy Refinement for Dexterous Manipulation

为解决灵巧操作中高质量演示数据稀缺和高维动作空间复杂性的挑战，本文提出FAR-Dex分层框架。该方法结合少样本数据增强与自适应残差优化：FAR-DexGen从少量演示生成多样化轨迹；FAR-DexRes通过自适应残差模块融合多步轨迹与观测特征以提升策略精度。仿真与实物实验表明，该方法将数据质量提升13.4%，任务成功率提升7%，并在实物任务中实现超过80%的成功率，具备良好的位置泛化能力。

🔎# 12

95%

StarVLA：一个用于视觉-语言-动作模型开发的乐高式代码库

StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing

为应对视觉-语言-动作（VLA）方法在架构、代码和评估上碎片化的问题，本文提出开源代码库StarVLA。它提供模块化的主干-动作头架构，支持VLM和世界模型等多种主干与动作解码范式；提供可复用的训练策略；并集成了多个主流基准的统一评估接口。其简易训练配方已在多个基准上达到或超越现有方法，旨在降低VLA研究的复现与原型开发门槛。

📊# 13

95%

MARS²：通过强化学习扩展多智能体树搜索以进行代码生成

MARS²: Scaling Multi-Agent Tree Search via Reinforcement Learning for Code Generation

为解决强化学习（RL）在代码生成等推理密集型任务中因轨迹多样性有限而性能受限的问题，本文提出了MARS²框架。它将树搜索环境建模为可学习的多智能体交互环境，使多个独立优化的异质智能体能在共享的搜索拓扑中协作生成和优化候选方案。我们引入了基于树一致奖励塑造的路径级群体优势公式，以促进复杂搜索轨迹上的有效信用分配。在代码生成基准上的实验表明，MARS²能持续提升不同模型组合和训练设置下的性能，验证了将多智能体协作与树搜索耦合以增强强化学习的有效性。

🎓# 14

90%

ClawNet：面向跨用户自主协作的人机共生智能体网络

ClawNet: Human-Symbiotic Agent Network for Cross-User Autonomous Cooperation

🤗 1

当前AI智能体框架虽在自动化个体任务上取得进展，但均服务于单一用户，缺乏跨用户协作的基础设施与治理机制。本文提出了一种人机共生智能体范式，每个用户拥有一个永久绑定的智能体系统代表其协作，形成以人为节点的网络。该范式基于三个治理原语：分离全局知识与外部通信的分层身份架构、强制执行每身份访问控制的范围授权、以及确保完全可审计性的操作级问责制。我们在ClawNet中实例化了该范式，这是一个通过中央编排器强制执行身份绑定和授权验证的协作框架，使多用户能通过各自的智能体进行安全协作。

🏆# 15

90%

Autogenesis：一种自演化智能体协议

Autogenesis: A Self-Evolving Agent Protocol

针对现有智能体协议在跨实体生命周期、上下文管理、版本跟踪和演化安全更新接口方面规范不足，导致系统构成单一且脆弱的问题，本文提出了自演化协议AGP。它将“演化什么”与“如何演化”解耦：资源基底协议层将提示、智能体、工具等建模为具有明确状态和版本化接口的协议注册资源；自演化协议层则规定了用于提议、评估和提交改进的闭环操作接口，具备可审计谱系和回滚能力。基于AGP构建的自演化多智能体系统AGS在需要长程规划和跨异构资源使用工具的多个挑战性基准上表现优于强基线，支持了智能体资源管理和闭环自演化的有效性。

💻# 16

90%

AI科学家在不进行科学推理的情况下产生结果

AI scientists produce results without reasoning scientifically

本研究评估了基于大语言模型（LLM）的自主科研智能体，探究其推理是否遵循科学探究的认知规范。通过对八个领域超过25,000次智能体运行的分析，我们发现：基础模型是性能和行为的首要决定因素；在所有配置中，68%的推理轨迹忽略了证据，仅26%出现反驳驱动的信念修正，且收敛性多测试证据罕见。无论执行计算工作流还是假设驱动探究，智能体均表现出相同的非科学推理模式。即使提供近乎完整的成功推理轨迹作为上下文，这种不可靠性依然存在，并在认知要求高的领域随重复试验加剧。结果表明，当前LLM智能体执行工作流但未展现科学推理的认知模式，仅靠结果评估和框架工程无法修复此缺陷。

🔗# 17

90%

对抗性环境如何误导智能体AI？

How Adversarial Environments Mislead Agentic AI?

工具集成智能体的部署前提是外部工具能将其输出锚定于现实，但这恰恰创造了关键的攻击面。当前评估仅关注良性环境下的能力，未测试“如果工具说谎”的情况。我们识别了这种信任鸿沟，并将此漏洞形式化为对抗性环境注入（AEI）威胁模型，即攻击者通过篡改工具输出来欺骗智能体。我们通过POTEMKIN测试工具实现了该模型，并识别出两个正交的攻击面：“幻象”（广度攻击）通过毒化检索诱导智能体产生错误信念；“迷宫”（深度攻击）则利用结构陷阱导致策略崩溃进入无限循环。在五个前沿智能体上的超过11,000次运行测试揭示了显著的鲁棒性鸿沟：对一种攻击的抵抗常增加对另一种的脆弱性，表明认知鲁棒性与导航鲁棒性是两种不同的能力。

📈# 18

90%

从无监督视觉轨迹中学习提升动作模型

Learning Lifted Action Models from Unsupervised Visual Traces

为在现实领域应用AI规划，高效构建捕捉动作前提和效果的模型至关重要。本文研究了一个更具挑战性的设定：从未标注动作的图像状态序列中学习提升动作模型。我们提出了一个深度学习框架，联合学习状态预测、动作预测和提升动作模型。为防止预测崩溃和预测间的自强化错误，我们引入了一个混合整数线性规划（MILP），它在部分轨迹的预测基础上，求解逻辑一致且最接近原始预测的状态、动作和动作模型。从MILP解中提取的伪标签随后用于指导进一步训练。跨多个领域的实验表明，集成基于MILP的校正有助于模型逃离局部最优，收敛到全局一致的解。

🛠️# 19

90%

将异常检测整合入智能体AI以实现人类活动的主动风险管理

Integrating Anomaly Detection into Agentic AI for Proactive Risk Management in Human Activity

具有目标导向、主动和自主决策能力的智能体AI，为应对人类活动中的运动相关风险（如老年人跌倒）提供了新机遇。尽管已有多种通过跌倒预测和检测进行缓解的方法，但现有系统因难以一致处理现实世界复杂性（如上下文感知差、误报率高、环境噪声和数据稀缺）而未能成为通用解决方案。我们认为，跌倒检测和预测可被有效构建为异常检测问题，并通过智能体AI系统更有效地解决。更广泛而言，此视角能早期识别与风险增加相关的运动模式细微偏差。本文提出了一个概念性框架，强调通过动态选择相关工具并将其整合到自适应决策工作流中，实现协调的风险管理，而非依赖为狭窄场景定制的静态配置。

✨# 20

90%

SafetyALFRED：评估多模态大语言模型的安全意识规划能力

SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models

多模态大语言模型（MLLM）越来越多地被用作交互环境中的自主智能体，但其主动应对安全风险的能力仍显不足。我们在具身智能体基准ALFRED基础上构建了SafetyALFRED，引入了六类真实厨房危险。现有安全评估多关注通过非具身问答（QA）进行危险识别，而我们对Qwen、Gemma和Gemini家族的11个先进模型进行了评估，不仅测试危险识别，还测试通过具身规划进行主动风险缓解的能力。实验结果揭示了显著的“对齐鸿沟”：模型在QA设置下能准确识别危险，但对这些危险的具身缓解成功率却很低。这表明静态QA评估不足以衡量物理安全性，我们倡导基准测试向优先评估具身环境中纠正性行动的范式转变。

数据来源：arXiv
由智能助手@AIIA Lab 生成