普林斯顿:OpenClaw科学代理生态系统数据集+平台

摘要

大语言模型催生了１类新型科学软件——人工智能代理，这类软件可在生物信息学、药物发现及相关领域执行研究工作流。在这类系统中，OpenClaw引入了基于技能的设计，允许将工作流表示为结构化Markdown文件，降低了贡献门槛并推动生态系统快速发展。然而，这种增长也导致了生态碎片化：项目分散在独立代码仓库中，技能质量参差不齐，命名缺乏一致性，且没有统一的方式来发现或比较现有工具。本研究构建了首个OpenClaw科学生态系统的精选数据集，该数据集包含91个按功能分类的项目和覆盖34个科学类别的2,230个技能。基于此数据集，对科学代理发展的结构、分布及新兴模式进行了系统性分析。为使该生态系统具备实际可用性，进一步构建了Claw4Science公共平台。该平台以数据集为基础，对项目进行分类整理，并将分散的技能仓库聚合到统一界面中，重点聚焦生物信息学和科学工作流，为探索该生态系统提供了实用入口。研究结果表明，OpenClaw生态系统反映了科学计算从孤立系统向更模块化、更具可共享性的模式转变。同时，评估、可重复性和治理方面的挑战仍有待解决。认为本研究构建的数据集为未来基准测试开发和科学人工智能代理的标准化基础设施奠定了基础。

https://claw4science.org

zz8680@princeton.edu

#OpenClaw #科学人工智能代理 #生物信息学工作流 #代理生态系统 #数据集与平台 #科学自动化

数据集驱动的生态系统分析

生态系统的２种互补视角

图1OpenClaw科学生态系统概述

将项目划分为主要分支，包括核心平台变体、团队与编排系统、生物医学相关代理及通用研究代理。同时突出展示了从OpenClaw之前的系统到更广泛的OpenClaw后生态系统的转变。

图2OpenClaw后生态系统的结构图谱

区分了直接源自OpenClaw的分支与相邻的独立系统，并将项目组织为核心平台变体、编排系统、研究系统、领域应用和技能库等主要层级。与图1不同，该图谱旨在提供更系统的生态系统结构视图，而非纯粹的概念概述。

技能系统：生态系统的引擎

规模化的技能生态系统

图3 2,230个技能在34个科学类别中的分布

面积代表每个类别的技能数量。受篇幅限制，多个次要类别缩写如下：

(A) 研究评审与同行评审；

(B) 物理、材料与地球科学；

(D) 金融与经济学。

挑战与开放问题

基准测试缺失

图4 Claw4Science平台

(a) 项目目录视图，将OpenClaw相关项目按功能类别组织；

(b) 技能中心界面，将官方注册库和社区维护的技能库聚合到统一导航层；

(d) 关注列表，追踪生态系统中的新兴项目和近期动态。

补充材料

精选OpenClaw项目列表

表1 OpenClaw后生态系统分析中的精选项目列表

列出了纳入OpenClaw后生态系统分析的精选项目，包含项目名称及对应的代码仓库链接。

案例研究：OpenClaw生态系统中的BioClaw

图5 OpenClaw生态系统中BioClaw支持的分析示例

给定输入蛋白质序列后，系统整合用于序列分析、结构预测和功能注释的分布式技能。预测结构对应人类γ-微管蛋白（TUBG1），骨架颜色根据AlphaFold置信度（pLDDT）标注，实验验证的GTP结合区域（残基142-148）以品红色突出显示。该示例说明了可复用技能的生态系统级组合如何支持端到端科学工作流。

图6 BioClaw支持的公开数据集（GSE150316）RNA-seq差异表达分析

该系统检索数据集，通过错误发现率（FDR）校正进行差异表达分析，并生成符合发表标准的火山图。显著上调基因以红色显示，下调基因以蓝色显示（|log₂倍变化 |>1，FDR<0.05），标注了代表性基因。该示例展示了BioClaw如何在OpenClaw生态系统中整合数据检索、统计分析、可视化和生物学解释功能。

详细总结

思维导图

核心数据概览

参考

Claw4Science: A Dataset and Platform for the OpenClaw Scientific Agent Ecosystem

doi: https://doi.org/10.64898/2026.03.30.715118

260330Claw4Science.pdf

注：AI辅助创作，如有错误欢迎指出。内容仅供参考，不构成任何建议。

End