乐于分享
好东西不私藏

Nat Methods斯坦福新发工具 | 以后单细胞数据能放心给AI分析自己分析了,不用敲代码,CellVoyager AI 智能体高质量单细胞测序数据分析

Nat Methods斯坦福新发工具 | 以后单细胞数据能放心给AI分析自己分析了,不用敲代码,CellVoyager AI 智能体高质量单细胞测序数据分析

⭐ 设为星标 · 第一时间获取生信前沿

💡 日常好的生信代码已放入免💰共享服务器中(人人皆可用):https://vip.r-py.com/

单细胞数据分析相当复杂,做单细胞生信分析要攒代码、找工具、调参数,没点计算背景根本玩不转?大佬们都在开发好用的工具简化咱们的工作量了

用CellVoyager自动用jupyter notebook分析单细胞数据教程在文末

🔥 核心突破

 单细胞RNA测序技术的发展让生物学家能够在单细胞分辨率解析基因表达特征,挖掘细胞亚群、细胞状态转变以及差异表达基因等关键生物学信息,但高维度数据带来丰富生物学信息的同时,也为分析环节带来了极高的门槛:一方面,数千种开放分析工具的学习曲线陡峭,缺乏计算背景的实验科学家难以快速掌握;另一方面,高维度数据蕴含的假设空间极大,受时间、资源和专业背景限制,研究者往往只能探索有限的分析方向,大量潜在的重要生物学发现可能被遗漏。

本研究针对这一领域痛点开发了CellVoyager,这是一款基于大语言模型构建的自主AI分析代理,能够基于已处理好的单细胞RNA测序数据集和已完成的分析记录,自主生成并执行新的分析流程,补充研究者已有的工作,实现更全面的数据集探索。不同于此前仅能响应用户指定指令的大语言模型分析工具,CellVoyager核心定位是辅助研究者补充已有探索,实现人机协作的研究流程。为验证工具性能,研究团队构建了包含76项已发表单细胞研究的基准测试集CellBench,结果显示,仅输入论文背景部分的情况下,CellVoyager预测原作者最终执行分析的能力比GPT-4o和o3-mini高出最高23%。在三项深度案例研究中,CellVoyager分别在COVID-19、细胞间通讯和衰老研究中生成了原创发现,这些发现被领域专家(包括部分研究原作者)一致评定为具有创新性且科学可靠。该研究证明,CellVoyager能够通过大规模自主分析生物学数据,加速计算生物学研究进程,挖掘被遗漏的关键生物学见解。

文章摘要:CellVoyager是基于大语言模型的AI代理,可自主分析单细胞RNA测序数据,挖掘已有研究遗漏的生物学新见解

📚 研究背景

 随着组学技术的发展,现代生物学研究产生了大量复杂高维度数据,从多组学检测到时空组测序,这些数据蕴含着丰富的生物学信息,但也带来了极高的分析挑战:提取可靠生物学信号需要领域特异性的复杂计算方法,学习门槛高,对无计算背景的研究者极不友好。同时,高维度数据的特征组合可以形成大量潜在生物学假设,但受分析空间规模和专业能力限制,大量假设无法得到探索,很多潜在发现被遗漏。

近年大语言模型在生物推理和代码生成方面展现出强大能力,催生了基于大语言模型的科学数据分析AI代理,能够将自然语言指令转化为可执行代码,还能辅助生成假设、调用多样分析工具。但现有AI代理大多仅能孤立响应用户提示,无法有效补充研究者已完成的分析工作,而单细胞RNA测序作为典型的高维度复杂数据分析场景,正好为测试自主探索AI工具提供了理想的研究载体。

🔬 技术创新

  • 核心框架基于OpenAI o3-mini大语言模型构建,结合Jupyter环境的实时代码执行能力,能够动态生成、迭代修正并自主执行分析计划,将其命名为「探索蓝图」,保证分析过程的可重复性和连贯性。
  • 内置自我修正机制:生成分析蓝图和代码后会先进行自我校验,修正潜在问题;代码执行失败后可最多迭代修正3次,执行成功后通过GPT-4o视觉模型解读输出结果,自动生成自然语言解释并更新后续分析计划。
  • 支持整合OpenAI深度研究模块检索合成领域背景知识,能够基于已发表研究优先安排新颖、互补的分析方向,避免重复工作,所有分析过程都记录在Jupyter notebook中,可追溯可复现。

📊 实验结果

 CellVoyager的整体工作流程可以分为四个核心环节:输入准备、初始化环境、分析迭代、结果输出,完整流程如图1所示。首先CellVoyager接收两个核心输入,即预处理完成的scRNA-seq数据集和记录生物学背景、已有分析的报告(本研究中直接使用已发表论文作为报告输入),随后调用模块将论文拆解为生物学背景、已尝试分析、数据集细节三个部分的结构化总结,同时初始化Jupyter环境,加载数据集和相关Python包(包括scverse生态下的scanpy、scvi-tools以及seaborn等常用工具),为后续分析做好准备。接下来CellVoyager通过生成、反思「探索蓝图」推进分析,每个蓝图包含待验证假设、分步分析计划、对应执行代码三个部分;生成蓝图后先进行自我批评校验,识别潜在缺陷并核对函数文档修正代码,随后将代码添加到notebook执行,如果执行失败则迭代修正最多3次,失败则调整分析方向;执行成功后通过GPT-4o视觉模型解读图片和文本输出,自动生成自然语言结果解释并添加到notebook,同时更新后续分析计划,整个过程逐步推进,每一步分析都基于已有结果避免重复。所有分析完成后,CellVoyager会提取最有价值的结果生成总结报告,同时完整探索过程保留在notebook中供研究者深入查看。

该工具可在 Jupyter 笔记本环境中自主生成并执行单细胞 RNA 测序(scRNA-seq)数据分析流程,不仅能精准匹配科研人员的分析思路,更能挖掘出隐藏的生物学新发现。

为验证 CellVoyager 的性能,研究团队构建了包含 76 项已发表单细胞 RNA 测序研究的 CellBench 基准数据集,测试其仅通过论文背景部分预测作者最终分析方案的能力。结果显示,基于 o3-mini 的 CellVoyager 在预测准确率上,较 GPT-4o 和原生 o3-mini 分别提升 23.8% 和 18.5%,且在训练截止日期后发表的论文分析中,性能未出现显著下降,证明其具备良好的泛化能力。消融实验表明,制定分析计划和设置编码指导原则是其性能领先的关键因素。

更重要的是,研究团队在 COVID-19 外周血单个核细胞、子宫内膜图谱、小鼠脑衰老三项深度案例研究中,验证了 CellVoyager 的实际科研价值。该智能体为每项研究生成 8 项独立分析,经筛选后的 5 项分析由包括原论文作者在内的两位博士级研究者评估,平均创造力评分达 3.03/4。在 COVID-19 研究中,其发现重症患者 CD8+ T 细胞的焦亡基因评分显著升高,这一结果在两个独立验证数据集中得到证实,为新冠炎症机制研究提供了新方向;子宫内膜研究中,其挖掘出基质成纤维细胞与内皮细胞间的旁分泌信号在月经周期不同阶段的关联模式,发现 TGFβ 和 FGF2-FGFR1 信号通路的关键作用;小鼠脑衰老研究中,其揭示了脑室下区多种细胞的转录噪音随年龄增加而上升,且不同细胞亚群存在异质性,为神经衰老研究提供了新视角。

对比实验显示,通用数据科学工具难以处理复杂的单细胞数据集,而 CellVoyager 凭借领域特异性优势,在思路生成和代码执行上表现出显著优势。此外,该智能体支持人机协作,可根据研究者反馈优化分析方案,仅需 1-2 条反馈即可显著提升分析质量。

💡 应用前景和未来展望

 CellVoyager最直接的应用价值是降低单细胞数据分析门槛:无计算背景的实验研究者只需要提供预处理好的数据集和已有研究背景,就可以让AI自动完成探索分析,挖掘潜在新发现,不用再花费大量时间学习生信工具和调试代码,大大缓解研究生的毕业压力。对于已有一定生信基础的研究者,CellVoyager可以帮助拓展分析思路,探索自己原本不熟悉的分析方向,避免遗漏关键结果。

未来该框架可以拓展到更多组学分析场景,比如空间转录组、多组学整合分析等,进一步扩大适用范围;同时可以优化探索策略,在更大的假设空间中更高效地定位有价值的分析方向,提升挖掘新发现的效率。对生信研究者来说,这款工具的设计思路也提供了很好的学习样本,值得参考借鉴。

🔍 生信视角解读

 从生信研究的角度来看,CellVoyager的出现解决了当前领域一个非常实际的痛点:现在单细胞数据越来越便宜,越来越多实验室都能测到自己的数据,但并不是每个实验室都有专门的生信分析人员,很多实验方向的研究者拿到数据后,只会做最基础的聚类、差异分析,很多潜在的信息根本挖不出来,最后文章发不上去,学生毕业也受影响。CellVoyager的思路其实是把大语言模型的能力和已有的成熟生信工具生态结合起来,不是重新发明一套分析方法,而是用AI把已经存在的工具串起来,自动完成从假设生成到结果解读的全流程,这个定位非常务实。

从方法设计来看,CellVoyager有几个很聪明的设计点值得我们学习:第一,它没有追求一步到位生成所有分析,而是采用迭代探索的模式,每一步做完都解读结果再规划下一步,还支持自我纠错,这大大提升了分析的成功率,实测数据显示三次迭代已经能解决绝大多数代码报错问题,这个设计非常贴合实际使用场景;第二,它明确把「补充已有分析」作为核心目标,而不是完全替代研究者,这个定位非常准确,人机协作的模式比完全自主的AI更符合当前科研的实际需求;第三,所有分析都跑在Jupyter notebook里,结果可追溯可复现,符合科研的要求。

当然,从现在的版本来看,CellVoyager也存在一定局限性:首先它依赖于OpenAI的大语言模型,对于没法直接使用OpenAI服务的研究者来说,使用门槛还是存在,未来如果能整合开源大模型,适用性会大大提升;其次,现在它只支持预处理完成的scRNA-seq数据,从原始测序数据到预处理这一步还需要研究者自己完成,后续如果能把预处理环节也整合进去,才能真正实现全流程自动化;最后,自主探索虽然能找到更多潜在假设,但也存在一定的假阳性风险,后续需要增加对结果可靠性的自动过滤环节。

对于我们普通生信研究者来说,CellVoyager带来的启发不仅仅是一个可用的工具,更重要的是它指明了大语言模型在生信分析领域的一个重要发展方向:AI不是要替代生信研究者,而是要成为我们的助手,帮我们完成繁琐的代码编写和思路拓展工作,让我们可以把更多精力放在生物学问题的思考上,而不是陷在调试代码的细节里。哪怕你是刚入门的生信新手,也可以用这个工具快速探索数据集,得到初步分析结果,不管是做预实验还是找研究方向,都非常实用。

CellVoyager 完整使用教程 | 零代码单细胞分析神器

本文将手把手带你从安装到实战,完整掌握 CellVoyager 这个 AI 驱动的单细胞分析神器!


📌 工具简介

CellVoyager 是斯坦福大学 Zou Group 开发的 AI 驱动单细胞分析工具。它结合了大语言模型(Claude/GPT-4)的推理能力,能够自动探索单细胞数据、生成假设并执行完整的生物信息学分析。

核心亮点:

🤖 智能代理自动分析,无需写代码🖥️ 可视化 GUI 界面,拖拽即用💬 交互式反馈,随时指导 AI📓 自动生成 Jupyter Notebook🔬 集成 DeepResearch 获取背景知识


📦 第一步:安装与环境配置

1.1 克隆仓库

打开终端,执行以下命令克隆 CellVoyager 仓库:

# 克隆 GitHub 仓库git clone https://github.com/zou-group/CellVoyager.git# 进入项目目录cd CellVoyager

1.2 创建 Conda 环境

使用项目自带的 environment.yml 创建环境:

# 创建 conda 环境conda env create -f environment.yml# 激活环境conda activate CellVoyager

💡 提示: 确保已安装 Anaconda 或 Miniconda。环境创建可能需要几分钟,请耐心等待。

1.3 配置 API 密钥

在项目根目录创建 .env 文件,添加你的 API 密钥:

# 创建 .env 文件touch .env# 编辑 .env 文件,添加以下内容:OPENAI_API_KEY=sk-xxxxxxxxxxxxxANTHROPIC_API_KEY=sk-ant-xxxxxxxxxxxxx

⚠️ 注意: 根据你使用的模型选择对应的 API 密钥。如果使用 Claude,需要 ANTHROPIC_API_KEY;如果使用 GPT-4,需要 OPENAI_API_KEY。


🖥️ 第二步:图形界面使用(推荐)

2.1 启动 GUI

streamlit run gui/app.py

命令执行后会自动打开浏览器,显示 CellVoyager 的操作界面。

2.2 配置主界面参数

在 GUI 主界面填写以下信息:

参数
说明
Dataset
拖拽上传 .h5ad 格式的 AnnData 文件
Dataset Summary
数据集概述(疾病类型、组织来源等)
Past Analyses Tried
已做过的分析(让 AI 在此基础上继续)
Directions to Focus On
指导 AI 关注的研究方向(如 IL-17 通路)
Additional Biological Background
补充生物学背景信息
Analysis Name
分析名称(用于保存到 outputs/ 文件夹)
Analyses
要进行的分析数量
Max steps per analysis
每个分析的最大步数
Interactive mode
交互模式(推荐开启,可暂停反馈)
Notify
AI 等待反馈时播放提示音
DeepResearch
调用 OpenAI DeepResearch 获取背景知识
Execution model
代码生成使用的 LLM
Hypothesis generation model
假设生成使用的 LLM

2.3 交互式分析界面

分析开始后,你会进入交互界面,可以:

✅ Feedback for the agent – 给 AI 提供反馈指导下一步分析✅ Continue Analysis – 继续分析(带反馈或不带反馈)✅ Edit Analysis – 编辑、插入和运行代码单元格✅ Finish Analysis – 让 AI 总结发现并结束分析✅ Chat with Agent – 与 AI 实时对话(每个分析一个聊天框)

💡 提示: 分析过程中会实时在 outputs/ 文件夹生成 Jupyter Notebook,你可以随时查看和修改。


⌨️ 第三步:命令行使用(进阶)

3.1 基础命令

python run_cellvoyager.py --h5ad-path PATH_TO_H5AD_DATASET \                          --paper-path PATH_TO_PAPER_SUMMARY \                          --analysis-name RUN_NAME

3.2 完整参数说明

参数
说明
--h5ad-path
AnnData .h5ad 文件路径(必需)
--paper-path
包含论文/生物学背景的 .txt 文件路径
--analysis-name
分析输出目录名称
--execution-mode
执行模式:claude(默认)或 legacy
--model-name
假设生成模型(默认:claude-sonnet-4-6)
--num-analyses
分析数量(默认:1)
--max-iterations
每分析最大迭代次数(默认:8)
--interactive
交互模式(每步暂停,可在 Jupyter 中编辑)
# 查看所有可用参数python run_cellvoyager.py --help

🎯 第四步:COVID-19 实战案例

4.1 下载示例数据

使用 Wilk et al. 2020 (Nature Medicine) 的 COVID-19 外周血单细胞数据:

# 创建示例目录并下载数据mkdir -p examplecurl -o example/covid19.h5ad "https://hosted-matrices-prod.s3-us-west-2.amazonaws.com/Single_cell_atlas_of_peripheral_immune_response_to_SARS_CoV_2_infection-25/Single_cell_atlas_of_peripheral_immune_response_to_SARS_CoV_2_infection.h5ad"

4.2 运行分析

方式一:GUI(推荐)

streamlit run gui/app.py

然后在浏览器中将 covid19.h5ad 拖拽上传即可。

方式二:命令行

python run_cellvoyager.py --h5ad-path example/covid19.h5ad \                          --analysis-name covid19_analysis

📊 第五步:CellBench 基准测试(可选)

5.1 运行基础 LLM 测试

# 进入 CellBench 目录cd CellBench# 运行基础 LLM (gpt-4o, o3-mini) 3次python run_base_llm.py# LLM 评判python run_llm_judge.py

5.2 运行 Agent 测试

# 运行 Agent 3次(选择模型)python run_agent.py gpt-4o# 或使用 o3-minipython run_agent.py o3-mini

评测指标会输出到 stdout,并保存在 responses/ 和 judged/ 目录。


✅ 总结

通过以上五个步骤,你已经完整掌握了 CellVoyager 的使用方法:

✅ 完成环境安装和 API 配置✅ 学会使用 GUI 进行交互式分析✅ 掌握命令行批量分析✅ 实战 COVID-19 数据集✅ 了解 CellBench 评测方法

🎉 现在就开始你的 AI 单细胞分析之旅吧! 无需编程基础,让 CellVoyager 帮你自动发现数据中的生物学洞见。

相关链接:

GitHub: https://github.com/zou-group/CellVoyager论文: Wilk et al. 2020, Nature Medicine

教程基于 CellVoyager 官方文档整理 | 作者:Zou Group, Stanford

你平时做单细胞分析最头疼的环节是什么?是代码调试还是找分析思路?欢迎在评论区留言讨论~


         👇 关注「公众号」,每日获取前沿生信研究解读     

📚 文献引用:Alber, S., Chen, B., Sun, E. et al. CellVoyager: AI CompBio agent generates new insights by autonomously analyzing biological data. Nat Methods (2026).

本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » Nat Methods斯坦福新发工具 | 以后单细胞数据能放心给AI分析自己分析了,不用敲代码,CellVoyager AI 智能体高质量单细胞测序数据分析

猜你喜欢

  • 暂无文章