Nat Methods斯坦福新发工具 | 以后单细胞数据能放心给AI分析自己分析了,不用敲代码,CellVoyager AI 智能体高质量单细胞测序数据分析
⭐ 设为星标 · 第一时间获取生信前沿
💡 日常好的生信代码已放入免💰共享服务器中(人人皆可用):https://vip.r-py.com/
单细胞数据分析相当复杂,做单细胞生信分析要攒代码、找工具、调参数,没点计算背景根本玩不转?大佬们都在开发好用的工具简化咱们的工作量了
用CellVoyager自动用jupyter notebook分析单细胞数据教程在文末

🔥 核心突破
本研究针对这一领域痛点开发了CellVoyager,这是一款基于大语言模型构建的自主AI分析代理,能够基于已处理好的单细胞RNA测序数据集和已完成的分析记录,自主生成并执行新的分析流程,补充研究者已有的工作,实现更全面的数据集探索。不同于此前仅能响应用户指定指令的大语言模型分析工具,CellVoyager核心定位是辅助研究者补充已有探索,实现人机协作的研究流程。为验证工具性能,研究团队构建了包含76项已发表单细胞研究的基准测试集CellBench,结果显示,仅输入论文背景部分的情况下,CellVoyager预测原作者最终执行分析的能力比GPT-4o和o3-mini高出最高23%。在三项深度案例研究中,CellVoyager分别在COVID-19、细胞间通讯和衰老研究中生成了原创发现,这些发现被领域专家(包括部分研究原作者)一致评定为具有创新性且科学可靠。该研究证明,CellVoyager能够通过大规模自主分析生物学数据,加速计算生物学研究进程,挖掘被遗漏的关键生物学见解。

文章摘要:CellVoyager是基于大语言模型的AI代理,可自主分析单细胞RNA测序数据,挖掘已有研究遗漏的生物学新见解
📚 研究背景
近年大语言模型在生物推理和代码生成方面展现出强大能力,催生了基于大语言模型的科学数据分析AI代理,能够将自然语言指令转化为可执行代码,还能辅助生成假设、调用多样分析工具。但现有AI代理大多仅能孤立响应用户提示,无法有效补充研究者已完成的分析工作,而单细胞RNA测序作为典型的高维度复杂数据分析场景,正好为测试自主探索AI工具提供了理想的研究载体。
🔬 技术创新
-
核心框架基于OpenAI o3-mini大语言模型构建,结合Jupyter环境的实时代码执行能力,能够动态生成、迭代修正并自主执行分析计划,将其命名为「探索蓝图」,保证分析过程的可重复性和连贯性。
-
内置自我修正机制:生成分析蓝图和代码后会先进行自我校验,修正潜在问题;代码执行失败后可最多迭代修正3次,执行成功后通过GPT-4o视觉模型解读输出结果,自动生成自然语言解释并更新后续分析计划。
-
支持整合OpenAI深度研究模块检索合成领域背景知识,能够基于已发表研究优先安排新颖、互补的分析方向,避免重复工作,所有分析过程都记录在Jupyter notebook中,可追溯可复现。
📊 实验结果

该工具可在 Jupyter 笔记本环境中自主生成并执行单细胞 RNA 测序(scRNA-seq)数据分析流程,不仅能精准匹配科研人员的分析思路,更能挖掘出隐藏的生物学新发现。
为验证 CellVoyager 的性能,研究团队构建了包含 76 项已发表单细胞 RNA 测序研究的 CellBench 基准数据集,测试其仅通过论文背景部分预测作者最终分析方案的能力。结果显示,基于 o3-mini 的 CellVoyager 在预测准确率上,较 GPT-4o 和原生 o3-mini 分别提升 23.8% 和 18.5%,且在训练截止日期后发表的论文分析中,性能未出现显著下降,证明其具备良好的泛化能力。消融实验表明,制定分析计划和设置编码指导原则是其性能领先的关键因素。

更重要的是,研究团队在 COVID-19 外周血单个核细胞、子宫内膜图谱、小鼠脑衰老三项深度案例研究中,验证了 CellVoyager 的实际科研价值。该智能体为每项研究生成 8 项独立分析,经筛选后的 5 项分析由包括原论文作者在内的两位博士级研究者评估,平均创造力评分达 3.03/4。在 COVID-19 研究中,其发现重症患者 CD8+ T 细胞的焦亡基因评分显著升高,这一结果在两个独立验证数据集中得到证实,为新冠炎症机制研究提供了新方向;子宫内膜研究中,其挖掘出基质成纤维细胞与内皮细胞间的旁分泌信号在月经周期不同阶段的关联模式,发现 TGFβ 和 FGF2-FGFR1 信号通路的关键作用;小鼠脑衰老研究中,其揭示了脑室下区多种细胞的转录噪音随年龄增加而上升,且不同细胞亚群存在异质性,为神经衰老研究提供了新视角。

对比实验显示,通用数据科学工具难以处理复杂的单细胞数据集,而 CellVoyager 凭借领域特异性优势,在思路生成和代码执行上表现出显著优势。此外,该智能体支持人机协作,可根据研究者反馈优化分析方案,仅需 1-2 条反馈即可显著提升分析质量。

💡 应用前景和未来展望
未来该框架可以拓展到更多组学分析场景,比如空间转录组、多组学整合分析等,进一步扩大适用范围;同时可以优化探索策略,在更大的假设空间中更高效地定位有价值的分析方向,提升挖掘新发现的效率。对生信研究者来说,这款工具的设计思路也提供了很好的学习样本,值得参考借鉴。
🔍 生信视角解读
从方法设计来看,CellVoyager有几个很聪明的设计点值得我们学习:第一,它没有追求一步到位生成所有分析,而是采用迭代探索的模式,每一步做完都解读结果再规划下一步,还支持自我纠错,这大大提升了分析的成功率,实测数据显示三次迭代已经能解决绝大多数代码报错问题,这个设计非常贴合实际使用场景;第二,它明确把「补充已有分析」作为核心目标,而不是完全替代研究者,这个定位非常准确,人机协作的模式比完全自主的AI更符合当前科研的实际需求;第三,所有分析都跑在Jupyter notebook里,结果可追溯可复现,符合科研的要求。
当然,从现在的版本来看,CellVoyager也存在一定局限性:首先它依赖于OpenAI的大语言模型,对于没法直接使用OpenAI服务的研究者来说,使用门槛还是存在,未来如果能整合开源大模型,适用性会大大提升;其次,现在它只支持预处理完成的scRNA-seq数据,从原始测序数据到预处理这一步还需要研究者自己完成,后续如果能把预处理环节也整合进去,才能真正实现全流程自动化;最后,自主探索虽然能找到更多潜在假设,但也存在一定的假阳性风险,后续需要增加对结果可靠性的自动过滤环节。
对于我们普通生信研究者来说,CellVoyager带来的启发不仅仅是一个可用的工具,更重要的是它指明了大语言模型在生信分析领域的一个重要发展方向:AI不是要替代生信研究者,而是要成为我们的助手,帮我们完成繁琐的代码编写和思路拓展工作,让我们可以把更多精力放在生物学问题的思考上,而不是陷在调试代码的细节里。哪怕你是刚入门的生信新手,也可以用这个工具快速探索数据集,得到初步分析结果,不管是做预实验还是找研究方向,都非常实用。
CellVoyager 完整使用教程 | 零代码单细胞分析神器
本文将手把手带你从安装到实战,完整掌握 CellVoyager 这个 AI 驱动的单细胞分析神器!

📌 工具简介
CellVoyager 是斯坦福大学 Zou Group 开发的 AI 驱动单细胞分析工具。它结合了大语言模型(Claude/GPT-4)的推理能力,能够自动探索单细胞数据、生成假设并执行完整的生物信息学分析。
核心亮点:
•🤖 智能代理自动分析,无需写代码•🖥️ 可视化 GUI 界面,拖拽即用•💬 交互式反馈,随时指导 AI•📓 自动生成 Jupyter Notebook•🔬 集成 DeepResearch 获取背景知识
📦 第一步:安装与环境配置
1.1 克隆仓库
打开终端,执行以下命令克隆 CellVoyager 仓库:
# 克隆 GitHub 仓库git clone https://github.com/zou-group/CellVoyager.git# 进入项目目录cd CellVoyager
1.2 创建 Conda 环境
使用项目自带的 environment.yml 创建环境:
# 创建 conda 环境conda env create -f environment.yml# 激活环境conda activate CellVoyager
💡 提示: 确保已安装 Anaconda 或 Miniconda。环境创建可能需要几分钟,请耐心等待。
1.3 配置 API 密钥
在项目根目录创建 .env 文件,添加你的 API 密钥:
# 创建 .env 文件touch .env# 编辑 .env 文件,添加以下内容:OPENAI_API_KEY=sk-xxxxxxxxxxxxxANTHROPIC_API_KEY=sk-ant-xxxxxxxxxxxxx
⚠️ 注意: 根据你使用的模型选择对应的 API 密钥。如果使用 Claude,需要 ANTHROPIC_API_KEY;如果使用 GPT-4,需要 OPENAI_API_KEY。
🖥️ 第二步:图形界面使用(推荐)
2.1 启动 GUI
streamlit run gui/app.py
命令执行后会自动打开浏览器,显示 CellVoyager 的操作界面。
2.2 配置主界面参数
在 GUI 主界面填写以下信息:
|
|
|
| Dataset |
|
| Dataset Summary |
|
| Past Analyses Tried |
|
| Directions to Focus On |
|
| Additional Biological Background |
|
| Analysis Name |
|
| Analyses |
|
| Max steps per analysis |
|
| Interactive mode |
|
| Notify |
|
| DeepResearch |
|
| Execution model |
|
| Hypothesis generation model |
|
2.3 交互式分析界面
分析开始后,你会进入交互界面,可以:
•✅ Feedback for the agent – 给 AI 提供反馈指导下一步分析•✅ Continue Analysis – 继续分析(带反馈或不带反馈)•✅ Edit Analysis – 编辑、插入和运行代码单元格•✅ Finish Analysis – 让 AI 总结发现并结束分析•✅ Chat with Agent – 与 AI 实时对话(每个分析一个聊天框)
💡 提示: 分析过程中会实时在
outputs/文件夹生成 Jupyter Notebook,你可以随时查看和修改。
⌨️ 第三步:命令行使用(进阶)
3.1 基础命令
python run_cellvoyager.py --h5ad-path PATH_TO_H5AD_DATASET \--paper-path PATH_TO_PAPER_SUMMARY \--analysis-name RUN_NAME
3.2 完整参数说明
|
|
|
--h5ad-path |
|
--paper-path |
|
--analysis-name |
|
--execution-mode |
|
--model-name |
|
--num-analyses |
|
--max-iterations |
|
--interactive |
|
# 查看所有可用参数python run_cellvoyager.py --help
🎯 第四步:COVID-19 实战案例
4.1 下载示例数据
使用 Wilk et al. 2020 (Nature Medicine) 的 COVID-19 外周血单细胞数据:
# 创建示例目录并下载数据mkdir -p examplecurl -o example/covid19.h5ad "https://hosted-matrices-prod.s3-us-west-2.amazonaws.com/Single_cell_atlas_of_peripheral_immune_response_to_SARS_CoV_2_infection-25/Single_cell_atlas_of_peripheral_immune_response_to_SARS_CoV_2_infection.h5ad"
4.2 运行分析
方式一:GUI(推荐)
streamlit run gui/app.py
然后在浏览器中将 covid19.h5ad 拖拽上传即可。
方式二:命令行
python run_cellvoyager.py --h5ad-path example/covid19.h5ad \--analysis-name covid19_analysis
📊 第五步:CellBench 基准测试(可选)
5.1 运行基础 LLM 测试
# 进入 CellBench 目录cd CellBench# 运行基础 LLM (gpt-4o, o3-mini) 3次python run_base_llm.py# LLM 评判python run_llm_judge.py
5.2 运行 Agent 测试
# 运行 Agent 3次(选择模型)python run_agent.py gpt-4o# 或使用 o3-minipython run_agent.py o3-mini
评测指标会输出到 stdout,并保存在 responses/ 和 judged/ 目录。
✅ 总结
通过以上五个步骤,你已经完整掌握了 CellVoyager 的使用方法:
•✅ 完成环境安装和 API 配置•✅ 学会使用 GUI 进行交互式分析•✅ 掌握命令行批量分析•✅ 实战 COVID-19 数据集•✅ 了解 CellBench 评测方法
🎉 现在就开始你的 AI 单细胞分析之旅吧! 无需编程基础,让 CellVoyager 帮你自动发现数据中的生物学洞见。
相关链接:
•GitHub: https://github.com/zou-group/CellVoyager•论文: Wilk et al. 2020, Nature Medicine
教程基于 CellVoyager 官方文档整理 | 作者:Zou Group, Stanford
你平时做单细胞分析最头疼的环节是什么?是代码调试还是找分析思路?欢迎在评论区留言讨论~
👇 关注「公众号」,每日获取前沿生信研究解读
📚 文献引用:Alber, S., Chen, B., Sun, E. et al. CellVoyager: AI CompBio agent generates new insights by autonomously analyzing biological data. Nat Methods (2026).
夜雨聆风