塞尔,你好。
这是运来哥生信家书的第九十二封。仲春三月的西北,从西安到兰州,一路上可以看到从秦岭到祁连山上越来越清晰的雪。置身其中,能够清晰感受到气候的变化,一票之隔,画里画外,从地铁里出来已经是另一番天地。

过去的一周,也是大家养虾(安装OpenClaw)的一周,一天晚上刷到几只只“组学虾”:BioClaw、OmicsClaw[4]、ClawBIO以及OmicClaw: executable and reproducible natural-language multi-omics analysis over the unified OmicVerse ecosystem[1]。这不由得让人想起2024年在ChatGPT大火之后的scGPT[2],把生信工具的开发带到一个新的境界,后续大模型和AI生信工具高频发表。
越来越多的生物信息分析工具,含有内置数据集或训练好的模型,以便用户调用,如哈佛等团队开发的starCAT框架[3],构建一个覆盖38个人体组织、5种疾病背景的170万T细胞图谱,为免疫细胞状态注释提供了可重复的“语义坐标系”。
这些生信分析Claw的发表,自然会让生物信息工具的开发朝着AI更近一步。

援引一作对OmicClaw的介绍:
OmicClaw应该是一个能自主完成多组学分析的小龙虾🦞,能做到这件事,并且做的相当完善,那么就要求将多组学算法的API完全统一,这样大语言模型在自主进行分析的时候,幻觉,错误率,效率三者才能最大程度地平衡。[4]
当生信工具丝滑接入Claude Code/Codex,甚至是openclaw,这不由得让我们回想起,生物信息工具的几种呈现形式:
1,几行代码的脚本2,可以调用的程序包(R/Python/...)3,在线数据库4,界面版生信分析(云平台)5,含大模型工具(LLM)6,含有Agent Skills,支持零代码环境搭建,接受自然语言描述需求,AI辅助生产生信技能。
生物信息工具的开发者紧跟时代前沿,而作为工具的使用者,Agent的引入无疑又重新定义了学习和使用生信工具的场景。当生物学工具是数据库或界面云平台,使用者熟悉操作文档,能查询或上传数据就行。当生物信息工具只是几行代码或程序包,使用者需要配置环境让这些运行起来,理解函数参数含义。当生物信息工具可以自己配置分析环境,甚至根据自然语言的提示生成可执行的Skills,使用者之间的区别就很小了。
可以说,生物信息工具中Agent(智能体)的普及, 让生信工具执行者升级为科研协作方,对使用者的改变集中在门槛、效率、角色、思维、协作、能力边界六个维度,核心是降低生信门槛、解放人力、重构科研范式。在讲述生物信息分析内容时,用到多自动化或多高级的工具已经不重要了,对生物学问题的挖掘更重要。
以后可能没有“学生信”这一说了,因为大家都可以无门槛地“用生信”了。门槛还是有的,计算资源越来越重要,生物信息基础也越来越重要。
毕竟,基础不牢,地动山摇。生物信息不再是一种工具、一种能力,而真正是一门学问。生物信息学的虾,你养好了吗?
[1]OmicClaw: executable and reproducible natural-language multi-omics analysis over the unified OmicVerse ecosystem[2]Cui, H., Wang, C., Maan, H. et al. scGPT: toward building a foundation model for single-cell multi-omics using generative AI. Nat Methods 21, 1470–1480 (2024). https://doi.org/10.1038/s41592-024-02201-0[3]https://github.com/immunogenomics/starCAT[4]https://github.com/TianGzlab/OmicsClaw
夜雨聆风