文前
真正定义信息的是“联结”,而不是“渲染”或“象征”:只要能将各个不同的点联结成网络,就是信息。信息不一定是要告诉我们一些什么,而是要把事物组织起来。
《智人之上:从石器时代到AI时代的信息网络简史》尤瓦尔·赫拉利
放到生信分析里,这段话尤其值得思考。AI 可以越来越快地完成质控、各类分析和作图,但真正有价值的部分,仍然是把研究问题、实验设计、数据结果和生物学解释联结起来。所以,未来研究者最重要的能力不再是亲手完成每一步分析,而是定义问题、设计实验框架、判断结果是否可信并从结果中组织出真正有效的信息。
正文
最近又刷到不少 AI 生信智能体或分析工具,除了基本的实验数据分析外,不少智能体还宣传可以很好完成单细胞转录组、空间转录组甚至多组学联合这样较为复杂的分析。除了我们公众号介绍过的 DryLab 和 Ginkgo,Biomni、BiOmics、scGPT、DeepVariant、OmicOS(最近准备测试的一款智能体产品) 、OmicClaw 和 PantheonOS 等也在优质期刊发表或进入应用反馈阶段。

omicOS 官网
这些智能体产品究竟好不好用,有没有坑,还需要通过测试来检查。毕竟没有经过实战,就永远不知道智能体做分析到底能拿到怎样的结果,其成本(token消耗)又是否在可控范围内? 以及,在这个过程中有哪些不同于直接与大模型对话交互的技巧?

omicOS 软件界面
同时,纵观社交媒体的评论,目前还没有看到哪个产品能让一个纯小白用户快速上手拿到结果,会使用的人大部分还是有生物信息基础的研究者。回看我们更新的一系列教程,我感觉代码的价值将越来越小,反而是我们对一个分析流程的步骤梳理和对每个结果的解读将变得更为重要。也就是说,我们应该成为一个好的分析管理者和调度者,带好手下这些绝顶聪明的 AI 分析师。
我们不妨探讨一下在编程不再是瓶颈的背景下,应该提升自己的哪些技能? 应该如何更好与 AI 协作? 而这个频道应该更多分享什么样的内容,才能最大限度的帮助到读者? 我们一个一个来讨论。
一、我们该提升什么技能?
问题定义和基本分析框架 AI 不会主动指引你,它只能回答你提出的问题。如果你只会说 “帮我分析 RNA-seq 数据”,得到的回答可能不如这样表述 “我想验证基因A是否参与病原菌侵染过程,希望从差异表达、共表达网络和已知抗病通路三个角度获得依据。” 你的问题水平决定了 AI 分析水平,清晰、完整的问题定义能力非常重要。 了解基本分析框架表现在,你不需要知道软件的具体参数,但你应该知道分析要经过(以RNA-seq为例)质控-标准化-差异基因分析-富集-验证的大致过程。也就是要知道,基本分析包含哪些步骤。 证据链思维和AI协作水平 AI 很容易给出漂亮的图片和数据,也能帮你从结果推理连接结论。我们要锻炼自己的证据链思维,从 AI 给的图很不错,到这些图的数据是怎么拿到的?从 AI 说得头头是道,到判断其结论的依据是否合理等等。 未来作为 AI 分析师管理者,我们需要的是给目标、给约束、给数据、分权限和查结果的技能,而搜文献、写代码、跑分析和出图片等则可以交给智能体完成。 生物学积累和直觉 AI 的知识库来源于人类,真正的生物学突破往往来自研究经验、生物学直觉或对领域空白的新见解。在 AI 给出的众多分析中,哪一个/些值得再花时间验证?这样的判断反而会越来越重要。
二、我们如何与 AI 分析智能体协作?
发布任务书而非简单说明 不要单纯说,“用这个数据做个 GWAS 分析”,最好是给出一个任务书文档: 研究目标:寻找抗病相关位点数据:300份材料500万SNP希望输出:1. PCA2. Kinship3. MLM GWAS4. Manhattan Plot判定标准:QQ Plot正常显著位点P<1e-6一方面方便你保存追溯,另一方面也不会让 AI 没有边界的随意发挥。 输出分析决策标准和日志 对于 AI 分析的过程,也应该留档。应该让智能体保留决策标准并输出日志,比如:为什么过滤用 MAF<0.05? / 为什么去掉了某些样本?重要的不再是代码,而是为什么这么做。 保留分析报告而非纯结果 就像决策日志一样,我们应该考虑使用以下提示词: 除了代码,请同时输出:1. 分析目的2. 方法选择理由3. 参数解释4. 结果解读5. 潜在偏差6. 后续验证建议这样你得到的就不仅仅是代码,而是代码+文档+思考过程,你只要阅读这些文档,就能够更好做出判断。
三、这个频道该做怎样的更新?
广泛分享各类生物学读物 前面已经提及,技术作为外挂的背景下,更重要的将是研究者的问题意识、生物学判断和研究直觉上。所以,之后这个频道不会只更新软件教程和分析流程,也会适当分享一些优质的生物学读物、科普作品和跨学科音视频内容。我希望这些内容不只是增加趣味性,更能帮助读者积累对生命现象的敏感度,形成自己的生物学“问题感”和“生活应用实感”。 侧重生信流程和结果解读 在后续更新中,我考虑将每个组分分析流程以脑图形式整理,全面直接地展示所有步骤,便于读者了解所介绍分析的每一个环节,以更好与 AI 智能体直接交流。另外,针对每一个组学添加论文精读完结篇,用文献串联起分析的每一个步骤,让读者了解实际文献中展示了哪些数据,并学习如何将数据分析与生物学意义串联。 跟进智能体知识库及建设 AI 技术发展已经让人有点眼花缭乱,从大语言模型到智能体,也不过短短半年。除了第一时间知悉有哪些产品问世外,其应用测试和后续社区知识库的建设也需要持续关注。毕竟,智能体知识库和教程越完善,普通用户越能快速上手试错,发现最适合自己的生信分析产品。
结语
以上就是我最近的一些感想,原本考虑单独建立一个自我思考的合集来存放这篇文章,最后还是放在了生物信息基础合集中。也许,夯实基础、保持思考、适时调整才是做生物信息或生物研究最重要的基础吧。最后,也欢迎各位评论交流或补充你希望在本频道看到的内容。
夜雨聆风