
论文导读

2026年6月,Auburn大学、河内理工大学及阿拉巴马大学伯明翰分校等研究团队在预印本bioRxiv上发表了题为《PAG-Agent: a biologist-oriented research assistant for context-aware pathway-level analysis and interpretation》的研究。
该研究开发了一款面向实验生物学家的虚拟研究助手PAG-Agent,首次将转录组学数据的多模态预处理、差异表达分析、通路元分析与大语言模型后分析无缝整合。通过创新性的上下文感知排序机制与轻量级上下文学习策略,该系统不仅能一键产出高稳健性的共识通路,还能在无幻觉的情况下自动检索并匹配支撑文献、生成科学假说。在阿尔茨海默病的多中心数据集验证中,PAG-Agent展现出了极高的准确性,大幅降低了生信分析门槛,打通了从组学数据到科学传播的高效通道。
研究背景
在利用高通量转录组学技术探索复杂疾病或生物表型时,研究人员常面临从基因层面的分子变化过渡到系统级生物学机制的巨大挑战。
传统的通路分析(Pathway Analysis, PA)方法虽然能够将差异基因列表转化为功能模块,但往往生成大量统计学显著的通路,且分析时脱离了具体的实验设计与科学目标,导致研究者仍需耗费大量精力去人工筛选、验证和解读真正相关的生物学通路。
主要结果
Part.01
模块化智能体工作流打通统计分析与后分析
全链条
为了打破生物信息学分析工具与下游文献解读之间的壁垒,研究者设计了支持点击与对话双重交互的端到端工作流。
该系统允许用户直接输入表达矩阵、差异表达分析(DEA)或通路分析(PA)结果,并集成多种主流的预处理与统计方法(如limma、DESeq2、fGSEA等),无缝衔接通路层面的共识分析与元分析(Meta-analysis)。其技术突破在于模块(d)中引入了上下文感知的通路优先级排序机制,通过大语言模型(LLM)将实验条件与研究目标作为先验背景,从统计富集的候选通路中精准筛选出与当前表型最相关的生物学过程。

Part.02
交互式多模态界面实现快速DEA分析与结果可视化
在打通全链条工作流后,为了向计算背景薄弱的实验生物学家提供友好的操作支撑,系统构建了直观的交互界面。
用户只需在点击模块中上传阿尔茨海默病(AD)相关转录组数据并配置参数,系统便能在云端自动完成模态特异性预处理与DEA计算,并在对话框中实时返回前20个显著差异表达基因的交互式预览表。

Part.03
多源多方法通路集成分析精准锁定神经退行性
病变共性
在获得基因层面的差异表达谱后,为了克服单一通路分析方法可能带来的统计偏差,系统利用对话模块同时调用了ORA、fGSEA、KS检验和Wilcoxon检验四种方法对AD数据集进行交叉验证。
结果表明,多种分析方法在火山图中均将Alzheimer disease、Parkinson's disease等神经退行性疾病通路推进至显著性前列。随后,系统采用加权Z均值算法(weighted Z mean)对四种PA结果进行通路级共识分析,最终在预览表中高置信度地锁定了PI3K复合体、蛋白酶体等核心致病机制。

Part.04
跨数据集通路元分析与轻量化上下文检索
突破幻觉瓶颈
为了进一步证明系统具备跨研究整合科学发现的能力,研究者调用了通路级元分析模块,利用Stouffer方法对三个独立的AD数据集(涵盖RNAseq、Agilent、Affymetrix三个平台)进行了联合元分析。
系统自动产出的多数据集森林图和条形图清晰地表明,神经退行性病变相关通路在所有数据源中均表现出极高的一致性。在此基础上,针对大模型在检索学术文献时极易出现的“幻觉(Hallucination)”难题,系统创新性地融入了轻量级上下文学习(In-context learning)检索策略。
基准测试表明,即使将底层模型降级,PAG-Agent在五种极具挑战性的文献支撑与引用场景中的表现依然显著优于ChatGPT-4和Gemini等六种主流大模型。

📍参考论文🍃
https://doi.org/10.64898/2026.06.02.729674
END
夜雨聆风