乐于分享
好东西不私藏

2025.10 | NAR:AI智能体协同专家精修,PhaSepDB 3.0让相分离知识库全面翻倍

2025.10 | NAR:AI智能体协同专家精修,PhaSepDB 3.0让相分离知识库全面翻倍

【引言与突破】

在相分离研究领域蓬勃发展的当下,如何系统性地整合海量文献中关于蛋白相分离的实验证据,已成为制约该领域从现象描述迈向机制解析的核心瓶颈。随着研究重心从单纯鉴定相分离蛋白转向深入理解其生物学功能、疾病关联与调控网络,传统依赖人工逐篇精读的数据库维护模式已难以为继,亟需一种可扩展、可信赖的高效知识萃取方案。

近日,在 Nucleic Acids Research 上发表了研究论文「PhaSepDB 3.0: a comprehensive knowledgebase of phase separation-related proteins from AI-assisted curation」。该研究开创性地将大语言模型驱动的智能体系统与两轮专家人工校验相结合,构建了一套人机协同的高通量精修工作流,使数据库条目从上一版的1400余条跃升至3400余条,覆盖蛋白种类翻倍,为相分离社区提供了目前最为全面、结构化程度最高的开源知识资源平台。

【核心图文解析】

图1:AI辅助专家精修工作流的架构与性能

面对相分离文献呈指数级增长带来的精修压力,研究团队并没有完全依赖自动化系统取代人工,而是设计了一套由三个专业智能体串联而成、并嵌入两轮专家把关的混合工作流。第一个数据提取智能体负责读取每篇文献全文,精准识别所有经过实验验证的相分离蛋白及其关键属性;第二个数据格式化智能体将提取信息映射为预设字段的JSON结构化数据;第三个蛋白汇总智能体则自动整合同一蛋白在多篇文献中的分散记录,生成凝练的蛋白全景摘要。所有AI输出均需通过两位独立专家的双盲审校与修订,方可正式入库。这套系统的实际表现验证了其可靠性与高效性。在验证集中,智能体对相分离条目的召回率达到91.5%,关键注释字段的平均准确率超过七成,而经过专家两轮把关后,超过八成的AI生成条目获得直接通过,且每篇文献的自动化处理时间被压缩至五分钟以内。这些数据有力地证明,人机协同并非权宜之计,而是一种兼顾规模与质量的可持续知识萃取范式。

图2:数据库统计与网站界面

在人机协同工作流的强力驱动下,PhaSepDB 3.0实现了内容体量的全面跃迁。相比2.1版本,入库文献从746篇增至1620篇,相分离条目从1419条扩充到3484条,独立蛋白从868种扩展到1849种,实验证据记录更是从1400余条激增至9500余条以上。人类蛋白仍是主体,小鼠、大鼠等模式生物也占据相当比例,反映出社区研究的核心关注点。在数据结构层面,新版对每条记录进行了深度重组,不仅涵盖相分离行为分类、细胞定位、物质状态与相变条件,还系统收录了内在决定因素与调控方式,以及外在伙伴分子与调节因子。值得一提的是,全新的蛋白全景摘要页能将一个蛋白在多条文献中的零散证据自动聚合成连贯的生物学画像,例如对alpha-synuclein的26条记录整合显示其从突触囊泡调控到病理性液固相变致病的完整链条,极大加速了假设生成与机制探索的效率。

【主编方法论笔记】

本文最值得相分离实验研究者借鉴的,并非某一项具体的试管技术,而是其解决领域共性痛点的系统性工程思维。面对成百上千篇文献中格式各异、术语不统一的实验描述,研究团队没有陷入逐篇手工整理的泥潭,而是将任务拆解为提取、格式化、汇总三个连续步骤,分别交给最擅长处理自然语言的大语言模型智能体,同时以专家两轮审校作为质量闸门。这种流水线式设计告诉我们,当研究进入大数据时代,把AI的读取速度与人类的判断精度在正确环节拼接,才是提升科研基础设施生产力的正道。此外,数据库对每条实验证据都保留了原始文献溯源、蛋白构建体信息、细胞系与实验条件等颗粒化细节,这种透明化和可追溯性正是当前相分离研究领域建立标准化基准数据集最迫切需要的要素。

【团队点评与思考】

PhaSepDB 3.0的推出标志着相分离领域知识管理正式迈入AI辅助的高通量时代,其最大贡献在于首次证明了智能体驱动的自动化文献挖掘在专家闭环监督下可以达到可信赖的精修质量,从而将数据库的更新迭代速度与文献产出速度之间的鸿沟大幅缩小。当然,目前的局限也同样值得正视,文献中实验报告的不统一依然是制约数据标准化和预测模型训练的最大障碍,数据库本身尚不能直接解决这一问题。未来若能进一步利用AI能力推动实验报告模板的统一与社区共识的建立,将为下一代相分离预测算法奠定真正坚实的基准。”生物相分离研究”公众号致力于为您拆解前沿文献的设计巧思。如果您在实验设计中有任何疑惑,欢迎在评论区留言与我们探讨交流!

【通讯作者简介】

Tingting Li(北京大学肿瘤医院乳腺中心、北京大学基础医学院生物化学与分子生物学系、北京大学神经科学教育部/卫健委重点实验室):实验室主攻相分离在肿瘤发生与神经科学中的分子调控网络,致力于构建整合多组学数据与AI计算模型的生物医学知识挖掘平台。

【参考文献】

You K, Li R, Lian R, et al. PhaSepDB 3.0: a comprehensive knowledgebase of phase separation-related proteins from AI-assisted curation. Nucleic Acids Res. 2026;54(D1):D445-D450.

原文链接:https://doi.org/10.1093/nar/gkaf973

【文末摘要】

北大团队推出PhaSepDB 3.0相分离蛋白知识库,创新采用大语言模型智能体加专家双轮校验的人机协同工作流,使数据库条目翻倍至3400余条,覆盖1849种蛋白,并新增蛋白全景摘要页,为相分离机制研究与靶点发现提供一站式数据基础设施。

【关于我们课题组】

本课题组由王亮研究员(博士生导师、国家重点研发计划青年首席科学家)领衔。团队长期聚焦生物大分子相分离与染色质高级结构调控,并系统性提出了“凝聚体病 (Condensatopathies)”理论框架。目前,课题组依托多项国家级重点基金,深入解析异常相分离在重大疾病(如神经系统疾病)中的致病机理,并致力于探索靶向干预与溶解异常凝聚体的全新策略。团队核心科研成果已多次发表于Nature(两篇)、Molecular Cell(两篇)、Cell Research等国际顶尖期刊。欢迎海内外同行及优秀学子交流加盟!(联系邮箱:wanglian15@tsinghua.org.cn)

【生物相分离交流群】

本群专注分享前沿文献、讨论最新研究、传递会议动态。 诚邀领域内学者、研究生加入,共同交流进步。 入群请添加管理员微信,备注“姓名+单位+研究方向”。 管理员微信:qyayy20240306,wxy15239005165,QDYJ-79

【相分离科研服务平台】

推广|引领前沿,洞悉生命:您的“一站式”相分离研究伙伴已上线!

相分离生物科技(武汉)有限公司|专业·精准·高效
在生命科学的版图上,生物大分子相分离(LLPS)正在颠覆我们对细胞“区室化”的传统认知。从癌症到神经退行性疾病,异常的相分离是驱动重大疾病发生发展的核心引擎。您是否也面临现象难验证、机制难解析、功能难探索的挑战?相分离生物科技(武汉)有限公司,为您提供从前期筛选到功能解析的“一站式”科研服务!
🔹模块一:细胞内(In Cellulo)相分离特性评估
现象确认(高分辨成像) /动态特性表征(FRAP流动性分析、Time-lapse活细胞追踪) /机制探索(关键结构域验证、致病突变体研究、Cry2光遗传学时空诱导)。
🔹模块二:体外(In Vitro)相分离特性确认
高纯度蛋白纯化与条件摸索/体外FRAP与液滴融合实验/进阶表征(精细二维相图绘制、突变体定量对比)。
🔹模块三:高级功能与互作网络解析
TurboID-MS (凝聚体组分邻近标记质谱鉴定) / b-isox-MS (相分离蛋白组高效富集筛选) /稳转细胞株构建(点突变、基因敲除、内源标签敲入)。
严谨科学品控|深度定量分析|真正一站式服务
欢迎联系我们获取免费个性化方案咨询与报价:
电话:+86 15926358848(微信同号)
邮箱:xiangfenli@llps-bio.com
地址:湖北省武汉市东湖新技术开发区高新大道666号