干细胞研究者都知道一件事:iPSC(诱导多能干细胞)技术改变了生物医学的边界,但它同时也是一门"玄学"。
同样的操作,同样的试剂,不同批次的结果可能天差地别。一个研究员可能花三个月建系,最终发现这批细胞根本不能用。一个药企可能耗资千万筛选分化方案,却在临床前卡死。
AI正在系统性地解决这些问题。不是概念,是已经在实验室和GMP生产线上跑起来的真实案例。
iPSC的六道关卡,AI如何逐一破解
第一关:重编程—成功率从"碰运气"变成"可预测"
iPSC技术的起点是重编程:将成体细胞(通常是皮肤成纤维细胞)逆转回多能状态。理论优美,现实残酷—典型重编程效率不足1%,绝大多数细胞死亡或停滞,能成功建系的寥寥无几。
问题不在于方法错了,而在于影响变量太多:供体年龄、细胞传代次数、病毒载体剂量、小分子鸡尾酒配比、换液时机……每个变量都可能决定成败,传统方法只能逐一试错。
AI的切入点是预测,而不是替代实验。
Salk研究所的团队将供体细胞的染色质开放性数据(ATAC-seq)与基因表达谱输入ML模型,在实验开始前3天预测哪批细胞具备高重编程潜力。
模型AUC达到0.89,直接帮助研究团队在下游筛除低潜力批次,节省约30%的实验成本。
更进一步的是2023年发表于《Nature》的Geneformer模型。这个在2900万单细胞数据上预训练的基因组语言模型,经过fine-tune后能预测特定转录因子扰动对重编程效率的影响。
在神经元重编程任务中,Geneformer推荐的因子组合将效率提升了3-4倍——而这个推荐,是模型从基因调控网络的"语义"中推断出来的,不依赖大规模湿实验筛选。
Scripps Research的团队则用了另一条路:贝叶斯优化平台Dragonfly,将Sendai病毒MOI值、转染时间窗口、小分子配比设为优化变量,以colony生成效率为目标函数,仅用18轮实验找到最优参数组合,将心肌细胞重编程效率从0.3%提升至2.1%。
传统穷举法完成同等搜索,需要超过200次实验。
第二关:克隆筛选—从"凭眼力"到"机器自动挑"
重编程成功后,培养皿里会出现若干候选克隆。哪个是真正的iPSC?哪个是假阳性?哪个内部已经开始分化?
传统做法是研究员趴在显微镜前,凭经验逐一判断,再用挑克隆针手动取出。这个过程主观性强、通量极低,两个人看同一个克隆可能给出完全不同的结论。
AI用的是同一张显微镜,但判断逻辑完全不同。
京都大学CiRA(山中伸弥团队)部署了基于ResNet的实时监控系统,每2小时采集一次相差图像,持续追踪克隆形态变化。
关键突破在于:模型在Day 2就能检测到早期分化迹象(表现为克隆边缘形态的细微变化),而传统OCT4免疫染色最早也要Day10-12才能确认。
提前8-10天的预警,意味着可以及时干预,而不是等整批细胞废弃后才发现问题。
Ragunton等人开发的系统走得更远:无标记、在线、实时的colony计数与质量分级,模型输出每个克隆的质量评分,通量比人工提升10倍。结合机械臂,系统可以自动标记并优先挑取评分最高的克隆,整个过程不依赖人工干预。
这类系统的商业化已经开始。多家自动化显微镜厂商(如Sartorius、Molecular Devices)正在将AI克隆评分模块集成进标准设备,研究室不需要自建算法,开箱即用。
第三关:质量控制—从"两周等待"到"两天放行"
iPSC建系之后,在正式用于研究或生产前,必须经过严格的质量检测:核型是否正常?多能性marker是否充分表达?有没有拷贝数变异(CNV)?表观遗传是否稳定?
传统全套QC耗时2-3周,是iPSC产业化最大的时间瓶颈之一。更麻烦的是,这些检测结果来自不同平台、不同格式,如何综合判断"这批细胞能不能用",本身就是一件依赖专家经验的事。
BlueRock Therapeutics(拜耳旗下iPSC疗法公司)在其GMP生产线上构建了三层AI并行QC体系:
核型分析方面,CNN模型直接解析染色体G显带图像,判断染色体数目异常和结构变异,将原本5天的人工分析压缩至4小时;
多能性评估方面,模型从相差显微镜图像中直接提取形态学特征,给出多能性评分,实时输出,无需等待免疫染色;
功能验证方面,DL模型自动解析MEA(多电极阵列)电生理信号,30分钟完成原本2天的人工判读。
三项并行,QC周期从16天压缩至2天。这套体系已支撑BlueRock旗下帕金森病iPSC疗法的IND(临床试验申请)申报。
在多组学维度,scGPT在海量单细胞数据上预训练后,fine-tune可直接从scRNA-seq输出多能性评分和分化偏向预测,不再依赖人工设定marker阈值——这对跨实验室、跨细胞系的标准化放行判断具有重要意义。
第四关:定向分化—把"黑箱操作"变成"可控工程"
iPSC最终要分化成有用的细胞:心肌细胞、神经元、肝细胞、胰岛细胞……每种细胞的分化方案都是一套包含20-30个步骤的操作规程,细胞密度、生长因子浓度、加药时序、氧浓度……任何一个参数偏差都可能导致目标细胞比例不达标。
即便是经验丰富的实验室,批次间分化效率的变异系数也常常超过40%。
AI在这里的价值不是替代生物学判断,而是把"直觉"变成"可计算的过程控制"。
Fujifilm CDI在心肌细胞分化生产中部署了LSTM时序模型,整合每日采集的细胞形态特征和培养基代谢物数据(乳酸/葡萄糖消耗率),预测Day 21的cTnT阳性率(心肌细胞成熟指标)。
当模型预测值低于设定阈值时,系统自动推送CHIR99021浓度的调整建议,操作员据此干预。
结果是批次间变异系数从42%下降至18%,稳定性大幅提升,这直接决定了生产线能否保证每批细胞都达到临床级标准。
强化学习在这个场景中代表更激进的方向:将分化过程建模为序列决策问题,AI根据每日观测的细胞状态,自主推荐当日操作(加哪种因子、换什么培养基),并从最终分化结果中学习。
目前这类系统还在学术验证阶段,但已有团队在视网膜色素上皮细胞(RPE)分化中展示了超越人工方案的成熟度。
第五关:细胞身份判断—"分化出来的细胞是否真的能用"
这是很多研究者忽视、却往往致命的一关。
分化结束后,流式细胞仪显示cTnT阳性率85%,看起来不错。但这批心肌细胞是心室型还是心房型?成熟度够不够?和上一批的一致性如何?这些问题直接决定这批细胞能不能用于药筛或移植。
AI把细胞身份判断从"单一marker打分"升级为"多模态综合评估"。
Hong等人整合基因表达谱、细胞形态和电生理特征,训练多模态模型量化iPSC-CM(iPSC来源心肌细胞)的成熟度评分,精度比单一cTnT marker判断提升35%。
模型输出的不只是一个数字,而是细胞亚型标注(心室型/心房型/结节型)+ 成熟度百分位 + 与参考批次的一致性评分。
跨批次一致性是产业化的核心问题。scArches、Harmony等工具专门处理批次效应,将不同批次的scRNA-seq数据整合到统一坐标系中,让研究者可以直接回答"这批细胞和三个月前那批是不是同一种细胞"。
第六关:疾病建模与药筛—把患者装进培养皿
iPSC技术最令人兴奋的应用,是用患者自体细胞在体外重建疾病。
患者的iPSC分化成心肌细胞,就能在培养皿里展现患者心脏的疾病表型;分化成神经元,就能研究患者大脑里发生的事。
问题在于:高内涵成像一次能产生TB级数据,药物筛选动辄涉及数万化合物,人工分析根本无法跟上。
AI在这里是唯一可行的分析引擎。
Recursion Pharmaceuticals将Cell Painting高内涵成像与深度学习结合,在iPSC来源的神经元模型上筛选ALS(渐冻症)候选药物,单次实验覆盖超过10万种化合物,命中率是传统方法的4倍。
Cell Painting用6种荧光染料同时标记细胞的不同结构,DL模型从图像中提取数千个形态特征,捕捉人眼根本看不见的细微表型差异。
UCSF的团队走向了更个体化的方向:从患者iPSC分化出心肌细胞,用ML分析钙瞬变波形(反映细胞电活动的光学信号),预测患者个体对抗心律失常药物的反应。
准确率83%,初步实现了"临床试验in a dish"——在正式用药前,先在患者自体细胞上测试药物反应。
DeepNEU则代表了更前沿的方向:纯计算机模拟iPSC分化过程,in silico预测疾病新靶点,再交给湿实验验证。
在Pompe病(罕见溶酶体贮积症)的研究中,DeepNEU通过模拟找到了新的治疗靶点,全程不需要先做实体细胞实验。
技术正在成熟
回顾这六道关卡,AI的介入有一条清晰的逻辑主线:从图像开始(门槛最低),延伸到过程控制(价值最高),最终到达分子层面的预测与决策(影响最深远)。
对于正在做iPSC研究的团队,落地路径并不遥远:
现有的自动化显微镜加一个AI模块,就能实现克隆自动筛选;
现有的QC数据接入多模态模型,就能把放行周期压缩到原来的1/8;
现有的分化数据积累到一定量,就能训练过程控制模型消除批次差异。
这不是五年后的事。BlueRock已经在GMP线上跑了,Recursion已经在用AI跑药筛了,Fujifilm CDI已经把批次变异压下来了。
iPSC研究的下一个十年,AI不是可选项,是基础设施。
参考:Geneformer (Theodoris et al., Nature 2023) / BlueRock Therapeutics GMP pipeline / Fujifilm CDI CM differentiation QC / Recursion ALS screening / UCSF iPSC-CM personalized cardiology
加入AI4Cell的社区

夜雨聆风