监管科学 | 面向临床研究的统计软件系统开发

摘要

临床试验数据的统计分析是药品研发和审评过程中的核心环节，对促进医药产业高质量发展和提升药品现代化监管技术具有重要意义。然而，传统统计方法难以应对不完美随机化或数据不足等复杂情况。为此，本研究开发面向临床研究的统计分析系统，以提升药品监管审评和临床研究中药品有效性和安全性评估的科学性、准确性和灵活性。该系统引入国际前沿的因果推断方法、数据填补技术和机器学习算法，并结合智能化数据处理和图形展示，增强用户对复杂场景分析策略的理解与应用效率，确保研究成果的高质量。系统的创新性统计分析功能包括两个核心模块：①针对临床试验随机化被破坏和真实世界数据环境，提供基于替代变量的主层方法和数据融合等因果推断策略，确保药物有效性评估结果的因果解释性和稳健性；②在有限的临床数据基础上，提供可整合多源数据和安全监测信号的新型机器学习算法，构建药品不良反应信号挖掘和预测模型，增强对潜在不良反应的预警能力。本研究总结该系统功能与创新方法，以期为药品监管审评和临床研究中的药品有效性与安全性分析提供有力的技术支持。

关键词

因果推断；药品有效性分析；药品不良反应监测；机器学习

【引用格式】夏天雨，周怡，尤翀，等.面向临床研究的统计软件系统开发［J］.中国医药导刊，2024，26（11）：1080-1086.

【作者】夏天雨，周怡，尤翀，周晓华，国家重点研发计划“面向药品现代化监管的智能化服务平台”项目团队

【单位】北京大学公共卫生学院生物统计系，北京国际数学研究中心，北京 100871；复旦大学上海数学与交叉学科研究院，上海 200433；北京大学，北京 100871

面向临床研究的统计软件系统开发

Development of A Statistical Software System for Clinical Research

临床试验的有效性和安全性评估是药品研发和监管的重要组成部分。近年来，随着药品监管体系的不断完善，提升审评技术的需求愈发紧迫。为确保药品临床试验的科学性和一致性，国际人用药品注册技术协调会（ICH）发布了E9（R1）《临床试验中的估计目标与敏感性分析》指导原则增补，进一步完善药品临床试验设计、分析和解释的系统框架^［¹^］。E9（R1）通过定义“估计目标”这一概念，提出一种系统化的试验设计和数据分析方法，当伴发事件（如补救治疗、治疗终止等）发生时，对治疗效果进行清晰定义和稳健分析提供5种处理策略：疗法策略、假象策略、复合变量策略、主层策略和在治策略。目前，这套临床试验数据分析标准已被美国食品药品管理局（FDA）广泛应用。我国国家药品监督管理局作为ICH成员，于2022年正式要求所有新启动的临床试验适用E9（R1）标准^［²^］。药品的有效性评价通常通过随机临床试验进行，随机化可以平衡实验组与对照组的协变量，确保治疗效果的准确评估。然而，ICH E9（R1）中提出的5种有效性分析策略，其估计量缺乏明确的数学表达形式，可能导致数据分析员与解读结果的临床医生和监管机构之间出现不一致性^［³^］；另外，随机化在实际操作中可能因依从性问题、数据缺失或死亡截断等因素被破坏，导致协变量不平衡，进而影响有效性评估结果。因此，本研究提出针对不同复杂场景的估计目标精确定义和因果推断统计分析方法，以克服相关场景下随机化被破坏的问题，并提供更灵活且具有因果解释性的解决方案。

此外，近年来基于真实世界数据（RWD）研究逐渐成为另一种用于支持药物研发与监管决策的常用方法。国家药品监督管理局于2020年发布《真实世界证据支持药物研发与审评的指导原则（试行）》，明确了真实世界数据的定义、来源和适用性，并提出相关研究设计和分析方法的基本要求，但试行版本仍有待完善^［⁴^］。与传统随机临床试验不同，真实世界研究可能面临未观测混杂因素对评估的偏倚影响。本研究提出稳健且具有因果解释性的统计方法，为真实世界数据分析提供了支持。

药物安全性监测和药品安全性分析是药物研发和监管的另一核心环节，旨在保护患者安全并支持监管决策。目前，药物临床试验普遍遵循ICH E2E《药物警戒计划》，该指南为药物生命周期的各阶段（从上市前试验到上市后监测）制定了识别和管理潜在安全性风险的结构框架^［⁵^］。其中关键组成部分之一是临床试验停止标准的制定。ICH E6 （R2）《临床试验质量管理规范》中明确指出，在高风险临床试验中，当严重不良事件显著增加且超过预定阈值时，应暂停或终止试验以保护受试者安全^［⁶^］。然而，目前对安全性信号的整合分析和筛选多基于经验性方法，且多数信号在试验监测后期或上市后阶段才能显现。针对这一问题，本研究就药品不良反应信号发掘、药品和个体不良反应预测进行了深入研究，提出新型机器学习方法，用于优化不良事件的实时预测与信号检测，从而为试验规划和药物警戒提供更全面科学的支持。

通过综合需求分析，本研究结合新型统计方法与现行ICH E9（R1）等指导原则，设计并构建面向临床研究的统计软件系统。该系统为药品审评人员、临床研发人员及生物统计人员提供用户友好的药品有效性和安全性分析平台，提高工作效率，保障分析准确性。

系统总体架构和

主要模块

本研究开发的统计软件系统为交互式网络应用程序，包含临床试验和真实世界研究的统计分析算法选择、预测建模、可视化展示及报告自动生成等功能模块。根据临床研发中不同的需求，平台分为多个模块，包括药品有效性分析、药品安全性分析、缺失填补以及常用统计分析方法。见图1。

图1 系统总体设计框架

药品有效性分析模块可分两大类应用场景：无未观测混杂场景以及存在未观测混杂场景。在无未观测混杂场景下又分为5类：①完美随机化临床试验，适用结局包括一般结局（包括二值或连续变量）或生存时间结局。②随机化试验存在非依从，适用结局类型包括一般结局或生存时间结局，具体分析方法包括意向治疗分析、在治策略、符合方案策略、主层策略。③随机化试验存在死亡截断，适用结局类型包括一般结局或生存时间结局，具体分析方法包括疗法策略、组合策略、在治策略、假象策略、主层策略（生存时间结局）、基于替代变量的主层策略（一般结局）。④随机化试验存在结局事件缺失，这类场景中又可细分为3类：部分结局存在随机缺失，适用结局为一般结局，具体分析方法包括可用案例分析方法、多重填补方法、逆概率加权方法、双稳健方法；感兴趣的结局（长期结局）完全缺失，仅有观测到代理结局（短期结局），需要结合一个观察性数据同时包括长期结局和短期结局进行数据融合，适用结局为一般结局，具体分析方法为数据融合结合逆概率加权的方法；部分结局由于治愈导致非随机缺失，适用结局为事件结局，具体分析方法为主层分析方法。⑤观察性研究，观察性研究不同于随机化试验，其分配机制是未知的仅包含已观测协变量的函数形式，适用结局为一般结局和事件结局，关于一般结局的具体分析方法包括回归调整、逆概率加权、双稳健方法，关于时间结局的具体分析方法包括逆概率加权的Kaplan-Meier方法和Cox回归方法。在存在未观测混杂场景下分为2类：①真实世界数据仅存在未观测混杂，适用结局类型为一般结局，具体分析方法有工具变量方法和阴性对照方法；②真实世界数据存在死亡截断，适用结局类型为一般结局，使用对照组幸存者的平均因果作用作为指标的方法。

药品安全性分析模块可以分为3大类：药品不良反应信号挖掘模块、个体不良反应预测功能模块、药品不良反应预测模块。

除上述药品有效性因果推断和药品安全性分析，系统还包含临床试验中常用基础的统计方法，帮助临床用户分析简单的数据，以增强本系统的实用性。基础的统计方法具体包括适用于单样本或双样本的各种假设检验、适用于连续性或二值型结果数据的回归分析、适用于生存数据的生存分析、临床试验中常用的样本量计算等。

关键技术和创新方法

2.1 药品有效性评估

2.1.1　随机化试验中存在死亡截断——基于替代变量的主层策略

死亡截断为伴发事件的一种类型，不仅限于死亡事件^［⁷^］。伴发事件泛指治疗开始后发生的、对临床问题相关结局变量产生影响的事件。这类事件可能导致结局变量无法被观测或定义，且其影响无法通过随机化干预来消除^［¹^］。需要特别指出的是，死亡截断与数据缺失是不同的：前者会影响估计目标的确立；而后者结局被定义但未被观测到。

针对一般结局的临床试验，本研究创新研发了基于替代变量的主层策略用以估计伴发事件下真实的药品因果有效性方法^［⁸^］。此策略通过引入替代变量，放宽了传统主层策略^［⁹^，10^］中工具变量选择的苛刻要求和对主层可忽略性假设的依赖，即不同主层的潜在主要结局均值不同，且因果参数独立于分析中包含的协变量。该研究证明了基于此类替代变量可以识别存活者平均因果效应，并在更温和的假设下，提出了估计存活者平均因果效应（SACE）^［⁷^-9^，11^］的新模型参数化方法。这一创新方法填补了在处理基线协变量作为治疗、存活和结局三者之间复杂情形上的空白，提高了识别和估计策略的灵活性，也增加了主层分析策略在实际应用中的价值。

2.1.2　随机化试验中存在结局事件缺失

随机化试验存在结局事件缺失一般定义为受试者结局有定义但未被收集到。如患者拒绝随访、搬家等。缺失可能与潜在的治疗效果有关。本研究讨论了针对3种结局数据缺失原因的药品有效性估计方法。

①部分结局存在随机缺失。长期临床试验可能会遇到结局变量和协变量数据随机丢失不完整的情况^［¹²^-15^］。本研究开发了适用于随机缺失响应和协变量的双重稳健（doubly robust）估计方法，在逆概率加权方法^［¹⁶^］基础上引入结果回归模型^［¹⁷^］。其优势在于双稳健性，即只要处理缺失概率模型或结果回归模型其中之一正确，即可提供一致性的因果参数估计^［¹⁸^，19^］。

②存在因治愈而导致缺失数据。当结果变量是事件发生时间型结局时，如果个体被治愈，或提前退出试验，即使疾病未复发，并不意味一定被治愈，可能是复发时间在临床试验结束后，目标事件的发生时间信息缺失。在该场景下，研究者首先希望知道治愈率更高的治疗方案，如果两种治疗方案都无法治愈患者，则希望知道哪种治疗方案能延长生存时间。为此，本研究提出了适用于结果变量是事件发生时间型结局的、基于主层分析策略的新方法^［²⁰^］。通过构建治愈率模型评估和比较治愈率的差异，采用主层方法，构建不被治愈条件下的生存时间模型来评估和比较不被治愈组内的生存函数差异，即不被治愈组内对生存时间的因果作用。

③仅存在代理结局。若临床试验需对长期效果进行评估，如慢性疾病，由于时间限制，其结局变量往往需要较长时间才能观察到。因此研究者提出选择短期替代变量的方法^［²¹^］，这些方法往往假设较强^［²²^］，实际数据中难以满足^［²³^］。本研究旨在通过因果推断中数据融合这一思路，结合RCT数据集和观察性数据集，再应用逆概率加权的方法，确定药物对长期结果的因果作用^［²⁴^］。

2.1.3　同时存在非依从、死亡截断和缺失数据——基于潜在结果和主分层框架的方法

当随机临床试验同时面临非依从、死亡截断和缺失数据等问题时，本系统整合多种基础分析策略，为用户提供全流程分析功能。采用多重填补方法，对原始缺失数据进行多次独立填补，生成多个完整数据集；对每个填补后的数据集，支持用户选择多种因果估计方法（意向性治疗策略、在治策略、符合方案策略、两阶段最小二乘法以及主要平均因果效应分析方法）进行分析，分别计算出因果作用估计量；采用Rubin组合规则，将多个填补数据集的分析结果合并^［²⁵^］，进而得到药物的有效性分析结果。这一流程确保复杂情况下因果推断的灵活性与稳健性，为药物有效性分析提供全面可靠的解决方案。

对于非随机化分组设计的临床试验，又可进一步分为两个分析场景。

2.1.4　真实世界数据存在未观测混杂

不同于观察性数据，真实世界数据可能存在未观测混杂因素，导致非混淆性假设不成立，无法得到平均处理效应的一致估计。因此，本研究通过引入辅助变量的方法，比如工具变量法和双阴性对照等方法^［²⁶^，27^］，提供了适用于结局变量为一般结局（二值或连续变量）类型的分析功能。

2.1.5 真实世界数据存在死亡截断的因果推断

在“2.1.4”的基础上，考虑到适用于结局变量为一般结局类型，本研究基于替代变量的主层策略处理真实世界数据中存在死亡截断问题，目标估计为幸存者平均因果作用^［²⁸^-30^］，与“2.1.1”相似。此方法需要假设潜在可忽略性（在幸存者中满足无混淆性）^［³¹^，32^］，同时要求单调性以及替代变量的相关性和排他性^［²⁰^，33^，34^］。

2.2 药物临床试验全生命周期的安全预警

药品不良反应预测在医疗和药物研发中起至关重要的作用。药物警戒旨在检测与药物使用相关的、此前未被识别的不良事件。本研究在药品安全性的不良反应预警研究方面开展3个研究内容。

2.2.1　药品不良反应信号挖掘

为了检测与药物使用相关的、此前未被识别的不良事件信号，最简单的方法是粗略查看自发报告的药物-事件组合列表^［³⁵^］，定量和自动化的基于计数的方法。目前，国内外药品不良反应信号监测的常见统计指标包括报告比数比法（ROR）^［³⁶^］、比例报告比值法（PRR）^［³⁷^］、相对危险比（RRR）^［³⁸^］、基于信息分数（IC）的贝叶斯可信传播神经网络法（BCPNN）^［³⁹^］和卡方检验。以往临床试验中多经验性地联合使用上述统计量和对应阈值^［⁴⁰^，41^］。本研究开发了机器学习算法（GBM和RF算法^［⁴²^，43^］），通过联用多种不良反应信号监测指标，实现不良反应信号挖掘的功能，从多个统计指标所总结信息的角度来全面预测不良反应。

此外，对于联合用药的不良反应数据，本研究也提出新的方法，旨在从数据中挖掘出药物⁃药物间的相互作用信号。相互作用是指当两种或两种以上药物被同时或先后服用时，可能发生药动学或药效学参数的改变，从而导致药物效应增强（协同作用）或减弱（拮抗作用）。目前国内外常用的药品不良反应信号检测方法主要通过计算研究目标药物的不良反应报告数与其他药物或预期的不良反应报告数之比^［³⁷^，44^］。其原理主要立足于两种或两种以上药物风险关联性，衡量一种药物引发的某种不良事件风险或报告数是否会随着另一种药物的暴露与否而改变^［⁴⁴^，45^］。该场景下的统计指标与单独用药相比略有不同，本研究使用Ω收缩测量值^［³⁶^，46^］、组合风险比（CRR）^［³⁷^］、伴随信号得分（CSS）^［³⁸^］和带有叶氏修正的卡方检验指标^［³⁹^］，从而评估特定药物组合与不良反应之间的关联强度。

2.2.2　个体不良反应信号预测

对于罕见不良反应，预测其发生率会出现统计学中分类标签不平衡的问题^［⁴⁷^］，针对真实世界的药品安全性数据，本研究提出集成聚类重采样提升学习方法。该方法基于谱聚类的集成重采样算法处理高维的分类标签不平衡问题，使其中不良反应发生和未发生的样本比例约为1∶1。基于谱聚类的集成采样算法能快速高效地从大量未发生不良反应的患者中采集具有代表性的患者样本，降低数据的不平衡程度。应用基于广义非参数分类模型的XGBoost算法建立分类模型^［⁴⁸^］，有效预测不同基线信息的患者用药后不良反应发生率。该方法的优势在于XGBoost具有优秀的模型性能和较快的计算速度，可部署在不同的系统中。

2.2.3　药品不良反应预测

目前，对于预测药品-不良反应发生率的研究方法^［⁴⁹^-51^］，不能有效利用非临床数据（药物物理、化学和生物信息），或没有建立基于内容的过滤与纯协同过滤之间的联系。本研究提出结合临床和非临床数据进行药品不良反应预测的广义协同过滤方法，名为ADRNet^［52^］。通过临床数据中的潜在嵌入和非临床数据中的高维药物描述符，该模型结合了协同过滤和深度学习的优势^［⁵⁰^，53^］，具有较高的并行效率，可提升多标签联合预测的准确性。其中，本研究提出的广义协同过滤算法使用药品的历史呈报记录进行不良反应预测；也可使用药物结构和蛋白质信息并结合收集的药品-不良反应共现矩阵进行更准确的不良反应预测。

ADRNet模型结构包含3个模块：深度药物表征模块、浅层协同过滤模块和药物协同过滤模块。与传统的机器学习模型相比，在药品不良反应预测方面，ADRNet使用的深度学习表现更强，其模型结构非常灵活可调，且具有良好的泛化能力。与此同时，ADRNet通过浅层协同过滤模块，使药品不良反应预测模型具有很强的记忆能力。此外，药物协同过滤模块作为链接深度药物表征模块和浅层协同过滤模块的桥梁，整合了从深度网络中学习到的药物表征与从浅层网络中学习到的不良反应潜在向量，结果输入至全连接层即可得到药品-不良反应预测。

统计软件的系统实现

为促进药品有效性分析、药品安全性分析、缺失填补以及常用统计分析方法的实际应用，本研究团队开发了相应的统计软件系统。本统计软件系统搭建在Alibaba Cloud Linux 3（Soaring Falcon）服务器之上。本统计软件系统的计算主要基于编程语言R语言4.2.1与Rshiny 1.7.3开发。

本系统集成模块选择、数据导入、场景选择、算法选择、结果计算与报告生成等核心功能。其中统计报告内容涵盖试验概述、分析方法、结果和结论，支持多种格式的下载（如Word、PDF、Excel），为结果分享与应用提供便利。此外，系统平台上配有方法介绍、操作指引和示例数据，帮助用户理解方法并快速上手。特别是针对不具备统计分析或编程能力的用户，系统提供了高效、直观且专业的统计分析工具，大幅降低了数据分析的技术门槛。

研究成果和系统平台应用情况

在创新成果方面，本研究不仅开发了面向临床研究、用户友好的统计分析平台，还在药品有效性因果推断方法的理论研究上取得重要进展。目前，在该平台框架下，团队共发表9篇学术论文，涵盖复杂场景下的临床估计量定义^［³^］、缺失数据处理^［⁵⁴^］、死亡截断^［²⁰^］、半竞争风险模型^［⁵⁵^］、代理变量^［²⁴^］、双重稳健学习方法^［⁵⁶^］和未观测混杂偏倚^［⁵⁷^］相关领域的因果推断方法，以及药品不良反应预测模型^［⁵²^］和临床试验荟萃分析^［⁵⁸^］，为药品有效性评估方法和安全预警技术提供了坚实的理论支持，进一步巩固了平台的科学性，展现了研究项目的学术影响力和创新性。此外，团队已申请10项发明专利和3项软件著作权，为平台的长期发展和应用提供了知识产权保障。

为了验证创新方法和统计分析平台的功能和实用性，在国内多家大型医疗机构及药企中进行了“多点覆盖、层级推广”的示范应用。在中日友好医院、西苑医院、天坛医院3家国家级临床研究中心完成平台部署，中国生物和正大天晴2家知名药企作为核心示范单位也参与其中。示范应用依据监管需求明确的医院和药品品种的遴选条件、数据标准和反馈机制。此外，研究团队与在国家药品监督管理局药品评价中心合作，应用和部署“面向临床研究的统计软件系统”的安全预警模块。截至目前，该平台已覆盖1004家医院和107个药品品种，取得了显著的应用成效，有效提升了数据可用性以及药品研发和评审的效率。

总结

随着医学技术的不断发展，临床试验的设计和数据结构更加复杂多元，药品审评中常见的传统统计方法可能并不适用于所有数据场景。因此，开发新的统计方法和相应的统计软件系统是实现药品监管现代化的重要发展目标。本研究基于药物临床试验与真实世界研究的需求，建设具有创新性方法和实用性的药品有效性与安全性评估统计软件系统。该系统涵盖了药品有效性因果推断、药品安全性分析以及临床试验常用的基础统计方法模块，为药品监管、药物研发和生物统计提供了统计技术和理论支持。通过模块化设计和直观的图形界面，可提升数据分析效率，减少用户对编程技能的依赖，增强统计分析结果的可视化呈现。目前，本系统已经在多家国内药品生产企业以及医院进行示范应用，力求全面提升统计方法在医学临床数据中使用的准确性。未来，随着用户需求的进一步反馈和系统功能的迭代优化，本系统有望在药品监管领域发挥更大的作用，助力药品审评和安全性监测的智能化和规范化发展。

【参考文献】略

更多精彩内容可登录《中国医药导刊》网站（www.zgyydk.cn）。热忱欢迎医药领域相关研究人员积极投稿、荐稿。