一、从一份"不知道该写多细"的研究方案说起
你决定做一项回顾性队列研究,比较两种降压方案对慢性肾病进展的影响。你知道应该先写协议,也打算在 OSF 上预注册。但打开空白文档,你卡住了:协议到底应该写到什么程度?暴露定义写多细?分析方案要不要把每个敏感性分析都列出来?协变量的选择依据要不要逐条解释?
写少了,审稿人会质疑你是先看了结果再补的方案。写多了,你觉得自己在做无用功——反正做下去还会改。
这个困境的根源不是你懒或不够严谨,而是**你缺少一个结构化的模板来告诉你"协议应该包含哪些部分,每个部分应该回答什么问题"**。这就是 HARPER 模板存在的意义。
本文要回答的核心问题是:HARPER 模板是什么?它为什么被 ISPE 和 ISPOR 联合推荐?以及你怎么用它来写一份国际规范的观察性研究协议?
二、HARPER 是什么?
2.1 一句话定义
HARPER(HARmonized Protocol Template to Enhance Reproducability)是一个专门为使用真实世界数据的观察性研究设计的协议模板。它由 ISPE(国际药物流行病学会)和 ISPOR(国际药物经济学与结果研究学会)联合开发并推荐,2022 年正式发表在 Pharmacoepidemiology and Drug Safety 上。
2.2 它和你以前用的"方案"有什么不同?
大多数临床研究者写的研究方案,结构来自两个地方:要么是模仿之前发表论文的方法部分,要么是套用本单位伦理委员会的模板。这两种来源都有一个共同问题——它们不是为观察性研究的特殊方法学挑战设计的。
比如:临床试验方案模板会有“随机化方案”和“盲法”的章节,但观察性研究不需要这些;观察性研究需要详细说明的东西——暴露时间窗的定义、immortal time 的处理、活性对照的选择理由、数据库的覆盖范围和数据质量评估——在试验方案模板里往往没有对应的位置。
HARPER 的价值在于:它把观察性研究特有的设计决策,逐条列成了你必须回答的问题。 不是让你多写,而是让你不漏。
三、HARPER 模板的核心结构
HARPER 模板的完整结构覆盖了从研究问题到分析计划的全部环节。以下是最关键的几个部分,以及每个部分要求你回答什么:
3.1 研究问题与目标
不只是写“探讨 A 药与 B 药对结局 X 的影响”。HARPER 要求你明确说明:你的 estimand 是什么? 也就是说,你要估计的那个因果量,在目标人群中,具体指的是什么?这直接对应上一篇系列里讲的 target trial 的治疗策略和分析框架(ITT 还是 per-protocol)。
3.2 数据源
不是简单写“本研究使用某某医院 HIS 数据”。HARPER 要求你说明:数据库的覆盖人群是谁?时间范围?数据更新频率?关键变量(诊断、处方、检验结果)的记录方式和完整度如何?是否做过数据质量评估?
这一节的存在,是因为观察性研究的结果高度依赖数据源的特征——同一个研究设计,用不同数据库跑可能得出不同结论,而差异往往来自数据本身而非方法学。
3.3 研究人群
HARPER 要求你像写临床试验方案一样,逐条列出纳入标准和排除标准,并且明确说明这些标准是在哪个时间点上评估的。这一点至关重要——如果你在时间零点之后才能获取的信息用来定义纳入标准,你就引入了选择偏倚。
3.4 暴露定义
这是 HARPER 最细致的部分之一。它要求你回答:暴露是如何操作性定义的(处方记录?发药记录?医嘱?)?暴露时间窗是怎么设定的?新使用者还是流行使用者?对照组是怎么定义的——是不使用任何药物,还是使用另一种活性药物?
每一个选择背后都有方法学后果。HARPER 通过提问的方式,迫使你在写方案时就把这些决策想清楚并写下来,而不是留到分析阶段随意决定。
3.5 结局定义
除了说明主要结局和次要结局是什么,HARPER 还要求你说明:结局是怎么在数据库中识别的(诊断编码?实验室数值?住院记录?)?识别算法是否经过验证?如果没有经过验证,你打算怎么评估误分类的影响?
3.6 混杂控制
HARPER 要求你列出所有计划调整的协变量,并说明选择依据——是基于临床知识、DAG(有向无环图)、还是既往文献。同时要求说明使用哪种混杂处理方法(这正是本系列第三篇讲的 PSM / IPTW / doubly robust 的选择),以及平衡性检验的标准。
3.7 敏感性分析与定量偏倚分析
HARPER 明确要求你在方案阶段就规划好敏感性分析,而不是审稿人提了再补。它还鼓励做定量偏倚分析——比如未测量混杂的 E-value 分析、结局误分类的影响估计等。
四、为什么现在应该开始用 HARPER?
4.1 国际监管和 HTA 机构正在把它变成标准要求
ICH M14(国际人用药品技术要求协调委员会关于真实世界证据的指导原则)在 2024 年进入 Step 5 实施阶段,明确要求 RWE 研究的协议应具备完整性和透明性。HARPER 是目前最符合这一要求的模板。ENCePP(欧洲药品监管网络的药物流行病学和药物警戒研究中心)、NICE(英国国家健康与临床优化研究所)等机构也已在其指南中引用 HARPER。
4.2 它是研究质量的"自检清单"
很多研究者第一次使用 HARPER 时的反应是“原来我之前的方案漏了这么多东西”。这不是在批评你,而是模板本身在帮你发现你还没想清楚的设计决策。一个写完 HARPER 模板的研究方案,意味着研究者已经系统性地思考过了每一个可能影响的结果的设计选择。
4.3 它和 OSF 预注册完美配合
上一篇我们讲了 OSF 预注册的操作流程。HARPER 解决的是“在 OSF 上预注册什么内容”的问题——你用 HARPER 模板写完方案,直接作为附件上传到 OSF 的 RWE Registry 即可。预注册的平台解决“什么时间”的问题,HARPER 解决“什么内容”的问题。
五、核心要点总结
HARPER 是专为观察性研究设计的协议模板,由 ISPE 和 ISPOR 联合推荐,填补了临床试验方案模板无法覆盖的方法学空白。 它的核心价值不是让你多写,而是让你不漏。 通过结构化的提问,确保你在方案阶段就想清楚暴露定义、时间窗、数据质量、混杂控制、敏感性分析等关键决策。 国际监管机构正在将其作为 RWE 研究的标准要求。ICH M14、ENCePP、NICE 等已明确引用或推荐 HARPER 模板。 它和 OSF 预注册是天然搭配:HARPER 解决“写什么”,OSF 解决“什么时候锁定”。 第一次使用时可能觉得费时间,但这笔投入会在审稿和分析阶段回报你。一个完整的 HARPER 协议就是对审稿人最强的回应:所有设计决策都是预先规划的,不是事后补的。
六、推荐进一步阅读
Wang SV, Pinheiro S, Hua W, et al. STaRT-RWE: structured template for planning and reporting on the implementation of real world evidence studies. BMJ. 2021;372:m4856. doi:10.1136/bmj.m4856 伯杰大联盟、红袜跑卫、威尔克右卫等。关于治疗和/或有效性真实世界数据研究的良好实践:来自ISPOR-ISPE联合特别工作组关于医疗决策中真实证据的建议。药物流行病学与药物安全。2017;26(9):1033-1039.DOI:10.1002/PDS.4297 王SV、Schneeweiss S、Berger ML等。报告以提高可重复性和促进医疗数据库研究 V1.0 的有效性评估。药物流行病学与药物安全。2017;26(9):1018-1032.DOI:10.1002/PDS.4295 欧洲药品管理局。ENCePP药物流行病学方法学标准指南。2024年。(EMA 官网可下载最新版) 王SV。亲爱的药物流行病学与结局研究员:是时候进行透明演讲了。药物流行病学与药物安全。2025;34(10):e70237。doi:10.1002/PDS.70237
到这里,我们已经讲了研究设计(immortal time bias、target trial emulation)、混杂处理(PSM / IPTW / doublely robust)、预注册(OSF)、以及协议模板(HARPER)。接下来我们进入一个几乎每个临床研究者都会遇到的实操难题:我的数据有缺失值,该怎么办?多重插补到底怎么做,常见的误用有哪些?
规范的研究不是在审稿人要求后才开始补方案,而是在第一步就把协议写对。Nexus 做的事情,就是帮研究者从一开始就用国际认可的框架——组织方法学团队,用 HARPER 写协议、在 OSF 预注册、按 RECORD-PE 报告,让每一步的严谨都可见、可追溯。如果你正在思考一个临床问题,欢迎加微信聊聊。微信号:KhWANGPEIFENG
夜雨聆风