乐于分享
好东西不私藏

FDA内部AI工具全景:Elsa、InfoViP与三条对药企管用的教训

FDA内部AI工具全景:Elsa、InfoViP与三条对药企管用的教训

全球AI+医药前沿内参 · 系列二 行业洞察 | 工具级别的观察,不是政策科普

2025年6月2日,FDA局长 Marty Makary 在发布会上宣布:Elsa,FDA史上首个全机构大语言模型工具,”提前完成、低于预算”,正式上线。他说这是”FDA的AI纪元的黎明”。

七周后,CNN的一篇报道让这个叙事复杂了许多——六名现任及前任FDA官员匿名告诉记者,Elsa会编造不存在的研究,误读临床数据,并且目前根本无法用于真正的药物审评工作。(来源:CNN,2025年7月23日,A级)

这不是一个”AI失败”的故事,也不是一个”监管机构终于入局AI”的励志叙事。这件事的价值在于,FDA的AI工具部署完整地展示了一个成熟机构在这条路上会遭遇的全部问题——包括那些很多企业在采购AI工具之前根本没有想到的问题。

一、FDA目前在用的AI工具:逐个拆解

FDA的AI工具布局并非从2025年才开始。从2020年的CDER内部试点,到2025年的全机构部署,至少五个工具值得药企管理层认真了解。

① Elsa:全机构大语言模型助手(2025年6月上线)

Elsa由咨询公司Deloitte开发,基于Anthropic Claude构建,运行在AWS GovCloud的FedRAMP High认证环境中。开发合同分两期:第一期$1380万,第二期$1470万,训练数据涵盖约12亿token的FDA内部协议、标签文件和检查报告。(来源:多家媒体交叉核实,STAT News、BioSpace,B级)

Elsa的前身是2020年在CDER内部试点的CDERG-PT,后扩展至全机构并更名。FDA宣称的功能包括:汇总不良事件报告趋势、比较产品标签、辅助临床方案审查、识别检查高风险靶标、以及生成内部数据库代码。

关键的一点:Elsa不接入行业提交文件,不在企业提交的NDA/BLA/ANDA数据上训练,这是FDA明确的数据隔离机制。

② InfoViP:个案安全报告智能分析平台(CDER自研)

InfoViP(Information Visualization Platform)是CDER药物安全监测办公室自主研发的AI工具,面向FAERS(FDA不良事件报告系统)中的海量个案安全报告(ICSRs)。它能完成三类任务:检测重复提交的ICSRs以避免重复计数、按信息完整度对报告质量分类、以及可视化患者的临床事件时间线以辅助信号判断。

InfoViP的项目负责人Oanh Dang在多篇同行评审期刊上发表了相关研究成果,这是目前FDA AI工具中文献记录最完善的一个。(来源:FDA官网 CDER EDSTP 页面,A级;CTTI 2025年研讨会议程,A级)

③ CLAT:标签自动化审核工具(CDER在用)

CLAT(Computerized Labelling Assessment Tool)专门用于自动化审核药品标签合规性,包括处方信息、包装盒和容器标签。该工具通过机器学习识别标签中的格式错误、信息缺失以及与监管要求的不一致之处,辅助审评员缩短标签核查时间。(来源:FDA 2023年AI白皮书,A级)

④ CBER BEST系统:生物制品安全主动监测(CBER在用)

BEST(Biologics Effectiveness and Safety)系统由FDA生物制品评估和研究中心(CBER)主导,针对CBER监管的生物制品进行上市后安全监测。其中的BEST IM(Innovative Methods)项目正在开发半自动化不良事件检测和报告系统,利用AI分析电子健康档案(EHRs)来预测不良事件、生成真实世界证据。

BEST系统与CDER的Sentinel Initiative共同构成FDA的主动监测网络。两个系统都在探索AI/ML方法以提升上市后安全信号的检出效率。(来源:FDA官网 CBER BEST IM 页面,A级)

⑤ MIDD试点项目:模型信息化药物开发(持续进行中)

MIDD(Model-Informed Drug Development)试点项目将AI/ML用于临床试验模拟、剂量优化和安全性评估。该项目的重要性在于,它是FDA在接受AI辅助决策方面走得最远的正式渠道之一,也是外部企业可以申请参与互动的项目。参与MIDD试点的企业可以通过与FDA的早期沟通,共同确立AI模型的可信度评估标准。(来源:FDA官网 ISTAND/MIDD 项目页面,A级)

▼ FDA AI工具功能版图:五个工具按应用阶段分布

FDA AI工具应用阶段分布临床前临床开发注册审评上市后监测内部运营MIDD试点项目临床试验模拟 · 剂量优化 · 安全评估覆盖临床前→临床开发CLAT标签合规自动审核注册审评阶段InfoViPICSR智能分析CDER · FAERS信号检测CBER BEST生物制品主动监测EHR预测不良事件Elsa全机构LLM文件汇总 · 会议纪要标签比较 · 检查靶标代码生成幻觉问题已报告核心系统(CDER/CBER主导)专项工具已知风险项数据来源:FDA官网 CDER/CBER 项目页面(A级);媒体报道交叉核实(B级)

这五个工具覆盖药品生命周期的不同阶段,成熟度和风险特征各不相同。

二、正面借鉴:FDA做对的三件事

1. 先建治理机构,后落地工具

FDA在部署Elsa之前,已经建立了CDER AI Steering Committee(AI指导委员会)作为中枢协调机构,协同CDRH的数字健康卓越中心(DHCoE)等部门。这个委员会统一管理FDA内部AI项目的优先级、数据合规要求和跨部门一致性。

这个顺序很重要。多数企业的路径是反的:先让某个部门试点一个AI工具,效果不错就推广,治理机制在争议出现后才补建。FDA的经验表明,即便有完整的治理架构,工具推广时仍然遇到了严峻问题。没有这个架构,风险只会更大。

2. 明确数据主权边界

Elsa在设计时有一条明确的隔离原则:不在企业提交文件上训练,不接入行业申报数据。这条规则既保护了FDA的数据主权,也避免了系统在接触申报文件时可能出现的利益冲突。

对药企来说,等效的设计是:用于合规决策的AI工具不应混入竞争对手信息,内部研发数据不应进入第三方供应商的模型训练集。这个边界在合同层面往往被忽视,等数据泄露后才发现问题。

“Elsa不在企业提交的数据上训练,也不接入行业申报文件。它在FedRAMP高安全认证的GovCloud环境中运行,确保所有信息留在机构内部。”

—— FDA新闻稿,2025年6月2日(A级来源)

3. 渐进部署,专项工具优先于通用LLM

InfoViP和CLAT是在特定问题上长期打磨的专项工具,有清晰的任务边界(ICSR去重、标签格式核查)和可验证的输出。这类工具的风险比通用LLM低得多,因为对错误的判断标准是明确的。

Elsa是后来才上线的全机构通用工具,也是出问题最多的工具。这个顺序本身就是一条经验:在具体场景积累AI使用经验和信任,比一开始就部署”什么都能做”的通用模型更稳健。

三、反面借鉴:Elsa事件里真正值得关注的问题

Elsa上线后的问题被许多媒体简化成了”AI幻觉”这一个标签。这个标签准确,但不足以解释为什么这件事对药企有直接参考价值。

问题一:工具能力与管理层承诺之间的落差

FDA局长Makary在上线发布会上的表述远超工具实际状态。多名审评员向媒体确认,Elsa目前无法访问企业申报文件,无法用于正式的NDA/BLA审评工作。一名高级审评员的原话是:”Makary和DOGE以为AI能替代员工缩短审评周期,但实际上根本做不到。”(来源:STAT News,B级)

这个落差的本质是:管理层的AI宣传周期与工具实际准备程度不同步。企业在采购或自研AI工具时,如果向高管或客户承诺了具体的效率提升数字,后续无法兑现时面临的压力会直接冲击整个AI项目。

⚠️ 注意

CNN报道Elsa会编造不存在的研究,FDA首席AI官Jeremy Walsh承认了这一点,他的回应是”Elsa和其他LLM一样,都可能产生幻觉”。这个答案在监管机构内部的场景中,实际上意味着Elsa目前不适合用于任何需要验证来源的工作。

问题二:人工审核假设的可靠性

FDA对Elsa可靠性问题的标准答案是”human in the loop”——所有AI输出都有人工审核。这个说法听起来很完整,但哈佛医学院助理教授Adam Rodman指出,人类识别LLM错误的能力被普遍高估了——人们有信任AI系统的天然倾向,且一旦AI给出了一个看起来合理的答案,人工审核很容易流于形式。(来源:BioSpace,2025年6月,B级)

这对药企的启示很直接:引入AI工具时,”有人工审核”不能作为安全性的终极保证。需要明确的是:这个审核针对什么类型的错误设计的,审核人员的负荷是否允许认真执行,以及审核失败时的责任归属在哪里。

问题三:监管决策中AI使用的可追溯性

Hogan Lovells的生物技术监管律师Jason Conaty提出了一个许多企业没有想到的法律问题:如果FDA在审评过程中使用了AI,当企业对监管决定提出异议时,”行政记录”(administrative record)中如何还原AI参与了哪些环节的决策?目前FDA没有公开Elsa的技术细节和审计路径。(来源:BioSpace,2025年6月,B级)

等效的企业问题是:公司自用的AI工具在合规体系中的可追溯性如何?如果AI参与了偏差调查的结论判断,在监管飞检时能否完整还原决策过程?这是很多企业在上AI工具之前没有认真设计的环节。

▼ FDA Elsa经验 vs 企业AI引入的对应风险点

FDA Elsa问题 → 企业对应风险FDA Elsa 暴露的问题药企引入AI工具的对应风险承诺超出实际能力局长宣传与审评员实际使用之间存在巨大落差高管承诺ROI,工具实际落地打折最终导致AI项目被砍或预算缩减,下一次引入AI时阻力更大幻觉问题 + 形式化人工审核审核人员不一定有能力识别AI错误,尤其在高压工作负荷下AI辅助的偏差结论进入批记录飞检时被质疑AI参与决策是否经过验证和确认AI参与决策的可追溯性缺失法律异议时无法还原AI的具体参与环节合规审计时无法提供完整决策路径QMS中缺少AI参与记录,审查员追问时无法作答来源:基于CNN、BioSpace、Applied Clinical Trials公开报道整理(B级)

FDA是在高度透明的公众监督下运行的,其暴露的问题有实名报道。企业内部的同类问题往往更难被发现。

四、对国内药企的差异化影响

FDA的AI工具使用对国内药企有两个层面的影响,值得分开讨论。

第一个层面是申报策略。Elsa和InfoViP的部署意味着FDA审评员处理文件的方式在变化。Elsa可以快速比对标签一致性,InfoViP可以高效提取不良事件的时间线。这对申报文件有一个直接的实操含义:结构规范、数据格式统一的文件,比内容相同但格式混乱的文件,在AI辅助审评下会呈现出更明确的优势。这不是一个大的政策变化,而是一个被低估的细节。

第二个层面是企业自身的AI引入路径。FDA从CDER内部工具试点,到建立AI治理委员会,再到2025年全机构部署,且仍然出了问题。国内很多药企正在考虑引入的AI工具,时间周期远比较短,内部治理架构也没有FDA的成熟,应对潜在问题保持更高的警觉。但监管都已经在用AI,企业也需要逐步跟进。

对大型跨国药企的中国团队而言,FDA的AI合规框架意味着总部可能会推进统一的AI工具标准,本地团队需要评估这些工具在国内监管环境下的适用性。对国内规模药企而言,Elsa事件最直接的参考价值是引入AI辅助QA工具时的风险评估清单。对中小型企业和Biotech而言,信息价值在于了解FDA审评侧的变化,逐步引入AI工具。

五、判断

💡Elsa的问题被媒体简化成了”政府机构AI翻车”的叙事。我的判断是,这件事更值得关注的信号是:即便有充足资金($2800万合同)、顶级供应商(Deloitte+Anthropic)、以及成熟的安全基础设施,通用LLM在高风险监管场景下仍然无法直接用于核心工作。这不是某一家机构的特殊失败,而是当前技术阶段的系统性天花板。理由是:幻觉问题、人工审核效率递减、以及AI参与决策的可追溯性,这三个问题在任何行业的LLM部署中都同样存在,只是在监管场景下代价更高、更快暴露。对药企的直接含义是:专项AI工具(特定任务、明确验收标准、可验证输出)比通用LLM更适合作为合规体系的入口。

接下来关注的信号

2025年12月,FDA宣布为全机构员工部署”Agentic AI”能力,并启动了为期两个月的Agentic AI内部挑战赛,要求员工构建具体的AI工作流方案。这意味着FDA下一步要解决的问题是:如何让AI工具不只是”回答问题”,而是能够主动执行多步骤任务。

这个方向如果落地,对申报侧的影响将比Elsa本身更大——一个能主动对比前后提交版本、标记数据异常的agentic工具,比一个被动回答问题的LLM对审评流程的影响要深得多。这是值得追踪的后续信号。

FDA此刻的AI实验是公开的,有记者报道,有员工发声,有法律专家评述。这种透明度在制药企业内部几乎不存在。企业引入AI工具时遇到的同类问题,往往会在很长时间内沉默。如果等问题暴露再处理,代价通常高于事先设计。