FDA内部AI工具全景:Elsa、InfoViP与三条对药企管用的教训-夜雨聆风

FDA内部AI工具全景:Elsa、InfoViP与三条对药企管用的教训

全球AI+医药前沿内参 · 系列二行业洞察｜工具级别的观察，不是政策科普

2025年6月2日，FDA局长 Marty Makary 在发布会上宣布：Elsa，FDA史上首个全机构大语言模型工具，”提前完成、低于预算”，正式上线。他说这是”FDA的AI纪元的黎明”。

七周后，CNN的一篇报道让这个叙事复杂了许多——六名现任及前任FDA官员匿名告诉记者，Elsa会编造不存在的研究，误读临床数据，并且目前根本无法用于真正的药物审评工作。（来源：CNN，2025年7月23日，A级）

这不是一个”AI失败”的故事，也不是一个”监管机构终于入局AI”的励志叙事。这件事的价值在于，FDA的AI工具部署完整地展示了一个成熟机构在这条路上会遭遇的全部问题——包括那些很多企业在采购AI工具之前根本没有想到的问题。

一、FDA目前在用的AI工具：逐个拆解

FDA的AI工具布局并非从2025年才开始。从2020年的CDER内部试点，到2025年的全机构部署，至少五个工具值得药企管理层认真了解。

① Elsa：全机构大语言模型助手（2025年6月上线）

Elsa由咨询公司Deloitte开发，基于Anthropic Claude构建，运行在AWS GovCloud的FedRAMP High认证环境中。开发合同分两期：第一期$1380万，第二期$1470万，训练数据涵盖约12亿token的FDA内部协议、标签文件和检查报告。（来源：多家媒体交叉核实，STAT News、BioSpace，B级）

Elsa的前身是2020年在CDER内部试点的CDERG-PT，后扩展至全机构并更名。FDA宣称的功能包括：汇总不良事件报告趋势、比较产品标签、辅助临床方案审查、识别检查高风险靶标、以及生成内部数据库代码。

关键的一点：Elsa不接入行业提交文件，不在企业提交的NDA/BLA/ANDA数据上训练，这是FDA明确的数据隔离机制。

② InfoViP：个案安全报告智能分析平台（CDER自研）

InfoViP（Information Visualization Platform）是CDER药物安全监测办公室自主研发的AI工具，面向FAERS（FDA不良事件报告系统）中的海量个案安全报告（ICSRs）。它能完成三类任务：检测重复提交的ICSRs以避免重复计数、按信息完整度对报告质量分类、以及可视化患者的临床事件时间线以辅助信号判断。

InfoViP的项目负责人Oanh Dang在多篇同行评审期刊上发表了相关研究成果，这是目前FDA AI工具中文献记录最完善的一个。（来源：FDA官网 CDER EDSTP 页面，A级；CTTI 2025年研讨会议程，A级）

③ CLAT：标签自动化审核工具（CDER在用）

CLAT（Computerized Labelling Assessment Tool）专门用于自动化审核药品标签合规性，包括处方信息、包装盒和容器标签。该工具通过机器学习识别标签中的格式错误、信息缺失以及与监管要求的不一致之处，辅助审评员缩短标签核查时间。（来源：FDA 2023年AI白皮书，A级）

④ CBER BEST系统：生物制品安全主动监测（CBER在用）

BEST（Biologics Effectiveness and Safety）系统由FDA生物制品评估和研究中心（CBER）主导，针对CBER监管的生物制品进行上市后安全监测。其中的BEST IM（Innovative Methods）项目正在开发半自动化不良事件检测和报告系统，利用AI分析电子健康档案（EHRs）来预测不良事件、生成真实世界证据。

BEST系统与CDER的Sentinel Initiative共同构成FDA的主动监测网络。两个系统都在探索AI/ML方法以提升上市后安全信号的检出效率。（来源：FDA官网 CBER BEST IM 页面，A级）

⑤ MIDD试点项目：模型信息化药物开发（持续进行中）

MIDD（Model-Informed Drug Development）试点项目将AI/ML用于临床试验模拟、剂量优化和安全性评估。该项目的重要性在于，它是FDA在接受AI辅助决策方面走得最远的正式渠道之一，也是外部企业可以申请参与互动的项目。参与MIDD试点的企业可以通过与FDA的早期沟通，共同确立AI模型的可信度评估标准。（来源：FDA官网 ISTAND/MIDD 项目页面，A级）

▼ FDA AI工具功能版图：五个工具按应用阶段分布

这五个工具覆盖药品生命周期的不同阶段，成熟度和风险特征各不相同。

二、正面借鉴：FDA做对的三件事

1. 先建治理机构，后落地工具

FDA在部署Elsa之前，已经建立了CDER AI Steering Committee（AI指导委员会）作为中枢协调机构，协同CDRH的数字健康卓越中心（DHCoE）等部门。这个委员会统一管理FDA内部AI项目的优先级、数据合规要求和跨部门一致性。

这个顺序很重要。多数企业的路径是反的：先让某个部门试点一个AI工具，效果不错就推广，治理机制在争议出现后才补建。FDA的经验表明，即便有完整的治理架构，工具推广时仍然遇到了严峻问题。没有这个架构，风险只会更大。

2. 明确数据主权边界

Elsa在设计时有一条明确的隔离原则：不在企业提交文件上训练，不接入行业申报数据。这条规则既保护了FDA的数据主权，也避免了系统在接触申报文件时可能出现的利益冲突。

对药企来说，等效的设计是：用于合规决策的AI工具不应混入竞争对手信息，内部研发数据不应进入第三方供应商的模型训练集。这个边界在合同层面往往被忽视，等数据泄露后才发现问题。

“Elsa不在企业提交的数据上训练，也不接入行业申报文件。它在FedRAMP高安全认证的GovCloud环境中运行，确保所有信息留在机构内部。”

—— FDA新闻稿，2025年6月2日（A级来源）

3. 渐进部署，专项工具优先于通用LLM

InfoViP和CLAT是在特定问题上长期打磨的专项工具，有清晰的任务边界（ICSR去重、标签格式核查）和可验证的输出。这类工具的风险比通用LLM低得多，因为对错误的判断标准是明确的。

Elsa是后来才上线的全机构通用工具，也是出问题最多的工具。这个顺序本身就是一条经验：在具体场景积累AI使用经验和信任，比一开始就部署”什么都能做”的通用模型更稳健。

三、反面借鉴：Elsa事件里真正值得关注的问题

Elsa上线后的问题被许多媒体简化成了”AI幻觉”这一个标签。这个标签准确，但不足以解释为什么这件事对药企有直接参考价值。

问题一：工具能力与管理层承诺之间的落差

FDA局长Makary在上线发布会上的表述远超工具实际状态。多名审评员向媒体确认，Elsa目前无法访问企业申报文件，无法用于正式的NDA/BLA审评工作。一名高级审评员的原话是：”Makary和DOGE以为AI能替代员工缩短审评周期，但实际上根本做不到。”（来源：STAT News，B级）

这个落差的本质是：管理层的AI宣传周期与工具实际准备程度不同步。企业在采购或自研AI工具时，如果向高管或客户承诺了具体的效率提升数字，后续无法兑现时面临的压力会直接冲击整个AI项目。

⚠️ 注意

CNN报道Elsa会编造不存在的研究，FDA首席AI官Jeremy Walsh承认了这一点，他的回应是”Elsa和其他LLM一样，都可能产生幻觉”。这个答案在监管机构内部的场景中，实际上意味着Elsa目前不适合用于任何需要验证来源的工作。

问题二：人工审核假设的可靠性

FDA对Elsa可靠性问题的标准答案是”human in the loop”——所有AI输出都有人工审核。这个说法听起来很完整，但哈佛医学院助理教授Adam Rodman指出，人类识别LLM错误的能力被普遍高估了——人们有信任AI系统的天然倾向，且一旦AI给出了一个看起来合理的答案，人工审核很容易流于形式。（来源：BioSpace，2025年6月，B级）

这对药企的启示很直接：引入AI工具时，”有人工审核”不能作为安全性的终极保证。需要明确的是：这个审核针对什么类型的错误设计的，审核人员的负荷是否允许认真执行，以及审核失败时的责任归属在哪里。

问题三：监管决策中AI使用的可追溯性

Hogan Lovells的生物技术监管律师Jason Conaty提出了一个许多企业没有想到的法律问题：如果FDA在审评过程中使用了AI，当企业对监管决定提出异议时，”行政记录”（administrative record）中如何还原AI参与了哪些环节的决策？目前FDA没有公开Elsa的技术细节和审计路径。（来源：BioSpace，2025年6月，B级）

等效的企业问题是：公司自用的AI工具在合规体系中的可追溯性如何？如果AI参与了偏差调查的结论判断，在监管飞检时能否完整还原决策过程？这是很多企业在上AI工具之前没有认真设计的环节。

▼ FDA Elsa经验 vs 企业AI引入的对应风险点

FDA是在高度透明的公众监督下运行的，其暴露的问题有实名报道。企业内部的同类问题往往更难被发现。

四、对国内药企的差异化影响

FDA的AI工具使用对国内药企有两个层面的影响，值得分开讨论。

第一个层面是申报策略。Elsa和InfoViP的部署意味着FDA审评员处理文件的方式在变化。Elsa可以快速比对标签一致性，InfoViP可以高效提取不良事件的时间线。这对申报文件有一个直接的实操含义：结构规范、数据格式统一的文件，比内容相同但格式混乱的文件，在AI辅助审评下会呈现出更明确的优势。这不是一个大的政策变化，而是一个被低估的细节。

第二个层面是企业自身的AI引入路径。FDA从CDER内部工具试点，到建立AI治理委员会，再到2025年全机构部署，且仍然出了问题。国内很多药企正在考虑引入的AI工具，时间周期远比较短，内部治理架构也没有FDA的成熟，应对潜在问题保持更高的警觉。但监管都已经在用AI，企业也需要逐步跟进。

对大型跨国药企的中国团队而言，FDA的AI合规框架意味着总部可能会推进统一的AI工具标准，本地团队需要评估这些工具在国内监管环境下的适用性。对国内规模药企而言，Elsa事件最直接的参考价值是引入AI辅助QA工具时的风险评估清单。对中小型企业和Biotech而言，信息价值在于了解FDA审评侧的变化，逐步引入AI工具。

五、判断

💡Elsa的问题被媒体简化成了”政府机构AI翻车”的叙事。我的判断是，这件事更值得关注的信号是：即便有充足资金（$2800万合同）、顶级供应商（Deloitte+Anthropic）、以及成熟的安全基础设施，通用LLM在高风险监管场景下仍然无法直接用于核心工作。这不是某一家机构的特殊失败，而是当前技术阶段的系统性天花板。理由是：幻觉问题、人工审核效率递减、以及AI参与决策的可追溯性，这三个问题在任何行业的LLM部署中都同样存在，只是在监管场景下代价更高、更快暴露。对药企的直接含义是：专项AI工具（特定任务、明确验收标准、可验证输出）比通用LLM更适合作为合规体系的入口。

接下来关注的信号

2025年12月，FDA宣布为全机构员工部署”Agentic AI”能力，并启动了为期两个月的Agentic AI内部挑战赛，要求员工构建具体的AI工作流方案。这意味着FDA下一步要解决的问题是：如何让AI工具不只是”回答问题”，而是能够主动执行多步骤任务。

这个方向如果落地，对申报侧的影响将比Elsa本身更大——一个能主动对比前后提交版本、标记数据异常的agentic工具，比一个被动回答问题的LLM对审评流程的影响要深得多。这是值得追踪的后续信号。

FDA此刻的AI实验是公开的，有记者报道，有员工发声，有法律专家评述。这种透明度在制药企业内部几乎不存在。企业引入AI工具时遇到的同类问题，往往会在很长时间内沉默。如果等问题暴露再处理，代价通常高于事先设计。