AI伪造的X光片,连医生都分不清?顶级医学期刊<放射学>最新研究敲响警钟

> 作者：洛

生成式 AI 越来越普及后，医疗行业或许正在直面、越来越近的现实风险：一张看起来毫无问题的胸片，会被拿去虚报工伤；或是一张显示 “骨折” 的片子，被偷偷放进患者病历，引来多余的治疗，甚至闹上法庭。

近期，国际顶级放射学期刊《Radiology》在线发表了一项重磅研究，标题为《The Rise of Deepfake Medical Imaging: Radiologists’ Diagnostic Accuracy in Detecting ChatGPT-generated Radiographs》。这项由美国西奈山伊坎医学院等全球多中心团队完成的研究，向医学界乃至整个社会发出了明确警告：由ChatGPT等大语言模型（LLM）生成的“深度伪造”（Deepfake）医学影像，已经逼真到足以混淆专业放射科医生的判断。

研究背景：从“玩具”到“威胁”的AI图像生成

生成式AI在医学影像领域的应用并非新鲜事。早期，研究人员利用生成对抗网络（GAN）合成低分辨率图像，主要用于扩充算法训练数据集，平衡罕见病样本，或为医学生提供无风险的练习材料。这被视为一项积极的技术辅助。

然而，技术的迭代速度快得超乎想象。从2025年3月发布的GPT-4o开始，像ChatGPT这样的通用大语言模型，已经能够通过简单的文字指令，直接生成涵盖文本、代码、音频和图像的多模态内容。这意味着，生成一张指定解剖部位、投照角度甚至特定病变的X光片，其技术门槛已降至近乎为零。任何人都可能成为潜在“伪造者”。

这种能力的“民主化”带来了双重效应。一方面，它能为医学教育创造巨大价值，例如按需生成各种罕见病例。另一方面，它也彻底模糊了真实临床数据与AI合成图像之间的界限。恶意合成的影像可能污染科研数据库、通过“数据投毒”影响AI模型训练，甚至被篡改进个人医疗记录，直接导致误诊和医疗欺诈。

实验设计：一场针对人类专家和AI的“大家来找茬”

为了量化这一风险，西奈山医学院的研究团队设计了一个严谨的三阶段实验。

研究流程示意图。研究创建了两个数据集，分别包含由ChatGPT-4o生成的合成X光片（数据集1）和由专业胸部X光生成模型RoentGen生成的合成片（数据集2）。研究评估了放射科医生和多种大语言模型对这两类合成图像的识别能力。

他们首先利用ChatGPT-4o，根据包含解剖部位、投照方式、目标异常（如骨折、肿瘤）等信息的文本提示，生成了77张合成X光片，涵盖胸部、脊柱和四肢。同时，从公开数据库和机构内数据库中匹配了77张真实的X光片，共同组成第一个数据集。

随后，研究招募了来自美国、法国、德国、土耳其等六个国家、12个医疗中心的17名放射科医生。这些医生的经验从住院医师到拥有40年资历的专家不等，涵盖了肌肉骨骼、胸部、体部等多个亚专业。

实验的第一阶段，医生们在不知情的情况下，像平常一样对这些图像进行质量评估和诊断。第二阶段，研究人员告知他们数据集中混有AI生成的图像，并要求他们对每张图进行“真伪鉴定”。第三阶段，医生们还需要面对另一个由专业胸部X光生成模型“RoentGen”合成的数据集，以比较识别不同来源合成图像的难度。

真实与GPT-4o生成的配对X光片对比。上图为真实（A）与AI生成（B）的后前位胸部X光片；下图为真实（C）与AI生成（D）的颈椎侧位片。肉眼观察下，AI生成的图像已具有高度的迷惑性。

不仅如此，研究团队还让当今最先进的四个多模态大语言模型——GPT-4o、GPT-5、谷歌的Gemini 2.5 Pro和Meta的Llama 4 Maverick——也加入了这场“鉴定挑战”，看看AI自己能否识破自己的“作品”。

实验结果：医生和AI都“翻车”了

在最初不知情的第一阶段，仅有41%（17人中的7人）的放射科医生自发地察觉到数据集中可能存在AI生成的图像。这意味着，在常规工作中，超过一半的专家可能完全不会对这类高度逼真的伪造影像产生怀疑。

当被告知需要鉴别真伪后，医生们的整体识别准确率有所提升，但对GPT-4o生成图像的鉴别准确率平均为74.8%，对RoentGen生成胸部片的鉴别准确率为70.0%。换言之，平均每4张AI生成的X光片中，就有1张能成功骗过专家的眼睛。更值得注意的是，医生的经验年限、之前是否接触过AI生成图像，都与他们的鉴别准确率没有显著关联。只有肌肉骨骼亚专业的医生表现稍好（准确率83.0%），这可能与他们日常阅读的影像纹理细节更复杂有关。

17名放射科医生与4个大语言模型（LLM）鉴别GPT-4o生成X光片性能对比图。箱线图展示了放射科医生准确率的分布（中位数约75%），散点代表个体医生表现。四种颜色的标记代表不同LLM的表现及其置信区间。可见，即使是表现最好的GPT-4o模型，也未能达到100%准确。

而AI模型自己的表现则充满了讽刺和差异。没有任何一个被测的大语言模型能识别出所有的合成图像。其中，生成这些图像的“本尊”GPT-4o对自己的“作品”最熟悉，鉴别准确率最高，达到85%；其升级版GPT-5为83%。而谷歌的Gemini 2.5 Pro和Meta的Llama 4 Maverick则表现不佳，准确率仅在56%-59%之间，几乎等同于随机猜测。这揭示了一个关键问题：不同AI模型生成和鉴别的“风格”与能力存在巨大差异，目前尚无一个通用的、可靠的“AI测谎仪”。

AI的“完美”正是破绽：专家总结伪造影像特征

那么，这些最终被识破的AI生成图像，破绽究竟在哪里？参与研究的放射科医生们总结出一些共同特征：

过度的对称性：AI倾向于生成完全对称的解剖结构，例如脊柱完美笔直，除非特意提示“脊柱侧弯”。
均匀的纹理与噪声：真实X光片的颗粒噪声分布是不均匀的，而AI生成的图像噪声往往过于均匀一致。
不自然的软组织纹理：肌肉、脂肪等软组织的灰度过渡有时显得 subtly（微妙地）不自然。
过于光滑的骨骼：骨皮质的边缘异常光滑，厚度均匀，缺乏真实骨骼那种自然的微小不规则和纹理。
“理想化”的骨折线：AI生成的骨折线往往异常清晰、平滑，有时甚至是单皮质的（仅一侧骨皮质断裂），这与真实创伤中复杂、粗糙的骨折形态不同。

GPT-4o生成的骨折X光片示例。图中箭头所指的骨折线呈现出不自然的平滑、清晰和一致性。这种“理想化”的骨折形态，可以作为鉴别AI生成创伤影像的重要线索。

风险与应对：构建医疗影像的“防伪长城”

这项研究的结论是明确的：利用大语言模型生成的合成X光片（深度伪造），无论对于放射科医生还是当前的多模态AI模型，都不容易与真实的临床图像区分开来。 这种能力被滥用的潜在风险极高，包括保险欺诈、医疗法律纠纷，甚至是孟乔森综合征（一种心理疾病，患者虚构或制造疾病症状）等。

面对这一新兴威胁，坐以待毙绝非选项。研究团队和业界专家指出，必须构建一个多层次的防御体系：

首要任务是教育：必须对全体临床医生，尤其是影像科医生进行培训，提高他们对AI生成影像特征的认识。为此，该研究团队已公开了一个精心整理的深度伪造X光片数据集（https://noneedanick.github.io/DeepFakeXRay/），供全球同行用于教学和训练。
发展自动化检测工具：研究显示，医生间鉴别的一致性仅为“一般”（Fleiss κ=0.31），说明依赖人眼并不可靠。亟需开发基于像素级分析的、可集成到医疗信息系统中的自动深度伪造检测算法。
推行源头水印与认证：为AI生成的医学图像嵌入不可见的数字水印，或在DICOM（医学数字成像和通信）文件头中添加“合成图像”的元数据标签。更进一步的方案是探索利用区块链技术，为每张真实影像建立不可篡改的“出生证明”和流转记录。
加快监管框架建设：目前，美国FDA（食品药品监督管理局）和欧洲EMA（药品管理局）尚未就合成医学图像发布明确指南。随着技术普及，建立针对合成图像的验证、标注、隐私保护、防滥用及风险分级的监管法规已刻不容缓。

结语

生成式AI无疑是一把强大的双刃剑。它在为医学研究、教育和临床辅助打开新世界大门的同时，也悄然打开了“潘多拉魔盒”。西奈山医学院的这项研究犹如一记响亮的警钟，提醒我们：当技术能够以假乱真时，捍卫“真实”本身就成了一场必须赢得的战斗。

医学影像作为客观诊断的基石，其真实性与可信度不容有失。在AI深度伪造技术尚未造成广泛危害之前，学术界、工业界和监管机构必须携手合作，未雨绸缪，建立起坚固的“防伪长城”，确保这项革命性技术能够在安全的轨道上，真正造福于人类健康。

-- 完 --

加入机智流 Pro，1 天一块钱，AI 能力指数级增长时代，不掉队。机智流 AI 团队将燃烧远超人类的智能的 AI Tokens 驱动 AI Agents 军团带来「与你有关」「对你有用」的高质量资讯/研报。

2. 从养虾到养马：Hermes Agent会是下一个OpenClaw吗？33K Stars，自动进化，模型无关

3. Claude Managed Agents公测、Meta发布Muse Spark、Cursor手机控制，基础设施战争开打

4. 解锁人机共融新篇章：中科院团队发布全球首个下肢多模态步态数据集K2MUSE，助力康复机器人应对真实世界挑战

关注机智流并加入 AI 技术交流群，不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流，同时还有HuggingFace每日精选论文与顶会论文解读、Talk分享、通俗易懂的Agent知识与项目、前沿AI科技资讯、大模型实战教学活动等。

在「机智流」公众号后台回复下方标红内容即可加入对应群聊：

cc | 大模型技术交流群
hf | HuggingFace 高赞论文分享群
lc｜LangChain 技术交流群
code | AI Coding 交流群
具身 | 具身智能交流群
硬件 | AI 硬件交流群
推理 | AI 推理框架交流群
智能体 | Agent 技术交流群