7B参数的医学AI,凭什么打败o3和GPT-5?
一个7B参数的小模型,在医学视觉问答的8个基准测试上拿了平均68.0分,超过了OpenAI的o3(62.2分)、Gemini 2.5 Pro(61.8分)和GPT-5(59.9分)。
这不是标题党,这是上海创智学院LeapQuest团队联合浙大、上交、复旦,在ICML 2026上发表的两篇论文的真实结果。模型叫Ophiuchus,只有7B参数。
这个结果之所以值得认真聊,不是因为它又"碾压"了某个闭源模型——这种消息在AI圈已经不新鲜了——而是因为它揭示了一个被长期忽视的事实:在医学AI领域,模型参数量大不大不是关键,关键在于模型知不知道该"看哪里"。
先说问题出在哪。
过去几年,医学多模态AI的主流做法是把一张医学影像或者一段手术视频编码成视觉特征,然后扔给大模型,让它生成诊断结果和解释。看起来很美:模型能写出一大段看起来很专业的推理过程,从症状描述到病理分析到结论建议,一气呵成。
但问题在于:解释写得再好,不代表模型真的看到了关键证据。
举个具体的例子。一张肺部CT影像里,一个几毫米的结节可能就是判断良恶性的关键。但如果模型只是被动地接收整张图片的视觉特征,它很可能把注意力放在了不重要的区域,然后在解释中用语言"脑补"出一段看起来合理但证据不足的分析。这在医学场景里是致命的——一个微小病灶、一个边界变化,往往就决定了答案是否成立。
Ophiuchus的思路完全不同。它不再让模型"被动看图",而是让模型在推理过程中主动决定"我要再看一眼哪里"。
具体来说,Ophiuchus把大模型改造成了一个能和医学图像工具协同的视觉智能体。它可以根据当前的推理状态,决定是否调用外部工具:用SAM2做精细分割,用BiomedParse根据文字提示定位医学结构,用Zoom-in放大关键区域。工具调用后的结果不是孤立存在的,而是以"观察结果"的形式回到推理链中,驱动下一步判断。
关键在于,工具不是"外挂"在模型外面的。模型要学会四件事:什么时候该调用工具、选哪个工具、怎么解释工具的输出、以及当工具结果不可靠时怎么修正策略。这使得模型从"会调用工具"进化到了"会用工具思考"。
另一篇工作MedScope把这个范式推进到了更难的视频场景。长临床视频的挑战在于:关键证据不仅细,而且稀疏。一个手术动作、一个内镜视野变化、一个器械进入与离开的瞬间,可能只持续几秒,却决定了模型是否真的理解了临床过程。
MedScope的做法是模拟临床医生的观察方式:先快速建立全局理解,再回到可疑的时间窗口,截取片段、获取关键帧,把局部观察结果整合进答案。这意味着模型的推理过程天然具备可审查性——你不仅可以看到模型"说了什么",还可以看到它"回看了哪一段视频、找到了哪些帧、这些证据是否支持结论"。
为了让模型真正学会这种行为,研究团队构建了ClinVideoSuite数据集,包含63.5万条时间戳密集的描述、25.4万条证据关联问答、3.4万条视觉思维链轨迹。训练采用三阶段路线:先做临床推理的预热学习,再用监督微调教会模型何时需要更多证据、如何调用工具,最后用GA-GRPO强化学习让模型更倾向于检索真正支持结论的视觉片段。
实验数据中有一个细节特别值得关注:去掉证据奖励后,定位质量R@0.5从40.1降到33.2,mIoU从43.8降到38.8。这说明什么?说明如果只在答案层面做监督,模型学不会可靠地选择证据。它可能蒙对答案,但不知道为什么对。在医学场景里,"不知道为什么对"和"错了"一样危险。
把两篇工作放在一起看,真正重要的不是Ophiuchus处理图像、MedScope处理视频,而是它们共同定义了一种新的医学AI范式——视觉不再只是输入,视觉证据本身成了模型思考过程的一部分。推理不再是语言Token的展开,而是语言、工具、图像区域、视频片段和证据反馈之间的闭环交互。
这对普通人意味着什么?这意味着未来的医学AI辅助诊断,可能不再只是给你一个看起来很专业的答案,而是能告诉你"我放大了这个区域的影像、做了分割、找到了以下特征、基于这些证据我得出了这个结论"。这种可验证、可追溯的推理过程,才是医学AI真正能被临床信任的基础。
一个7B的小模型打败几个大模型,这不是故事的全部。真正值得记住的是:在需要精确证据的领域,让模型学会"怎么看"比让模型变大更重要。
夜雨聆风