7B参数的医学AI,凭什么打败o3和GPT-5?

7B参数的医学AI，凭什么打败o3和GPT-5？

一个7B参数的小模型，在医学视觉问答的8个基准测试上拿了平均68.0分，超过了OpenAI的o3（62.2分）、Gemini 2.5 Pro（61.8分）和GPT-5（59.9分）。

这不是标题党，这是上海创智学院LeapQuest团队联合浙大、上交、复旦，在ICML 2026上发表的两篇论文的真实结果。模型叫Ophiuchus，只有7B参数。

这个结果之所以值得认真聊，不是因为它又"碾压"了某个闭源模型——这种消息在AI圈已经不新鲜了——而是因为它揭示了一个被长期忽视的事实：在医学AI领域，模型参数量大不大不是关键，关键在于模型知不知道该"看哪里"。

先说问题出在哪。

过去几年，医学多模态AI的主流做法是把一张医学影像或者一段手术视频编码成视觉特征，然后扔给大模型，让它生成诊断结果和解释。看起来很美：模型能写出一大段看起来很专业的推理过程，从症状描述到病理分析到结论建议，一气呵成。

但问题在于：解释写得再好，不代表模型真的看到了关键证据。

举个具体的例子。一张肺部CT影像里，一个几毫米的结节可能就是判断良恶性的关键。但如果模型只是被动地接收整张图片的视觉特征，它很可能把注意力放在了不重要的区域，然后在解释中用语言"脑补"出一段看起来合理但证据不足的分析。这在医学场景里是致命的——一个微小病灶、一个边界变化，往往就决定了答案是否成立。

Ophiuchus的思路完全不同。它不再让模型"被动看图"，而是让模型在推理过程中主动决定"我要再看一眼哪里"。

具体来说，Ophiuchus把大模型改造成了一个能和医学图像工具协同的视觉智能体。它可以根据当前的推理状态，决定是否调用外部工具：用SAM2做精细分割，用BiomedParse根据文字提示定位医学结构，用Zoom-in放大关键区域。工具调用后的结果不是孤立存在的，而是以"观察结果"的形式回到推理链中，驱动下一步判断。

关键在于，工具不是"外挂"在模型外面的。模型要学会四件事：什么时候该调用工具、选哪个工具、怎么解释工具的输出、以及当工具结果不可靠时怎么修正策略。这使得模型从"会调用工具"进化到了"会用工具思考"。

另一篇工作MedScope把这个范式推进到了更难的视频场景。长临床视频的挑战在于：关键证据不仅细，而且稀疏。一个手术动作、一个内镜视野变化、一个器械进入与离开的瞬间，可能只持续几秒，却决定了模型是否真的理解了临床过程。

MedScope的做法是模拟临床医生的观察方式：先快速建立全局理解，再回到可疑的时间窗口，截取片段、获取关键帧，把局部观察结果整合进答案。这意味着模型的推理过程天然具备可审查性——你不仅可以看到模型"说了什么"，还可以看到它"回看了哪一段视频、找到了哪些帧、这些证据是否支持结论"。

为了让模型真正学会这种行为，研究团队构建了ClinVideoSuite数据集，包含63.5万条时间戳密集的描述、25.4万条证据关联问答、3.4万条视觉思维链轨迹。训练采用三阶段路线：先做临床推理的预热学习，再用监督微调教会模型何时需要更多证据、如何调用工具，最后用GA-GRPO强化学习让模型更倾向于检索真正支持结论的视觉片段。

实验数据中有一个细节特别值得关注：去掉证据奖励后，定位质量R@0.5从40.1降到33.2，mIoU从43.8降到38.8。这说明什么？说明如果只在答案层面做监督，模型学不会可靠地选择证据。它可能蒙对答案，但不知道为什么对。在医学场景里，"不知道为什么对"和"错了"一样危险。

把两篇工作放在一起看，真正重要的不是Ophiuchus处理图像、MedScope处理视频，而是它们共同定义了一种新的医学AI范式——视觉不再只是输入，视觉证据本身成了模型思考过程的一部分。推理不再是语言Token的展开，而是语言、工具、图像区域、视频片段和证据反馈之间的闭环交互。

这对普通人意味着什么？这意味着未来的医学AI辅助诊断，可能不再只是给你一个看起来很专业的答案，而是能告诉你"我放大了这个区域的影像、做了分割、找到了以下特征、基于这些证据我得出了这个结论"。这种可验证、可追溯的推理过程，才是医学AI真正能被临床信任的基础。

一个7B的小模型打败几个大模型，这不是故事的全部。真正值得记住的是：在需要精确证据的领域，让模型学会"怎么看"比让模型变大更重要。