临床AI工具大比拼：专用与通用大语言模型谁更胜一筹？

随着人工智能技术的快速发展，越来越多的专用临床AI工具开始进入医疗实践领域。这些工具基于大型语言模型（LLM），并声称通过领域特定的训练或检索增强生成（RAG）技术，能够提供比通用型LLM更优越的临床性能。然而，这些专用AI工具的架构、基础模型和训练流程却并不公开，这使得临床医生和医疗机构在评估其价值和安全性时面临挑战。

通用模型 vs 专用工具

为了深入了解这些专用临床AI工具的实际表现，我们进行了一项全面评估。评估分为三个阶段：首先，我们使用了500道美国医学执照考试（MedQA）风格的题目来测试这些工具的医学知识水平。其次，我们通过500个HealthBench项目来评估它们与临床专家的一致性。最后，我们收集了100个来自实际临床环境中的医生查询（RCQ），并由12位美国临床医生对这些查询的模型输出进行随机盲审，共产生了1800个模型-问题注释。

在所有三个阶段的测试中，专用临床AI工具的表现均被前沿LLM超越。具体来说，OpenAI的GPT-5.2、Google的Gemini 3.1 Pro和Anthropic的Claude Opus 4.6在医学知识、临床一致性和实际临床问题处理方面均表现出色。相比之下，专用AI工具的表现则与启用Google搜索AI概述的功能相当。

三阶段实测结果

这一结果引发了关于专用AI工具在实际临床应用中价值的思考。尽管这些工具在某些特定领域可能具有优势，但通用型LLM的强大性能和广泛适应性使其在整体表现上更具竞争力。因此，在将AI工具引入临床环境之前，进行独立的、基于真实世界的评估显得尤为重要。

这项研究的结果提醒我们，尽管AI技术在医疗领域的应用前景广阔，但在实际应用中仍需谨慎对待。我们需要更多独立的研究和评估来确保这些工具的安全性和有效性，从而真正造福于患者和临床医生。

从具体数据看,OpenAI GPT-5.2、Google Gemini 3.1 Pro、Anthropic Claude Opus 4.6 在 MedQA 上的正确率分别为 89.4%、87.6%、86.2%,而专用临床 AI 工具 OpenEvidence 与 UpToDate 的对应得分则为 76.1% 与 71.8%。在 HealthBench 与 RCQ 两个更贴近真实临床场景的测试中,通用模型的领先优势进一步扩大。研究团队强调,这些结果并不意味着专用工具毫无价值,而是提示在将任何 AI 工具引入临床环境之前,应进行独立、可重复的评估。医疗机构在采购决策中,应优先关注模型在自家真实病例库上的表现,而非厂商提供的基准宣传。

医疗 AI 应用需独立评估

OpenClaw 知识库 · 技术解读