RM-01 便携AI超算接入开源医疗视频大模型,迈向术中分析新阶段-夜雨聆风

RM-01 便携AI超算接入开源医疗视频大模型,迈向术中分析新阶段

过去几年，医疗大模型的发展，更多集中在“知识问答”层面。

它们擅长阅读文献、理解指南、回答概念问题，但一旦进入真实医疗视频场景，尤其是手术视频、护理视频、内镜视频，能力边界就会很快显现。

因为医疗视频要解决的，不只是“这是什么”，而是更复杂的几件事：

关键动作什么时候发生
器械或组织出现在什么位置
操作流程如何推进
当前步骤在临床上意味着什么
某段过程是否具有教学、研究或回顾价值

也正因为如此，医疗视频理解，被认为是医学人工智能中更难、也更接近真实临床流程的一条路线。

而我们这次在 RM-01 便携 AI 超算上接入并运行的，正是一类面向这一方向的模型：

uAI-NEXUS-MedVLM-1.0a-7B-RL

它不是传统意义上“只会医学问答”的模型，而是一个面向医疗视频理解的开源大模型。

一、它和传统“靠知识库堆出来”的医疗模型，有什么不同？

过去很多医疗 AI 系统，本质上还是以知识检索 + 文本问答为主。

这类系统当然有价值，但它们更适合回答：

某个疾病是什么
某个术式的标准步骤是什么
某种并发症怎么定义
某类护理流程的规范是什么

而当问题变成：

这段视频里，关键动作发生在第几秒？
这里看到的是哪一类器械或解剖区域？
这一步是否完成了？
下一步最可能是什么？
这段过程应该如何总结和回顾？

仅靠知识库就不够了。

uAI-NEXUS-MedVLM 的意义，在于它开始从“视频过程本身”学习能力。

它不仅要“知道”，更要“看懂”：

看懂时间顺序
看懂操作阶段
看懂局部区域
看懂医疗语义
看懂流程中的关键片段

换句话说，这类模型把医疗 AI 从“会回答医学问题”，推进到了“开始理解医疗视频过程”。

二、这类模型到底是怎么训练出来的？

从公开论文和项目页来看，这一模型体系建立在大规模医疗视频指令训练基础之上。

其核心基准与训练体系包括：

531,850 条视频-指令对
8 个来源数据集
8 类医疗视频理解任务
6,245 个测试样本

当前公开发布的数据显示，基于其中 51,505 条平衡视频-指令样本完成监督微调，并进一步通过强化学习优化时间定位和医疗语义表达能力。

这意味着，它不是简单把医学知识“塞进大模型”，而是在大量医疗视频样本和任务指令上，让模型学习如何：

看视频
理解过程
对关键片段做出判断
输出更符合医疗语义的结果

这也是它与传统医学问答模型最根本的差别。

三、它主要面向哪些医疗场景？

这里必须严谨说明：

它不是“什么手术都懂”的万能模型。

根据公开的数据集与论文说明，这个模型覆盖的是一些有明确训练和评测来源的医疗视频场景，主要包括：

护理视频
腹腔镜胆囊切除相关视频
内镜黏膜下剥离术相关视频
开放手术视频
第一视角手术视频
机器人手术视频

也就是说，它更接近于一个面向护理与部分典型手术场景的视频理解模型，而不是一个已经覆盖全部专科、全部术式的全能系统。

这点非常关键。

对于它训练分布内的场景，比如护理流程、腹腔镜胆囊切除、内镜、部分机器人手术，它更有机会表现出稳定能力。但对于明显超出训练分布的专科视频，比如神经外科、骨科、心外科、产科等，不能默认它具有同样稳定的细粒度识别能力。

所以，更准确的说法不是“所有手术都能识别”，而是：它在若干典型医疗视频任务上，已经展现出较强的过程理解能力。

四、它具体擅长做什么？

从论文定义的任务来看，它最重要的能力，主要集中在以下几个方面：

1. 时间定位

它可以尝试判断一个关键动作发生在什么时候。

例如：

某个操作从第几秒开始
某个步骤何时结束
某个关键环节出现在哪个时间区间

这类能力对术后回顾、教学标注、视频检索非常有价值。

2. 时空定位

不仅看“什么时候”，还看“在哪里”。

也就是说，它不仅理解动作发生的时间，还尝试理解动作对应的空间区域或局部位置。

3. 视频摘要与过程描述

它可以把一段手术或护理视频，转换成更结构化的文字说明。

例如：

这段视频主要进行了哪些操作
流程可以分成几个阶段
哪些环节值得重点关注

4. 下一步动作预测

在某些任务里，它可以基于已有视频过程，预测接下来可能发生的步骤。

5. 技能与安全相关评估

在限定任务中，它还支持部分技能评估和 CVS（Critical View of Safety）安全相关判断。

这类能力尤其说明：它不仅是在“看图说话”，而是在向更高层次的医疗过程理解迈进。

五、为什么说它代表了一种新的医疗 AI 路线？

因为它推动医疗 AI 从“静态知识”走向“动态过程”。

在医疗场景里，真正高价值的信息，很多都不在一张图里，而在连续过程里：

一项操作是如何完成的
某个关键步骤是在什么时机出现的
一个安全动作是否真正达成
某段术野变化意味着什么
某段护理过程是否规范、完整

这些问题，单靠图像分类不够，单靠知识问答也不够。

必须让模型开始理解：

时间、空间、动作、过程、临床语义

这也是这类模型最值得关注的地方。

它并不只是“会说更多”，而是开始尝试“看懂医疗过程”。

六、为什么我们在RM-01 便携 AI 超算上的部署？

因为模型本身决定“懂不懂”，而平台决定“能不能真正用起来”。

医疗视频分析真正落地，并不只是跑通一次推理，而是要解决一整条链路问题：

视频接入
数据采集
帧抽取与预处理
模型推理
多任务并发
结果输出
回放与回顾
本地部署与现场运行

这也正是 RM-01 便携 AI 超算的意义所在。

我们这次不是把模型放在远端云端做一个“离线 demo”，而是让它在本地可部署、可移动、可接入真实视频流的形态下运行。

这意味着，它更接近真实场景中的使用方式：

接入实时视频流
对视频数据快速采集
在本地进行分析和推理
支持多路任务并发
便于术中观察、术后回顾、教学演示与研究验证

对于医疗视频场景来说，这种本地化、高并发、低延迟能力，不是锦上添花，而是决定“能不能真正用起来”的关键。

七、RM-01 的价值，不只是“能跑模型”，而是“能支撑并发分析”

如果说医疗视频模型是“大脑”，那么 RM-01 更像是把这个大脑真正装进应用场景的“身体”。

在真实使用中，一段视频往往不会只做一个动作。

它可能同时需要：

视频采集
关键片段提取
时间定位分析
摘要生成
结果结构化输出
界面展示与回放
多任务调度

这对平台提出的要求，不再只是“有没有算力”，而是：

有没有稳定并发能力
能不能在本地快速响应
能不能支持真实视频数据流
能不能连续运行并输出结果

这正是 RM-01 便携 AI 超算的优势所在。

在医疗回顾、教学演示、科研采样、现场分析等场景中，这种“本地接入 + 快速采集 + 并发分析”的能力，远比单纯追求云端更大模型更具现实价值。

八、它的实际意义，应该如何严谨理解？

这里我们更愿意用“辅助理解与流程支持”来描述，而不是夸大成“自动诊疗”。

更严谨地说，这类模型当前更现实的价值，主要体现在以下几个方面：

1. 医疗回顾

帮助团队快速定位关键片段、整理视频要点、形成回顾材料。

2. 医学研究

帮助研究人员把海量视频转成更结构化的样本，提升分析效率。

3. 教学培训

帮助学员理解步骤、帮助教师提炼关键流程、辅助形成标准化教学内容。

4. 临床流程支持

在合适边界内，为医疗视频信息提取、流程理解和辅助分析提供新的工具能力。

但同样必须强调：

它不等于替代医生。它也不意味着所有专科、所有术式、所有设备和所有医院场景下都具有同样稳定的判断能力。

它更准确的定位，是：

一个正在从实验研究走向现实应用的医疗视频理解引擎。

九、接下来我们将展示具体效果

接下来，我们将在 RM-01 便携 AI 超算上展示一段真实录制的分析视频。

这段演示将更直观地体现：

医疗视频模型如何接入真实视频数据
RM-01 如何完成本地推理与结果输出
为什么高并发、低延迟、本地部署能力，对医疗视频场景非常关键
医疗大模型如何从“实验室能力”走向“现场能力”

从“知道很多医学知识”，到“真正看懂医疗过程”，这是医疗大模型正在发生的一次重要变化。

而 RM-01，正在把这种变化，从论文与 benchmark，推进到更接近实际使用场景的一线实践。

已关注

关注

重播分享赞

视频详情

结语

过去，很多人理解医疗大模型，仍停留在“医学问答”。

但真正有潜力改变医疗视频应用方式的，可能并不是“答得更像医生”，而是：

开始理解过程，开始理解步骤，开始理解时间与空间中的临床语义。

这正是医疗视频大模型最值得关注的方向。

而当这样的模型，部署在一台具备本地推理、快速采集与并发分析能力的 RM-01 便携 AI 超算上，它的意义，也就不再只是一个技术演示。

它开始具备进入真实流程的可能。

参考来源

论文：MedGRPO: Multi-Task Reinforcement Learning for Heterogeneous Medical Video Understandinghttps://arxiv.org/abs/2512.06581
项目页：https://gaozhongpai.github.io/MedGRPO-Page/
模型页：https://huggingface.co/UII-AI/uAI-NEXUS-MedVLM-1.0a-7B-RL
数据集页：https://huggingface.co/datasets/UII-AI/MedVidBench