乐于分享
好东西不私藏

Chemist Eye:自驱动实验室的 AI 安全卫士 —— 硬件、软件与实验

Chemist Eye:自驱动实验室的 AI 安全卫士 —— 硬件、软件与实验

随着自驱动实验室(Self-Driving Laboratories, SDLs)在化学、材料科学领域的快速普及,机器人与自动化技术在加速科学发现的同时,也带来了传统实验室从未面临的安全挑战:人机碰撞风险、移动机器人锂电池加剧的火灾隐患、非化学背景研究人员的 PPE 合规性问题等。传统的烟雾报警器、门禁系统已无法满足 SDL 的安全需求,我们需要一套能实时感知环境、理解语义、联动机器人决策的智能安全系统。
2026 年 4 月,利物浦大学 Andrew I. Cooper 团队在《Digital Discovery》发表了Chemist Eye系统,这是首个专为 SDL 设计的分布式多模态安全监控平台。它融合 RGB-Depth、红外热成像与视觉语言模型(VLM)技术,无需任务特定训练即可实现 PPE 监测、人员事故检测、火灾预警与机器人自主避障,所有代码与硬件设计已完全开源。本文将从硬件架构、软件架构、实验验证三个维度,全面解析这套 AI 驱动的实验室安全卫士。

一、硬件架构:分布式多模态感知网络

Chemist Eye 采用分布式模块化设计,由两类独立的监测站和中央控制单元组成,所有组件通过 Wi-Fi 网络通信,单个站点故障不影响全局运行,具备天然的冗余性和可扩展性。

1. RGB-D 安全监测站

负责人员检测、PPE 识别、距离测量与语音警告,是系统的 “视觉与声音中枢”。每个站点的核心配置如下:

计算单元

Jetson Orin Nano(搭载 Jetpack 5.1.3),提供边缘推理能力,支持本地运行 YOLOv8 和轻量级 VLM 模型,无需依赖云端;

感知单元

Intel RealSense 435i RGB-D 相机,同时采集彩色图像和深度数据,可精确计算人员与相机的三维距离,误差小于 2cm;

交互单元

两个 Amazon 有线扬声器,用于播放定制化语音警告(如 “您的生命至关重要,请始终佩戴 PPE”);

机械结构

可调节铝制支架,支持水平和垂直角度调整,可安装在实验室墙壁、天花板或实验台上方,覆盖无死角监控区域。

2. 红外热成像监测站

专门用于火灾隐患检测,部署在通风橱、加热台、溶剂储存柜等高温风险区域。核心配置:

计算单元

Raspberry Pi 5(运行 Raspbian OS),低功耗、低成本,适合长期稳定运行;

感知单元

长波红外相机,测温范围 20℃-400℃,覆盖绝大多数有机化学反应的温度区间;

部署方式

三脚架或定制支架,可灵活移动和安装,甚至能放置在通风橱内部监测反应过程。

系统默认将55℃设为异常温度阈值,该温度既高于人体和环境温度(避免误触发),又远低于大多数有机溶剂的燃点,可实现早期过热预警。用户可根据实际需求调整阈值,例如将加热台区域设为 100℃,将溶剂柜设为 40℃。

3. 网络与中央控制架构(Fig. 5)

所有监测站和机器人均通过固定 IP 地址连接到实验室 Wi-Fi 网络;中央 PC 运行ROS Master 节,负责协调所有组件的通信、数据融合和指令下发;系统支持无缝集成所有 ROS 兼容的移动机器人,本文实验中使用了 3 台 KUKA KMR iiwa 移动机器人;数据传输延迟:红外数据约 300ms,RGB-D 数据约 100ms,满足实时监控需求。

二、软件架构:ROS+VLM 驱动的智能决策系统

Chemist Eye 的软件架构采用分层设计,从下到上分为通信层、感知层、推理层、决策层、可视化层,核心创新在于将 VLM 的语义推理能力与 ROS 的机器人控制能力深度融合。

1. 通信层:ROS 为核心的分布式总线

整个系统基于机器人操作系统(ROS)构建,所有硬件设备和软件模块均以 ROS 节点的形式存在,通过话题(Topic)和服务(Service)进行通信:

监测站节点:发布图像、深度、温度数据;

机器人节点:发布位置、状态信息,接收导航指令;

中央控制节点:订阅所有传感器数据,发布决策指令。

这种架构的优势在于模块化和可扩展性,新增监测站或机器人只需添加对应的 ROS 节点,无需修改核心代码。

2. 感知层:YOLOv8 快速目标检测

使用YOLOv8n-pose模型实现实时人员检测和关键点定位:

输入:RGB-D 相机的彩色图像;

输出:人员边界框、17 个人体关键点、三维空间坐标;

性能:在 Jetson Orin Nano 上运行速度可达 30FPS,满足实时性要求。

YOLOv8 的作用是快速筛选出包含人员的图像区域,将裁剪后的图像送入 VLM 进行语义分析,大幅降低 VLM 的计算量。

3. 推理层:VLM 零样本语义理解

这是 Chemist Eye 最核心的创新点。系统无需收集和标注任何实验室安全数据集,通过结构化上下文提示,让预训练 VLM 实现零样本安全推理。支持的模型包括:

离线模型:LLaVA-7B、LLaVA-Phi3(完全本地运行,隐私性最佳);

在线模型:GPT-4o mini(响应速度更快,依赖互联网)。

系统设计了两类专用提示模板(Table 1):

PPE 检测提示

通过多轮提问和关键词匹配(WHITE、LAB COAT、COAT)判断人员是否穿着实验室外套;

事故检测提示

通过识别非站立姿势(LYING、KNEELING、SITTING 等)判断是否有人员摔倒或突发疾病。

实验证明,增加上下文信息和关键词数量可显著提升准确率:LLaVA-Phi3 在 PPE 检测中的准确率从简单 “是 / 否” 提问的 74% 提升至多轮提问的 97.5%。

4. 决策层:优先级驱动的响应机制

系统根据风险等级建立了严格的响应优先级:火灾 > 医疗紧急情况 > PPE 违规,确保最危险的情况优先处理。

PPE 违规响应

冻结所有机器人→播放语音警告→10 分钟倒计时→Slack 通知管理人员;

人员事故响应

将人员标记为红色→Slack 紧急通知→VLM 规划机器人安全停靠点→清空救援通道;

火灾响应

红外相机检测异常高温→Slack 紧急通知→VLM 规划机器人远离火源→联动现有消防系统。

5. 可视化层:匿名化实时监控界面

系统通过 RViz(机器人可视化工具)提供直观的实验室全局视图:

使用匿名化的 “Meeples” 图标代表工作人员,不同颜色表示不同状态(灰色 = 正常,黄色 = PPE 违规,红色 = 事故);

显示机器人位置、导航路径和温度监测点,温度超过阈值时标记变为红色;

支持将地图截图嵌入 Slack 通知,让管理人员快速了解事故位置。

6. 隐私保护设计

这是系统设计的核心考量之一:正常运行时不存储任何原始相机图像,所有推理在本地完成;仅使用匿名化图标展示人员位置,不泄露任何个人身份信息;离线 VLM 模式下无任何数据上传,完全符合 GDPR 等数据保护法规。

三、实验设计:基于真实场景回放的安全验证

为确保实验安全,所有测试均在利物浦大学自动化化学实验室(ACL)进行(Fig. 7),采用ROS bag 文件回放的方式,避免实际模拟火灾或危险事故。ACL 配备 3 台 KUKA 移动机器人和全套自动化实验设备,是典型的 SDL 环境。

1. 数据集构建

从实验室真实视频中提取 1300 张图像,分为三类:

NORMAL(400 张)

人员正常站立、行走或工作;

NOT_PPE(400 张)

人员未穿实验室外套;

PRONE(500 张)

人员模拟摔倒、跪地、爬行等事故姿势。

数据集包含单人、多人、遮挡等多种复杂场景,确保测试的全面性。

2. 六大核心实验验证

实验 1:PPE 合规检测准确率

目的:评估不同 VLM 模型和提示策略的 PPE 检测性能;

方法:使用 4 种不同的提示策略(Q1-Q4)测试 LLaVA-7B 和 LLaVA-Phi3;

结果:LLaVA-Phi3+Q4(多轮提问 + 关键词匹配)达到最高准确率 97.5%,平均响应时间 3.65 秒。

实验 2:人员事故检测准确率

目的:评估 VLM 的姿势识别能力;

方法:使用 6 种不同的提示策略(Q5-Q10)测试两种模型;

结果:LLaVA-Phi3+Q10(综合提问)准确率达 97%,在存在遮挡的情况下仍优于传统 YOLOv8-pose 关键点检测。

实验 3:PPE 违规自动响应

目的:验证系统的自动响应流程;

方法:模拟人员持续 10 分钟不穿实验室外套;

结果:系统 100% 准确执行了 “冻结机器人→语音警告→Slack 通知” 的完整流程。

实验 4:事故响应与机器人重定位

目的:评估 VLM 指导机器人移动到安全位置的能力;

方法:模拟人员摔倒,测试 3 种提示配置(无节点列表 / 完整节点列表 / 过滤后安全节点列表);

结果:使用过滤后安全节点列表时,平均成功率达 95%,机器人均能避开事故现场。

实验 5:火灾检测与机器人重定位

目的:验证火灾场景下的系统响应;

方法:通过红外相机模拟 55℃以上的异常高温;

结果:LLaVA-Phi3 在 3D 地图 + 过滤节点配置下成功率达 100%,红外数据传输延迟仅 300ms。

实验 6:复杂场景扩展评估

目的:对比离线 VLM、在线 VLM 和传统计算机视觉模型的性能;

结果:多人遮挡场景下,LLaVA-Phi3 事故检测准确率 90.33%,YOLOv8-pose 仅 80.5%;GPT-4o mini 响应时间仅 2.4 秒,成功率 95%,但依赖互联网连接;VLM 无需任何训练,部署时间从传统方法的数周缩短至数小时。

3. 实验结论

Chemist Eye 系统在真实实验室数据测试中,安全隐患识别准确率达 88%,机器人决策准确率达 95%。其最大优势在于零样本部署能力,无需收集敏感的实验室图像数据,同时保护了人员隐私。

四、总结与展望

Chemist Eye 系统首次实现了 AI 安全监控与自驱动实验室机器人的深度联动,为解决 SDL 的独特安全挑战提供了全新范式。它的核心创新在于:

分布式多模态感知

融合 RGB-D 和红外技术,实现全方位安全监控;

VLM 零样本推理

通过结构化提示实现无需训练的安全语义理解;

机器人联动决策

主动控制机器人规避风险,而非仅仅报警;

隐私优先设计

本地推理 + 匿名化展示,完全符合数据保护法规。

当然,系统仍存在一些局限性:VLM 决策高度依赖上下文提示、3-10 秒的延迟对于快速溶剂火灾可能不足以完成机器人重定位、目前仅能检测实验室外套。未来工作将聚焦于扩展 PPE 检测范围、提升 VLM 空间感知能力、集成气体传感器等,打造更全面的实验室安全防护体系。
随着自驱动实验室的普及,Chemist Eye 这类 AI 安全系统将成为实验室基础设施的标准配置,让科学探索在更安全的环境中加速前行。
Ref: DOI: 10.1039/d6dd00062b