Chemist Eye:自驱动实验室的 AI 安全卫士 —— 硬件、软件与实验

随着自驱动实验室（Self-Driving Laboratories, SDLs）在化学、材料科学领域的快速普及，机器人与自动化技术在加速科学发现的同时，也带来了传统实验室从未面临的安全挑战：人机碰撞风险、移动机器人锂电池加剧的火灾隐患、非化学背景研究人员的 PPE 合规性问题等。传统的烟雾报警器、门禁系统已无法满足 SDL 的安全需求，我们需要一套能实时感知环境、理解语义、联动机器人决策的智能安全系统。

2026 年 4 月，利物浦大学 Andrew I. Cooper 团队在《Digital Discovery》发表了Chemist Eye系统，这是首个专为 SDL 设计的分布式多模态安全监控平台。它融合 RGB-Depth、红外热成像与视觉语言模型（VLM）技术，无需任务特定训练即可实现 PPE 监测、人员事故检测、火灾预警与机器人自主避障，所有代码与硬件设计已完全开源。本文将从硬件架构、软件架构、实验验证三个维度，全面解析这套 AI 驱动的实验室安全卫士。

一、硬件架构：分布式多模态感知网络

Chemist Eye 采用分布式模块化设计，由两类独立的监测站和中央控制单元组成，所有组件通过 Wi-Fi 网络通信，单个站点故障不影响全局运行，具备天然的冗余性和可扩展性。

1. RGB-D 安全监测站

负责人员检测、PPE 识别、距离测量与语音警告，是系统的 “视觉与声音中枢”。每个站点的核心配置如下：

计算单元

Jetson Orin Nano（搭载 Jetpack 5.1.3），提供边缘推理能力，支持本地运行 YOLOv8 和轻量级 VLM 模型，无需依赖云端；

感知单元

Intel RealSense 435i RGB-D 相机，同时采集彩色图像和深度数据，可精确计算人员与相机的三维距离，误差小于 2cm；

交互单元

两个 Amazon 有线扬声器，用于播放定制化语音警告（如 “您的生命至关重要，请始终佩戴 PPE”）；

机械结构

可调节铝制支架，支持水平和垂直角度调整，可安装在实验室墙壁、天花板或实验台上方，覆盖无死角监控区域。

2. 红外热成像监测站

专门用于火灾隐患检测，部署在通风橱、加热台、溶剂储存柜等高温风险区域。核心配置：

计算单元

Raspberry Pi 5（运行 Raspbian OS），低功耗、低成本，适合长期稳定运行；

感知单元

长波红外相机，测温范围 20℃-400℃，覆盖绝大多数有机化学反应的温度区间；

部署方式

三脚架或定制支架，可灵活移动和安装，甚至能放置在通风橱内部监测反应过程。

系统默认将55℃设为异常温度阈值，该温度既高于人体和环境温度（避免误触发），又远低于大多数有机溶剂的燃点，可实现早期过热预警。用户可根据实际需求调整阈值，例如将加热台区域设为 100℃，将溶剂柜设为 40℃。

3. 网络与中央控制架构（Fig. 5）

所有监测站和机器人均通过固定 IP 地址连接到实验室 Wi-Fi 网络；中央 PC 运行ROS Master 节，负责协调所有组件的通信、数据融合和指令下发；系统支持无缝集成所有 ROS 兼容的移动机器人，本文实验中使用了 3 台 KUKA KMR iiwa 移动机器人；数据传输延迟：红外数据约 300ms，RGB-D 数据约 100ms，满足实时监控需求。

二、软件架构：ROS+VLM 驱动的智能决策系统

Chemist Eye 的软件架构采用分层设计，从下到上分为通信层、感知层、推理层、决策层、可视化层，核心创新在于将 VLM 的语义推理能力与 ROS 的机器人控制能力深度融合。

1. 通信层：ROS 为核心的分布式总线

整个系统基于机器人操作系统（ROS）构建，所有硬件设备和软件模块均以 ROS 节点的形式存在，通过话题（Topic）和服务（Service）进行通信：

监测站节点：发布图像、深度、温度数据；

机器人节点：发布位置、状态信息，接收导航指令；

中央控制节点：订阅所有传感器数据，发布决策指令。

这种架构的优势在于模块化和可扩展性，新增监测站或机器人只需添加对应的 ROS 节点，无需修改核心代码。

2. 感知层：YOLOv8 快速目标检测

使用YOLOv8n-pose模型实现实时人员检测和关键点定位：

输入：RGB-D 相机的彩色图像；

输出：人员边界框、17 个人体关键点、三维空间坐标；

性能：在 Jetson Orin Nano 上运行速度可达 30FPS，满足实时性要求。

YOLOv8 的作用是快速筛选出包含人员的图像区域，将裁剪后的图像送入 VLM 进行语义分析，大幅降低 VLM 的计算量。

3. 推理层：VLM 零样本语义理解

这是 Chemist Eye 最核心的创新点。系统无需收集和标注任何实验室安全数据集，通过结构化上下文提示，让预训练 VLM 实现零样本安全推理。支持的模型包括：

离线模型：LLaVA-7B、LLaVA-Phi3（完全本地运行，隐私性最佳）；

在线模型：GPT-4o mini（响应速度更快，依赖互联网）。

系统设计了两类专用提示模板（Table 1）：

PPE 检测提示

通过多轮提问和关键词匹配（WHITE、LAB COAT、COAT）判断人员是否穿着实验室外套；

事故检测提示

通过识别非站立姿势（LYING、KNEELING、SITTING 等）判断是否有人员摔倒或突发疾病。

实验证明，增加上下文信息和关键词数量可显著提升准确率：LLaVA-Phi3 在 PPE 检测中的准确率从简单 “是 / 否” 提问的 74% 提升至多轮提问的 97.5%。

4. 决策层：优先级驱动的响应机制

系统根据风险等级建立了严格的响应优先级：火灾 > 医疗紧急情况 > PPE 违规，确保最危险的情况优先处理。

PPE 违规响应

冻结所有机器人→播放语音警告→10 分钟倒计时→Slack 通知管理人员；

人员事故响应

将人员标记为红色→Slack 紧急通知→VLM 规划机器人安全停靠点→清空救援通道；

火灾响应

红外相机检测异常高温→Slack 紧急通知→VLM 规划机器人远离火源→联动现有消防系统。

5. 可视化层：匿名化实时监控界面

系统通过 RViz（机器人可视化工具）提供直观的实验室全局视图：

使用匿名化的 “Meeples” 图标代表工作人员，不同颜色表示不同状态（灰色 = 正常，黄色 = PPE 违规，红色 = 事故）；

显示机器人位置、导航路径和温度监测点，温度超过阈值时标记变为红色；

支持将地图截图嵌入 Slack 通知，让管理人员快速了解事故位置。

6. 隐私保护设计

这是系统设计的核心考量之一：正常运行时不存储任何原始相机图像，所有推理在本地完成；仅使用匿名化图标展示人员位置，不泄露任何个人身份信息；离线 VLM 模式下无任何数据上传，完全符合 GDPR 等数据保护法规。

三、实验设计：基于真实场景回放的安全验证

为确保实验安全，所有测试均在利物浦大学自动化化学实验室（ACL）进行（Fig. 7），采用ROS bag 文件回放的方式，避免实际模拟火灾或危险事故。ACL 配备 3 台 KUKA 移动机器人和全套自动化实验设备，是典型的 SDL 环境。

1. 数据集构建

从实验室真实视频中提取 1300 张图像，分为三类：

NORMAL（400 张）

人员正常站立、行走或工作；

NOT_PPE（400 张）

人员未穿实验室外套；

PRONE（500 张）

人员模拟摔倒、跪地、爬行等事故姿势。

数据集包含单人、多人、遮挡等多种复杂场景，确保测试的全面性。

2. 六大核心实验验证

实验 1：PPE 合规检测准确率

目的：评估不同 VLM 模型和提示策略的 PPE 检测性能；

方法：使用 4 种不同的提示策略（Q1-Q4）测试 LLaVA-7B 和 LLaVA-Phi3；

结果：LLaVA-Phi3+Q4（多轮提问 + 关键词匹配）达到最高准确率 97.5%，平均响应时间 3.65 秒。

实验 2：人员事故检测准确率

目的：评估 VLM 的姿势识别能力；

方法：使用 6 种不同的提示策略（Q5-Q10）测试两种模型；

结果：LLaVA-Phi3+Q10（综合提问）准确率达 97%，在存在遮挡的情况下仍优于传统 YOLOv8-pose 关键点检测。

实验 3：PPE 违规自动响应

目的：验证系统的自动响应流程；

方法：模拟人员持续 10 分钟不穿实验室外套；

结果：系统 100% 准确执行了 “冻结机器人→语音警告→Slack 通知” 的完整流程。

实验 4：事故响应与机器人重定位

目的：评估 VLM 指导机器人移动到安全位置的能力；

方法：模拟人员摔倒，测试 3 种提示配置（无节点列表 / 完整节点列表 / 过滤后安全节点列表）；

结果：使用过滤后安全节点列表时，平均成功率达 95%，机器人均能避开事故现场。

实验 5：火灾检测与机器人重定位

目的：验证火灾场景下的系统响应；

方法：通过红外相机模拟 55℃以上的异常高温；

结果：LLaVA-Phi3 在 3D 地图 + 过滤节点配置下成功率达 100%，红外数据传输延迟仅 300ms。

实验 6：复杂场景扩展评估

目的：对比离线 VLM、在线 VLM 和传统计算机视觉模型的性能；

结果：多人遮挡场景下，LLaVA-Phi3 事故检测准确率 90.33%，YOLOv8-pose 仅 80.5%；GPT-4o mini 响应时间仅 2.4 秒，成功率 95%，但依赖互联网连接；VLM 无需任何训练，部署时间从传统方法的数周缩短至数小时。

3. 实验结论

Chemist Eye 系统在真实实验室数据测试中，安全隐患识别准确率达 88%，机器人决策准确率达 95%。其最大优势在于零样本部署能力，无需收集敏感的实验室图像数据，同时保护了人员隐私。

四、总结与展望

Chemist Eye 系统首次实现了 AI 安全监控与自驱动实验室机器人的深度联动，为解决 SDL 的独特安全挑战提供了全新范式。它的核心创新在于：

分布式多模态感知

融合 RGB-D 和红外技术，实现全方位安全监控；

VLM 零样本推理

通过结构化提示实现无需训练的安全语义理解；

机器人联动决策

主动控制机器人规避风险，而非仅仅报警；

隐私优先设计

本地推理 + 匿名化展示，完全符合数据保护法规。

当然，系统仍存在一些局限性：VLM 决策高度依赖上下文提示、3-10 秒的延迟对于快速溶剂火灾可能不足以完成机器人重定位、目前仅能检测实验室外套。未来工作将聚焦于扩展 PPE 检测范围、提升 VLM 空间感知能力、集成气体传感器等，打造更全面的实验室安全防护体系。

随着自驱动实验室的普及，Chemist Eye 这类 AI 安全系统将成为实验室基础设施的标准配置，让科学探索在更安全的环境中加速前行。

Ref： DOI: 10.1039/d6dd00062b