IJRR 2025|可解释 AI 新突破!GOLLUM:层 - 列双编码,让机器人运动控制从黑箱变白盒

在足式机器人运动学习领域，始终存在四道难以跨越的鸿沟：不可解释性让控制过程如同黑箱，样本低效性导致训练耗时长久，知识利用不足使得新技能学习无法借力过往经验，灾难性遗忘更是让旧技能在学习新技能时被轻易覆盖。而近日，Arthicha Srisuchinnawong与Poramate Manoonpong提出的GOLLUM框架，为解决这些难题带来了全新思路，让机器人在实体环境下无需人工干预，就能实现自主的终身运动学习。

论文信息

题目：Growable and interpretable neural control with online continual learning for autonomous lifelong locomotion learning machines

面向自主终身运动学习机器的可生长可解释在线持续学习神经控制

作者：Arthicha Srisuchinnawong, Poramate Manoonpong

一、机器人运动学习的四大核心痛点

动物能在一生中不断打磨、拓展自身的运动技能，但当下的足式机器人却始终受限于预设场景。追根溯源，是四大核心挑战掣肘着机器人运动学习的发展：

样本低效性

多数机器人依赖强化学习试错学习，要收集海量训练样本才能稳定更新策略。静态环境下，训练时间短则1小时，长则22天。为了节省时间，很多训练只能在仿真环境中完成，可仿真与现实的偏差，又会影响机器人实际运行的鲁棒性。即便辅以在线系统辨识等方法，性能偏差仍难消除，而实体微调又会进一步增加训练成本。

知识利用不足

当机器人需要适应第二种环境条件时，这个问题会格外突出。同时训练多环境下的技能，耗时久且效果差；增量训练虽更可行，但训练时间会随环境条件数量线性增长。想要把已有环境的知识迁移到新环境，却又容易触发新的问题。

灾难性遗忘

这是最棘手的问题之一。学习新任务时，神经控制网络中存储旧知识的权重会被新知识覆盖，直接导致旧技能性能下降5%–70%。现有解决方案要么因正则化尺度不当导致性能衰减，要么计算成本高、数据依赖度大，难以从根本上解决问题。

不可解释性

深度神经网络这类黑盒模型，让机器人的学习过程和结果难以被理解。我们无法拆解网络模块做局部分析，也难以验证、修改学习结果，这使得足式机器人只能执行预设行为，训练后的可靠性也大打折扣。

二、GOLLUM框架：以可解释性破局，兼顾高效与稳定

面对这些挑战，现有研究多依赖复杂的架构或表示方法尝试突破。而GOLLUM框架另辟蹊径，以双层可解释性为核心，搭配神经发生机制与双层学习机制，用轻量化的设计实现了机器人终身运动学习的智能化。

1. 框架核心架构：三层组件构建完整学习体系

GOLLUM的整体架构清晰且逻辑严密，三大核心组件各司其职，共同支撑起自主持续学习的能力（见图1）。

可解释神经控制网络：承担生成运动指令、预测观测值与价值的核心功能，也是框架可解释性的基础；
神经发生机制：能在机器人运行过程中，自主融入全新的运动技能；
双层学习机制：让机器人既能高效学习新技能，又能避免灾难性遗忘。

2. 可解释神经控制：层间+列间，让控制过程可拆解可追溯

GOLLUM的可解释性，体现在列间与层间两个维度，这也是它区别于传统黑箱模型的关键。

列间可解释性

神经控制网络由多列子网络构成，核心是环状神经网络（CPG），即便无外部输入，也能生成周期性输出。每一列子网络对应编码一种特定的机器人行为或技能，由多个循环连接的神经结构组成。列与列之间通过连接实现行为切换，网络内的激活状态能直接反映当前机器人的行为模式与对应动作（见图9）。

层间可解释性

整个神经控制网络分为七层可解释神经回归层，每层都是离散时间非脉冲的单层回归结构，被划分为五大功能模块：传感反馈模块接收机器人的21维观测输入，两个输入预处理模块完成信号的筛选与激活，序列中枢模式发生器模块负责节律生成与行为切换，基函数模块平滑内部状态，运动前模块与输出模块最终生成运动指令、价值预测、观测预测等关键信息（见图10）。

这种双层可解释结构，让网络的每个组件、每个参数都对应明确功能，彻底打破了黑箱模型的限制。

3. 双层学习机制：分离基础技能，复用已有经验

GOLLUM的双层学习机制，精准解决了知识保存与高效迁移的矛盾：

基础学习：专门更新运动指令的映射连接，聚焦当前行为对应的基础技能学习，确保旧技能的权重不被覆盖，从根源避免灾难性遗忘；
补充学习：更新子网络之间的连接，把已习得的技能组合起来，辅助新技能学习，大幅提升学习效率。

两类连接的更新都采用改进的梯度加权策略梯度算法，兼顾学习的稳定性与探索性（见图13）。

4. 神经发生机制：自主生长新技能，迁移相似知识

当机器人的价值预测与观测预测偏差超出阈值时，神经发生机制会被触发。它通过修改布尔连接矩阵创建新的子网络，新子网络会直接复制最相似已有子网络的参数，实现知识的快速迁移。这个过程无需人工干预，仅少量增加内存与计算资源，却能让机器人持续拓展技能库。

三、实体实验验证：GOLLUM的性能到底有多能打？

研究团队在MORF六足机器人平台上开展了系列实验，这款机器人拥有18个驱动旋转关节，搭载多种传感器，总重约4.7kg，神经控制器通过ROS无线网络传输指令，完全模拟真实应用场景。

1. 基础运动学习：10分钟掌握平地行走，样本效率远超传统方法

在平坦刚性地面的实验中，实体机器人仅用200幕（约10分钟）就从零学会了基础行走技能，最终平均行走速度接近10cm/s。对比仿真实验显示，GOLLUM的学习速度显著优于CPG-RBF+PIBB、DNN+DroQ、DNN+PPO等主流方法，样本效率更高，且无需仿真预训练，直接适配实体机器人的快速学习（见图15）。

2. 通用持续运动学习：1小时自主习得4-6项复杂技能

在更复杂的场景中，机器人在一小时内自主持续学习了4–6项新技能。无论是斜坡、柔性海绵地面、碎石场这类复杂地形，还是电机故障的极端情况，机器人都能适应。每项技能的学习仅耗时100–200幕（10–20分钟），还能应对接近硬件极限的斜坡环境（见表2）。

3. 无灾难性遗忘，知识迁移效率拉满

神经发生机制能在奖励低于预测下界、观测超出预测边界时触发，新建子网络并迁移相似技能参数。实验验证，无神经发生时机器人会出现明显的灾难性遗忘，而启用该机制后，机器人可自主召回已有技能，且直接的知识迁移让新技能初始性能远优于随机初始化的情况。

4. 补充学习加速新技能掌握，性能提升40%-60%

借助补充学习机制，机器人能组合已有技能来学习新技能。在斜坡、电机故障、复杂地形等实验场景中，补充学习让新技能的性能提升了40%–60%；若关闭补充学习，机器人无法有效整合过往经验，学习效率会大幅下降。

5. 强可解释性：结构透明，可分解可模拟

GOLLUM的可解释性并非空谈，它具备三大核心特性：可分解性让模块化的层与列子网络构成白盒模型，每个组件对应明确功能；透明性让学习过程等价于多稀疏线性回归训练，权重直接反映传感贡献与技能组合；可模拟性则能将网络转换为行为模型，清晰展示行为组织与切换规则。

定量评估显示，GOLLUM的神经激活稀疏度比主流方法高67%–84%，决策树解释的深度与节点数少30%–70%，保真度误差也更低，可解释性优势显著。

四、GOLLUM的价值：从学术到应用的多重突破

从学术研究角度，GOLLUM首次以可解释性为核心，同时解决了持续运动学习的四大难题。样本效率上，实体机器人10–20分钟就能完成一项技能学习，样本量仅为传统方法的万分之一；在遗忘问题上，实现了实体环境下无遗忘的持续学习；可解释性则为后续研究提供了清晰的分析视角。

从工程应用角度，GOLLUM可拓展至各类足式机器人、机械臂操作任务，适配示教编程模式。它能生成可解释的行为层次结构，支持人工监督与修改，大幅降低机器人的使用门槛。

从仿生与交叉学科角度，GOLLUM融合了多种生物启发的终身学习特性，其节律生成、条件决策等机制，也为动物运动与学习机制的生物学研究提供了可验证的计算模型。

五、总结

GOLLUM框架的出现，为自主终身运动学习机器人的发展奠定了核心基础。它凭借双层可解释结构、神经发生机制与双层学习机制，让机器人在无人工干预、无仿真预训练的实体环境下，实现了样本高效、无遗忘、可解释的持续运动学习。

这款框架不仅是足式机器人领域的重要突破，也为其他机器人平台的终身学习研究提供了新思路。未来，随着GOLLUM在多足机器人、机械臂等平台的拓展应用，机器人有望真正从执行预设任务，走向开放环境下的终身自适应学习。