在足式机器人运动学习领域,始终存在四道难以跨越的鸿沟:不可解释性让控制过程如同黑箱,样本低效性导致训练耗时长久,知识利用不足使得新技能学习无法借力过往经验,灾难性遗忘更是让旧技能在学习新技能时被轻易覆盖。而近日,Arthicha Srisuchinnawong与Poramate Manoonpong提出的GOLLUM框架,为解决这些难题带来了全新思路,让机器人在实体环境下无需人工干预,就能实现自主的终身运动学习。
论文信息
题目:Growable and interpretable neural control with online continual learning for autonomous lifelong locomotion learning machines
面向自主终身运动学习机器的可生长可解释在线持续学习神经控制
作者:Arthicha Srisuchinnawong, Poramate Manoonpong
一、机器人运动学习的四大核心痛点
动物能在一生中不断打磨、拓展自身的运动技能,但当下的足式机器人却始终受限于预设场景。追根溯源,是四大核心挑战掣肘着机器人运动学习的发展:
样本低效性
多数机器人依赖强化学习试错学习,要收集海量训练样本才能稳定更新策略。静态环境下,训练时间短则1小时,长则22天。为了节省时间,很多训练只能在仿真环境中完成,可仿真与现实的偏差,又会影响机器人实际运行的鲁棒性。即便辅以在线系统辨识等方法,性能偏差仍难消除,而实体微调又会进一步增加训练成本。
知识利用不足
当机器人需要适应第二种环境条件时,这个问题会格外突出。同时训练多环境下的技能,耗时久且效果差;增量训练虽更可行,但训练时间会随环境条件数量线性增长。想要把已有环境的知识迁移到新环境,却又容易触发新的问题。
灾难性遗忘
这是最棘手的问题之一。学习新任务时,神经控制网络中存储旧知识的权重会被新知识覆盖,直接导致旧技能性能下降5%–70%。现有解决方案要么因正则化尺度不当导致性能衰减,要么计算成本高、数据依赖度大,难以从根本上解决问题。
不可解释性
深度神经网络这类黑盒模型,让机器人的学习过程和结果难以被理解。我们无法拆解网络模块做局部分析,也难以验证、修改学习结果,这使得足式机器人只能执行预设行为,训练后的可靠性也大打折扣。
二、GOLLUM框架:以可解释性破局,兼顾高效与稳定
面对这些挑战,现有研究多依赖复杂的架构或表示方法尝试突破。而GOLLUM框架另辟蹊径,以双层可解释性为核心,搭配神经发生机制与双层学习机制,用轻量化的设计实现了机器人终身运动学习的智能化。
1. 框架核心架构:三层组件构建完整学习体系
GOLLUM的整体架构清晰且逻辑严密,三大核心组件各司其职,共同支撑起自主持续学习的能力(见图1)。
可解释神经控制网络:承担生成运动指令、预测观测值与价值的核心功能,也是框架可解释性的基础; 神经发生机制:能在机器人运行过程中,自主融入全新的运动技能; 双层学习机制:让机器人既能高效学习新技能,又能避免灾难性遗忘。
2. 可解释神经控制:层间+列间,让控制过程可拆解可追溯
GOLLUM的可解释性,体现在列间与层间两个维度,这也是它区别于传统黑箱模型的关键。
列间可解释性
神经控制网络由多列子网络构成,核心是环状神经网络(CPG),即便无外部输入,也能生成周期性输出。每一列子网络对应编码一种特定的机器人行为或技能,由多个循环连接的神经结构组成。列与列之间通过连接实现行为切换,网络内的激活状态能直接反映当前机器人的行为模式与对应动作(见图9)。
层间可解释性
整个神经控制网络分为七层可解释神经回归层,每层都是离散时间非脉冲的单层回归结构,被划分为五大功能模块:传感反馈模块接收机器人的21维观测输入,两个输入预处理模块完成信号的筛选与激活,序列中枢模式发生器模块负责节律生成与行为切换,基函数模块平滑内部状态,运动前模块与输出模块最终生成运动指令、价值预测、观测预测等关键信息(见图10)。
这种双层可解释结构,让网络的每个组件、每个参数都对应明确功能,彻底打破了黑箱模型的限制。
3. 双层学习机制:分离基础技能,复用已有经验
GOLLUM的双层学习机制,精准解决了知识保存与高效迁移的矛盾:
基础学习:专门更新运动指令的映射连接,聚焦当前行为对应的基础技能学习,确保旧技能的权重不被覆盖,从根源避免灾难性遗忘; 补充学习:更新子网络之间的连接,把已习得的技能组合起来,辅助新技能学习,大幅提升学习效率。
两类连接的更新都采用改进的梯度加权策略梯度算法,兼顾学习的稳定性与探索性(见图13)。
4. 神经发生机制:自主生长新技能,迁移相似知识
当机器人的价值预测与观测预测偏差超出阈值时,神经发生机制会被触发。它通过修改布尔连接矩阵创建新的子网络,新子网络会直接复制最相似已有子网络的参数,实现知识的快速迁移。这个过程无需人工干预,仅少量增加内存与计算资源,却能让机器人持续拓展技能库。
三、实体实验验证:GOLLUM的性能到底有多能打?
研究团队在MORF六足机器人平台上开展了系列实验,这款机器人拥有18个驱动旋转关节,搭载多种传感器,总重约4.7kg,神经控制器通过ROS无线网络传输指令,完全模拟真实应用场景。
1. 基础运动学习:10分钟掌握平地行走,样本效率远超传统方法
在平坦刚性地面的实验中,实体机器人仅用200幕(约10分钟)就从零学会了基础行走技能,最终平均行走速度接近10cm/s。对比仿真实验显示,GOLLUM的学习速度显著优于CPG-RBF+PIBB、DNN+DroQ、DNN+PPO等主流方法,样本效率更高,且无需仿真预训练,直接适配实体机器人的快速学习(见图15)。
2. 通用持续运动学习:1小时自主习得4-6项复杂技能
在更复杂的场景中,机器人在一小时内自主持续学习了4–6项新技能。无论是斜坡、柔性海绵地面、碎石场这类复杂地形,还是电机故障的极端情况,机器人都能适应。每项技能的学习仅耗时100–200幕(10–20分钟),还能应对接近硬件极限的斜坡环境(见表2)。
3. 无灾难性遗忘,知识迁移效率拉满
神经发生机制能在奖励低于预测下界、观测超出预测边界时触发,新建子网络并迁移相似技能参数。实验验证,无神经发生时机器人会出现明显的灾难性遗忘,而启用该机制后,机器人可自主召回已有技能,且直接的知识迁移让新技能初始性能远优于随机初始化的情况。
4. 补充学习加速新技能掌握,性能提升40%-60%
借助补充学习机制,机器人能组合已有技能来学习新技能。在斜坡、电机故障、复杂地形等实验场景中,补充学习让新技能的性能提升了40%–60%;若关闭补充学习,机器人无法有效整合过往经验,学习效率会大幅下降。
5. 强可解释性:结构透明,可分解可模拟
GOLLUM的可解释性并非空谈,它具备三大核心特性:可分解性让模块化的层与列子网络构成白盒模型,每个组件对应明确功能;透明性让学习过程等价于多稀疏线性回归训练,权重直接反映传感贡献与技能组合;可模拟性则能将网络转换为行为模型,清晰展示行为组织与切换规则。
定量评估显示,GOLLUM的神经激活稀疏度比主流方法高67%–84%,决策树解释的深度与节点数少30%–70%,保真度误差也更低,可解释性优势显著。
四、GOLLUM的价值:从学术到应用的多重突破
从学术研究角度,GOLLUM首次以可解释性为核心,同时解决了持续运动学习的四大难题。样本效率上,实体机器人10–20分钟就能完成一项技能学习,样本量仅为传统方法的万分之一;在遗忘问题上,实现了实体环境下无遗忘的持续学习;可解释性则为后续研究提供了清晰的分析视角。
从工程应用角度,GOLLUM可拓展至各类足式机器人、机械臂操作任务,适配示教编程模式。它能生成可解释的行为层次结构,支持人工监督与修改,大幅降低机器人的使用门槛。
从仿生与交叉学科角度,GOLLUM融合了多种生物启发的终身学习特性,其节律生成、条件决策等机制,也为动物运动与学习机制的生物学研究提供了可验证的计算模型。
五、总结
GOLLUM框架的出现,为自主终身运动学习机器人的发展奠定了核心基础。它凭借双层可解释结构、神经发生机制与双层学习机制,让机器人在无人工干预、无仿真预训练的实体环境下,实现了样本高效、无遗忘、可解释的持续运动学习。
这款框架不仅是足式机器人领域的重要突破,也为其他机器人平台的终身学习研究提供了新思路。未来,随着GOLLUM在多足机器人、机械臂等平台的拓展应用,机器人有望真正从执行预设任务,走向开放环境下的终身自适应学习。

夜雨聆风