自主水下航行器需要在动态、不确定和有限感知条件下自适应、可解释地执行多任务,但现有强化学习策略虽然有效,却缺乏透明度和可解释性,阻碍了实际部署。该论文旨在揭示多任务强化学习网络内部的任务特定子网络结构,以解决决策过程不透明的问题。
在HoloOcean模拟器中,针对水下导航任务,分析预训练的多任务强化学习(multi-task reinforcement learning)网络,通过识别和比较不同物种导航任务对应的任务特定子网络(task-specific subnetworks),并统计权重分配情况。
发现多任务强化学习网络中仅约1.5%的权重用于区分不同任务,其中约85%的区分权重连接输入层的上下文变量(context-variable)节点到下一隐藏层,揭示了上下文变量在任务分化中的核心作用,为理解网络内部结构提供了量化视角。
为多任务强化学习网络的可解释性提供了新方法,通过识别共享和专用网络组件,支持高效的模型编辑、迁移学习(transfer learning)和持续学习(continual learning),有助于提升水下监测系统的可靠性和安全性。