自主水下导航强化学习中的任务特定子网络发现

Task-specific Subnetwork Discovery in Reinforcement Learning for Autonomous Underwater Navigation

作者: Yi-Ling Liu, Melvin Laux, Mariela De Lucas Alvarez 等5人

arXiv: 2604.21640v1

分类: cs.LG, cs.AI, cs.RO

📝 论文摘要

自主水下航行器需在动态、不确定环境及有限感知条件下，以可解释方式自适应执行多项任务，而传统控制器难以应对此类挑战。这要求具备鲁棒性、泛化能力且内在可解释的控制策略，以实现可靠的长期监测。强化学习（尤其是多任务强化学习）通过利用共享表征实现跨任务与跨环境的高效自适应，克服了上述局限。然而，尽管此类策略在仿真与受控实验中展现出良好效果，其内部决策机制仍不透明，对智能体决策过程的认知有限，导致透明度、信任度及安全性方面的不足，阻碍了实际部署应用。当前对策略内部结构及任务特异性专化机制的理解仍十分薄弱。为填补这些空白，本研究在HoloOcean水下导航仿真器中，通过识别并比较负责不同物种导航任务的特异性子网络，分析了预训练多任务强化学习网络的内部结构。研究发现：在相关任务的上下文多任务强化学习场景中，网络仅使用约1.5%的权重区分不同任务，其中约85%的权重连接输入层中的上下文变量节点与下一隐藏层，凸显了上下文变量在此类场景中的关键作用。本方法揭示了共享与专化网络组件的结构特征，为基于上下文多任务强化学习的水下监测模型高效编辑、迁移学习及持续学习提供了理论支撑。

📊 核心分析

🎯 研究动机

自主水下航行器需要在动态、不确定和有限感知条件下自适应、可解释地执行多任务，但现有强化学习策略虽然有效，却缺乏透明度和可解释性，阻碍了实际部署。该论文旨在揭示多任务强化学习网络内部的任务特定子网络结构，以解决决策过程不透明的问题。

🔧 核心方法

在HoloOcean模拟器中，针对水下导航任务，分析预训练的多任务强化学习(multi-task reinforcement learning)网络，通过识别和比较不同物种导航任务对应的任务特定子网络(task-specific subnetworks)，并统计权重分配情况。

💡 核心创新

发现多任务强化学习网络中仅约1.5%的权重用于区分不同任务，其中约85%的区分权重连接输入层的上下文变量(context-variable)节点到下一隐藏层，揭示了上下文变量在任务分化中的核心作用，为理解网络内部结构提供了量化视角。

🏆 总体贡献

为多任务强化学习网络的可解释性提供了新方法，通过识别共享和专用网络组件，支持高效的模型编辑、迁移学习(transfer learning)和持续学习(continual learning)，有助于提升水下监测系统的可靠性和安全性。