← 返回论文列表

自主水下导航强化学习中的任务特定子网络发现
Task-specific Subnetwork Discovery in Reinforcement Learning for Autonomous Underwater Navigation

作者: Yi-Ling Liu, Melvin Laux, Mariela De Lucas Alvarez 等5人
arXiv: 2604.21640v1
分类: cs.LG, cs.AI, cs.RO
📝 论文摘要
自主水下航行器需在动态、不确定环境及有限感知条件下,以可解释方式自适应执行多项任务,而传统控制器难以应对此类挑战。这要求具备鲁棒性、泛化能力且内在可解释的控制策略,以实现可靠的长期监测。强化学习(尤其是多任务强化学习)通过利用共享表征实现跨任务与跨环境的高效自适应,克服了上述局限。然而,尽管此类策略在仿真与受控实验中展现出良好效果,其内部决策机制仍不透明,对智能体决策过程的认知有限,导致透明度、信任度及安全性方面的不足,阻碍了实际部署应用。当前对策略内部结构及任务特异性专化机制的理解仍十分薄弱。为填补这些空白,本研究在HoloOcean水下导航仿真器中,通过识别并比较负责不同物种导航任务的特异性子网络,分析了预训练多任务强化学习网络的内部结构。研究发现:在相关任务的上下文多任务强化学习场景中,网络仅使用约1.5%的权重区分不同任务,其中约85%的权重连接输入层中的上下文变量节点与下一隐藏层,凸显了上下文变量在此类场景中的关键作用。本方法揭示了共享与专化网络组件的结构特征,为基于上下文多任务强化学习的水下监测模型高效编辑、迁移学习及持续学习提供了理论支撑。

📊 核心分析

🎯 研究动机
自主水下航行器需要在动态、不确定和有限感知条件下自适应、可解释地执行多任务,但现有强化学习策略虽然有效,却缺乏透明度和可解释性,阻碍了实际部署。该论文旨在揭示多任务强化学习网络内部的任务特定子网络结构,以解决决策过程不透明的问题。
🔧 核心方法
在HoloOcean模拟器中,针对水下导航任务,分析预训练的多任务强化学习(multi-task reinforcement learning)网络,通过识别和比较不同物种导航任务对应的任务特定子网络(task-specific subnetworks),并统计权重分配情况。
💡 核心创新
发现多任务强化学习网络中仅约1.5%的权重用于区分不同任务,其中约85%的区分权重连接输入层的上下文变量(context-variable)节点到下一隐藏层,揭示了上下文变量在任务分化中的核心作用,为理解网络内部结构提供了量化视角。
🏆 总体贡献
为多任务强化学习网络的可解释性提供了新方法,通过识别共享和专用网络组件,支持高效的模型编辑、迁移学习(transfer learning)和持续学习(continual learning),有助于提升水下监测系统的可靠性和安全性。