该论文旨在解决自主水下航行器在珊瑚礁监测中面临的核心控制难题:
- 水下环境具有高度不确定性和非平稳性,传统控制方法难以适应
- 传统单任务强化学习(single-task reinforcement learning)策略容易过拟合训练环境,限制了学习策略的长期可用性和泛化能力
- 需要开发能够适应多种监测任务(如不同珊瑚礁区域、不同监测目标)的鲁棒控制策略
论文采用数据驱动的强化学习(reinforcement learning)方法,具体为:
- 提出使用上下文多任务强化学习(contextual multi-task reinforcement learning)范式
- 训练单个上下文依赖策略(context-dependent policy),使其能够解决模拟珊瑚礁环境(使用HoloOcean仿真器)中的多个相关监测任务
- 通过共享学习经验提高样本效率(sample-efficiency),并评估策略在零样本泛化(zero-shot generalisation)和对抗水流变化方面的性能
论文的核心创新在于将上下文多任务强化学习框架系统性地应用于自主水下珊瑚礁监测领域:
- 与传统单任务强化学习相比,该方法通过显式建模任务上下文(context),使单个策略能够适应多种监测任务(如检测不同海洋生物)
- 实现了策略的零样本泛化能力,能够直接应用于未见过的监测任务,无需重新训练
- 通过多任务学习(multi-task learning)共享知识,提高了训练效率和策略的鲁棒性(robustness),特别是对动态水流变化的适应性
论文对该领域的整体贡献包括:
- 验证了上下文多任务强化学习在自主水下监测任务中的有效性,展示了其在样本效率、泛化能力和鲁棒性方面的优势
- 为可持续的自主珊瑚礁监测程序提供了新思路,通过提高策略的可重用性(reusability)减少重复训练需求
- 建立了基于HoloOcean仿真器的评估框架,为后续研究提供了基准测试环境和方法参考