该论文旨在解决配备顶部机械臂的无人机(UAV)在飞行扰动下的精确控制问题。研究背景是:
- 无人机与机械臂的运动紧密耦合,即使由风或控制不完美引起的微小姿态变化也会使末端执行器偏离预定路径
- 这种耦合使得可靠跟踪变得困难,并限制了原本为固定基座机器人设计的基于学习的臂控制器直接应用
- 当无人机机体经历漂移或快速姿态校正时,这些影响在测试中持续出现
论文采用了一种结合强化学习(RL)与Transformer架构的混合方法:
- 使用基于Transformer的双深度Q网络(DDQN)作为强化学习框架
- 核心是元自适应波束搜索规划器(meta-adaptive beam-search planner),它使用学习到的评论家(critic)作为前向估计器,在候选控制序列上执行短视界波束搜索(short-horizon beam search)
- 实现软件在环(SITL)方法:控制器通过模拟推演(rollouts)预测末端执行器运动,而不是直接在真实模型上执行这些动作
- Transformer评论家处理短状态序列以提供前瞻价值估计,而DDQN主干提供保持学习过程稳定所需的一步目标
论文的核心创新点是:
- 提出了元自适应波束搜索规划器,将Transformer的序列建模能力与波束搜索的前瞻规划相结合
- 创新性地使用学习到的评论家作为前向模型,在模拟环境中评估候选动作序列,实现安全的动作选择
- 与纯Transformer或固定波束搜索方法相比,该方法能动态调整搜索策略以适应不同的扰动条件
- 在无人机基座因外部扰动而漂移时,仍能保持末端执行器轨迹跟踪的稳定性(维持5厘米跟踪误差)
论文对该领域的整体贡献包括:
- 在相同训练条件下评估3自由度空中机械臂,所提方法显示出最强的整体性能:奖励增加10.2%,平均跟踪误差显著降低(从约6%降至3%),综合奖励-误差指标相对DDQN基线提升29.6%
- 证明了结合Transformer序列建模与前瞻规划的方法能有效处理无人机-机械臂耦合系统的控制问题
- 为受扰动空中操纵任务提供了一种新的软件在环规划框架,提高了在飞行扰动下的控制鲁棒性和跟踪精度