← 返回论文列表

基于Transformer的无人机顶置机械臂在飞行扰动下的元自适应波束搜索规划强化学习控制
Meta-Adaptive Beam Search Planning for Transformer-Based Reinforcement Learning Control of UAVs with Overhead Manipulators under Flight Disturbances

作者: Hazim Alzorgan, Sayed Pedram Haeri Boroujeni, Abolfazl Razi
arXiv: 2603.26612v1
分类: cs.RO
📝 论文摘要
配备顶部机械臂的无人机在检测、维护及基于接触的交互方面展现出独特能力。然而,无人机本体与机械臂的运动紧密耦合,即使由风力或控制误差引起的微小姿态变化,也会使末端执行器偏离预定轨迹。这种耦合关系使得可靠轨迹跟踪变得困难,同时也限制了直接应用原本为固定基座机器人设计的基于学习的机械臂控制器。在我们的测试中,每当无人机机体出现漂移或快速姿态校正时,这些影响都会持续显现。 为解决这一问题,我们开发了一个基于强化学习(RL)的框架,采用Transformer架构的双深度Q学习(DDQN)算法。其核心思想是引入自适应波束搜索规划器,该规划器利用学习得到的评估器作为前向估计器,在候选控制序列上进行短时域波束搜索。这使得控制器能够通过模拟推演预测末端执行器的运动轨迹,而非直接在实体模型上执行动作,实现了软件在环(SITL)的控制方式。前瞻机制依赖于Transformer评估器对短时状态序列处理生成的价值估计,而DDQN主干网络则为保持学习过程稳定提供单步目标值。 在相同训练条件下对三自由度空中机械臂进行评估,所提出的元自适应规划器展现出最强的综合性能:奖励值提升10.2%,平均跟踪误差显著降低(从约6%降至3%),综合奖励-误差指标较DDQN基线提升29.6%。当无人机基座因外部干扰产生漂移时,相较于固定波束搜索和纯Transformer变体,我们的方法在跟踪目标末端轨迹时表现出更高的稳定性(能将跟踪误差维持在5厘米以内)。

📊 核心分析

🎯 研究动机
该论文旨在解决配备顶部机械臂的无人机(UAV)在飞行扰动下的精确控制问题。研究背景是: - 无人机与机械臂的运动紧密耦合,即使由风或控制不完美引起的微小姿态变化也会使末端执行器偏离预定路径 - 这种耦合使得可靠跟踪变得困难,并限制了原本为固定基座机器人设计的基于学习的臂控制器直接应用 - 当无人机机体经历漂移或快速姿态校正时,这些影响在测试中持续出现
🔧 核心方法
论文采用了一种结合强化学习(RL)与Transformer架构的混合方法: - 使用基于Transformer的双深度Q网络(DDQN)作为强化学习框架 - 核心是元自适应波束搜索规划器(meta-adaptive beam-search planner),它使用学习到的评论家(critic)作为前向估计器,在候选控制序列上执行短视界波束搜索(short-horizon beam search) - 实现软件在环(SITL)方法:控制器通过模拟推演(rollouts)预测末端执行器运动,而不是直接在真实模型上执行这些动作 - Transformer评论家处理短状态序列以提供前瞻价值估计,而DDQN主干提供保持学习过程稳定所需的一步目标
💡 核心创新
论文的核心创新点是: - 提出了元自适应波束搜索规划器,将Transformer的序列建模能力与波束搜索的前瞻规划相结合 - 创新性地使用学习到的评论家作为前向模型,在模拟环境中评估候选动作序列,实现安全的动作选择 - 与纯Transformer或固定波束搜索方法相比,该方法能动态调整搜索策略以适应不同的扰动条件 - 在无人机基座因外部扰动而漂移时,仍能保持末端执行器轨迹跟踪的稳定性(维持5厘米跟踪误差)
🏆 总体贡献
论文对该领域的整体贡献包括: - 在相同训练条件下评估3自由度空中机械臂,所提方法显示出最强的整体性能:奖励增加10.2%,平均跟踪误差显著降低(从约6%降至3%),综合奖励-误差指标相对DDQN基线提升29.6% - 证明了结合Transformer序列建模与前瞻规划的方法能有效处理无人机-机械臂耦合系统的控制问题 - 为受扰动空中操纵任务提供了一种新的软件在环规划框架,提高了在飞行扰动下的控制鲁棒性和跟踪精度