← 返回论文列表

基于运动学感知设计的彩虹深度Q学习用于协作Delta和3-RRS并联机器人插入
Rainbow Deep Q-Learning with Kinematics-Aware Design for Cooperative Delta and 3-RRS Parallel Robot Insertion

作者: Hassen Nigatu, Gaokun Shi, Jituo Li 等5人
arXiv: 2605.11697v1
分类: cs.RO
📝 论文摘要
本文提出了一种基于彩虹深度Q网络(DQN)的运动学感知深度强化学习框架,用于Delta并联机器人与3-RRS(旋转—旋转—球面)并联机械手的协作轴孔装配任务。关键贡献在于引入了一个先于学习过程的几何设计优化阶段:通过调整3-RRS几何构型以最大化无奇异工作空间并改善条件数,从而扩大强化学习策略可探索的安全区域。两个机械手共同构成一个六自由度可控子空间(Delta的三个平移自由度、3-RRS的两个旋转自由度和一个垂直平移自由度);由于轴孔装配任务对绕轴旋转具有不变性,任务相关流形为五维。协作插入问题被建模为马尔可夫决策过程,其状态向量为12维,离散动作集包含6×2=12个增量指令(每个受控自由度对应正负方向各一个)。奖励函数采用混合设计:密集的接近度引导、运动学与工作空间违规惩罚,以及成功插入的稀疏奖励。彩虹DQN——整合了双Q学习、竞争架构、优先经验回放、多步回报、用于探索的噪声线性层以及分布式价值头部——通过两阶段课程训练。该协同设计框架在高保真运动学模拟器中进行验证,与基础DQN智能体及经典基于采样的规划器相比,实现了稳定的策略收敛、可靠的插入性能,并显著减少了约束违规。

📊 核心分析

🎯 研究动机
- 解决**Delta并联机器人** 与**3-RRS并联机械手** 协作完成**插孔(peg-in-hole)** 任务中存在的**奇异点(singularity)**、**工作空间(workspace)** 受限以及策略探索不安全等问题 - 现有方法如普通DQN和经典采样规划器在约束违反和收敛稳定性方面表现不足 - 研究背景:协作机器人精密装配需要高可靠性和安全性,但高维状态空间和运动学约束增加了强化学习训练的难度
🔧 核心方法
- 提出**运动学感知几何设计优化(kinematics-aware geometric design optimization)** 阶段,预先调整3-RRS结构以最大化**无奇异工作空间(singularity-free workspace)** 并改善**条件数(conditioning)** - 将协作插入任务建模为**马尔可夫决策过程(Markov Decision Process, MDP)**,使用12维状态向量和12个离散动作(每个可控自由度对应正负增量指令) - 采用**Rainbow DQN** 架构,集成**双Q学习(double Q-learning)**、**对偶架构(dueling architecture)**、**优先重放(prioritized replay)**、**多步返回(multi-step returns)**、**噪声线性层(noisy linear layers)** 和**分布式值头(distributional value head)** - 设计**成形奖励(shaped reward)**,结合**密集接近指导(dense proximity guidance)**、运动学/工作空间违反惩罚和成功插入稀疏奖励,并采用**两阶段课程训练(two-stage curriculum)**
💡 核心创新
- **首创性**:首次将**几何设计优化** 与**深度强化学习(deep reinforcement learning)** 结合,通过预优化机器人几何参数扩大安全探索区域,降低学习难度 - **运动学感知设计(kinematics-aware design)**:学习前调整3-RRS结构参数,使策略可在更大**无奇异工作空间** 中探索,提高鲁棒性和收敛性 - **协同MDP建模**:针对Delta和3-RRS协作机器人特有的6自由度可控子空间,利用任务旋转不变性降低流形维度至五维,并设计离散动作集和状态表示 - **全面集成Rainbow DQN**:在协作机器人插入任务中系统应用多种DQN改进技术,并结合课程学习,实现稳定策略收敛
🏆 总体贡献
- 为**协作并联机器人精密装配** 提供了一种新颖的**运动学感知强化学习范式**,验证了先优化再学习的有效性 - 在高保真运动学模拟器中,该方法相比**普通DQN** 和**经典采样规划器** 在插入成功率、约束违反减少和策略收敛稳定性方面达到更优性能 - 开源了机器人几何优化、MDP设计和Rainbow DQN训练的整体框架,促进社区在**机器人操作(robot manipulation)** 领域应用类似思路 - 为处理**高维状态空间** 和**复杂运动学约束** 的强化学习问题提供了可行的解决方案,有望推广至其他多机器人协作场景