基于运动学感知设计的彩虹深度Q学习用于协作Delta和3-RRS并联机器人插入

📝 论文摘要

本文提出了一种基于彩虹深度Q网络（DQN）的运动学感知深度强化学习框架，用于Delta并联机器人与3-RRS（旋转—旋转—球面）并联机械手的协作轴孔装配任务。关键贡献在于引入了一个先于学习过程的几何设计优化阶段：通过调整3-RRS几何构型以最大化无奇异工作空间并改善条件数，从而扩大强化学习策略可探索的安全区域。两个机械手共同构成一个六自由度可控子空间（Delta的三个平移自由度、3-RRS的两个旋转自由度和一个垂直平移自由度）；由于轴孔装配任务对绕轴旋转具有不变性，任务相关流形为五维。协作插入问题被建模为马尔可夫决策过程，其状态向量为12维，离散动作集包含6×2=12个增量指令（每个受控自由度对应正负方向各一个）。奖励函数采用混合设计：密集的接近度引导、运动学与工作空间违规惩罚，以及成功插入的稀疏奖励。彩虹DQN——整合了双Q学习、竞争架构、优先经验回放、多步回报、用于探索的噪声线性层以及分布式价值头部——通过两阶段课程训练。该协同设计框架在高保真运动学模拟器中进行验证，与基础DQN智能体及经典基于采样的规划器相比，实现了稳定的策略收敛、可靠的插入性能，并显著减少了约束违规。

🎯 研究动机

- 解决**Delta并联机器人** 与**3-RRS并联机械手** 协作完成**插孔(peg-in-hole)** 任务中存在的**奇异点(singularity)**、**工作空间(workspace)** 受限以及策略探索不安全等问题 - 现有方法如普通DQN和经典采样规划器在约束违反和收敛稳定性方面表现不足 - 研究背景：协作机器人精密装配需要高可靠性和安全性，但高维状态空间和运动学约束增加了强化学习训练的难度

🔧 核心方法

- 提出**运动学感知几何设计优化(kinematics-aware geometric design optimization)** 阶段，预先调整3-RRS结构以最大化**无奇异工作空间(singularity-free workspace)** 并改善**条件数(conditioning)** - 将协作插入任务建模为**马尔可夫决策过程(Markov Decision Process, MDP)**，使用12维状态向量和12个离散动作（每个可控自由度对应正负增量指令） - 采用**Rainbow DQN** 架构，集成**双Q学习(double Q-learning)**、**对偶架构(dueling architecture)**、**优先重放(prioritized replay)**、**多步返回(multi-step returns)**、**噪声线性层(noisy linear layers)** 和**分布式值头(distributional value head)** - 设计**成形奖励(shaped reward)**，结合**密集接近指导(dense proximity guidance)**、运动学/工作空间违反惩罚和成功插入稀疏奖励，并采用**两阶段课程训练(two-stage curriculum)**

💡 核心创新

- **首创性**：首次将**几何设计优化** 与**深度强化学习(deep reinforcement learning)** 结合，通过预优化机器人几何参数扩大安全探索区域，降低学习难度 - **运动学感知设计(kinematics-aware design)**：学习前调整3-RRS结构参数，使策略可在更大**无奇异工作空间** 中探索，提高鲁棒性和收敛性 - **协同MDP建模**：针对Delta和3-RRS协作机器人特有的6自由度可控子空间，利用任务旋转不变性降低流形维度至五维，并设计离散动作集和状态表示 - **全面集成Rainbow DQN**：在协作机器人插入任务中系统应用多种DQN改进技术，并结合课程学习，实现稳定策略收敛

🏆 总体贡献

- 为**协作并联机器人精密装配** 提供了一种新颖的**运动学感知强化学习范式**，验证了先优化再学习的有效性 - 在高保真运动学模拟器中，该方法相比**普通DQN** 和**经典采样规划器** 在插入成功率、约束违反减少和策略收敛稳定性方面达到更优性能 - 开源了机器人几何优化、MDP设计和Rainbow DQN训练的整体框架，促进社区在**机器人操作(robot manipulation)** 领域应用类似思路 - 为处理**高维状态空间** 和**复杂运动学约束** 的强化学习问题提供了可行的解决方案，有望推广至其他多机器人协作场景

基于运动学感知设计的彩虹深度Q学习用于协作Delta和3-RRS并联机器人插入
Rainbow Deep Q-Learning with Kinematics-Aware Design for Cooperative Delta and 3-RRS Parallel Robot Insertion

📊 核心分析

基于运动学感知设计的彩虹深度Q学习用于协作Delta和3-RRS并联机器人插入 Rainbow Deep Q-Learning with Kinematics-Aware Design for Cooperative Delta and 3-RRS Parallel Robot Insertion

📊 核心分析

基于运动学感知设计的彩虹深度Q学习用于协作Delta和3-RRS并联机器人插入
Rainbow Deep Q-Learning with Kinematics-Aware Design for Cooperative Delta and 3-RRS Parallel Robot Insertion