- 解决**Delta并联机器人** 与**3-RRS并联机械手** 协作完成**插孔(peg-in-hole)** 任务中存在的**奇异点(singularity)**、**工作空间(workspace)** 受限以及策略探索不安全等问题
- 现有方法如普通DQN和经典采样规划器在约束违反和收敛稳定性方面表现不足
- 研究背景:协作机器人精密装配需要高可靠性和安全性,但高维状态空间和运动学约束增加了强化学习训练的难度
- 提出**运动学感知几何设计优化(kinematics-aware geometric design optimization)** 阶段,预先调整3-RRS结构以最大化**无奇异工作空间(singularity-free workspace)** 并改善**条件数(conditioning)**
- 将协作插入任务建模为**马尔可夫决策过程(Markov Decision Process, MDP)**,使用12维状态向量和12个离散动作(每个可控自由度对应正负增量指令)
- 采用**Rainbow DQN** 架构,集成**双Q学习(double Q-learning)**、**对偶架构(dueling architecture)**、**优先重放(prioritized replay)**、**多步返回(multi-step returns)**、**噪声线性层(noisy linear layers)** 和**分布式值头(distributional value head)**
- 设计**成形奖励(shaped reward)**,结合**密集接近指导(dense proximity guidance)**、运动学/工作空间违反惩罚和成功插入稀疏奖励,并采用**两阶段课程训练(two-stage curriculum)**
- **首创性**:首次将**几何设计优化** 与**深度强化学习(deep reinforcement learning)** 结合,通过预优化机器人几何参数扩大安全探索区域,降低学习难度
- **运动学感知设计(kinematics-aware design)**:学习前调整3-RRS结构参数,使策略可在更大**无奇异工作空间** 中探索,提高鲁棒性和收敛性
- **协同MDP建模**:针对Delta和3-RRS协作机器人特有的6自由度可控子空间,利用任务旋转不变性降低流形维度至五维,并设计离散动作集和状态表示
- **全面集成Rainbow DQN**:在协作机器人插入任务中系统应用多种DQN改进技术,并结合课程学习,实现稳定策略收敛
- 为**协作并联机器人精密装配** 提供了一种新颖的**运动学感知强化学习范式**,验证了先优化再学习的有效性
- 在高保真运动学模拟器中,该方法相比**普通DQN** 和**经典采样规划器** 在插入成功率、约束违反减少和策略收敛稳定性方面达到更优性能
- 开源了机器人几何优化、MDP设计和Rainbow DQN训练的整体框架,促进社区在**机器人操作(robot manipulation)** 领域应用类似思路
- 为处理**高维状态空间** 和**复杂运动学约束** 的强化学习问题提供了可行的解决方案,有望推广至其他多机器人协作场景