通过分层任务空间强化学习规划与关节空间二次规划控制学习反应式灵巧抓取

📝 论文摘要

在本工作中，我们提出了一种面向反应式灵巧抓取的混合分层控制框架，该框架将高层空间意图与低层关节执行过程显式解耦。我们引入了一种多智能体强化学习架构，其专门化为独立的手臂与手部智能体，通过生成期望的任务空间速度指令来充当高层规划器。这些指令随后由GPU并行化的二次规划控制器处理，转化为可行的关节速度，同时严格遵循运动学限制与碰撞规避约束。这种结构隔离不仅加速了训练收敛，还严格保障了硬件安全。此外，该架构实现了零样本可操控性，允许系统操作员动态调整安全裕度并规避动态障碍物，而无需重新训练策略。我们通过严格的仿真到现实迁移流程对所提框架进行了全面验证。在配备20自由度拟人手的7自由度机械臂上进行的真实硬件实验表明，该方法针对多种未见物体展现出高度鲁棒的去灵巧抓取零样本迁移能力，凸显了系统在非结构化环境中对意外物理干扰的反应式恢复能力。

🎯 研究动机

- 现有**灵巧抓取(dexterous grasping)** 方法难以同时兼顾高层空间规划与低层安全执行，尤其是在非结构化环境中缺乏 **反应性(reactive)** 能力 - 传统的分层控制方法要么耦合紧密导致训练困难，要么无法严格保证硬件安全约束 - 研究背景：随着机器人硬件发展，对**灵巧操作(dexterous manipulation)** 的需求日益增长，但现有方法在**零样本迁移(zero-shot transfer)** 和在线适应方面仍有局限

🔧 核心方法

- 提出**混合分层控制框架(hybrid hierarchical control framework)**，显式地将高层空间意图与低层关节执行解耦 - 高层采用**多智能体强化学习(multi-agent reinforcement learning, MARL)** 架构，分为独立的**臂智能体(arm agent)** 和**手智能体(hand agent)**，通过生成期望的**任务空间速度命令(task-space velocity commands)** 作为规划 - 低层使用**GPU并行化二次规划控制器(GPU-parallelized quadratic programming, QP controller)**，将速度命令转化为可行关节速度，并严格强制运动学限制和碰撞避免

💡 核心创新

- **结构隔离(structural isolation)**：首次将高层RL规划与低层QP控制明确分离，不仅加速训练收敛，还能严格保障硬件安全 - **零样本可操控性(zero-shot steerability)**：允许操作人员在不重新训练策略的情况下动态调整安全裕度和避开动态障碍物 - **高效仿真到真实(sim-to-real)迁移**：通过严格的仿真-真实管道，在7自由度臂和20自由度拟人手上实现高度鲁棒的零样本迁移，对未见物体进行灵巧抓取并能反应式恢复意外物理干扰

🏆 总体贡献

- 为**反应式灵巧抓取(reactive dexterous grasping)** 提供了一种新颖的混合框架，实现了高层规划与低层控制的解耦 - 在**多样性未见物体(diverse unseen objects)** 上验证了强鲁棒性，并在**非结构化环境(unstructured environments)** 中展示了动态恢复能力 - 推动了**安全可迁移的灵巧操作范式(safe and transferable dexterous manipulation paradigm)** 的发展，为工业应用奠定了基础

通过分层任务空间强化学习规划与关节空间二次规划控制学习反应式灵巧抓取
Learning Reactive Dexterous Grasping via Hierarchical Task-Space RL Planning and Joint-Space QP Control

📊 核心分析

通过分层任务空间强化学习规划与关节空间二次规划控制学习反应式灵巧抓取 Learning Reactive Dexterous Grasping via Hierarchical Task-Space RL Planning and Joint-Space QP Control

📊 核心分析

通过分层任务空间强化学习规划与关节空间二次规划控制学习反应式灵巧抓取
Learning Reactive Dexterous Grasping via Hierarchical Task-Space RL Planning and Joint-Space QP Control