- 现有**机器人操作策略(manipulation policy)** 在不同机器人上迁移时,由于**仿真到现实差距(sim-to-real gap)**、未知负载或相同型号机器人的动力学差异,行为表现不一致
- 在**接触丰富的动态操作(contact-rich dynamic manipulation)** 中,微小运动偏差会破坏接触时序和模式,导致参考运动跟踪失败
- 常用方法如**域随机化(domain randomization)** 会产生过于保守的策略,而**系统辨识(system identification)** 需要为每个机器人或负载重新收集数据,缺乏通用性
- 提出**扭矩自适应模块(Torque Adaptation Module, TAM)**,一个学习模块,用于修正发送给机器人的扭矩命令,使其匹配理想机器人的行为
- TAM位于**低级控制器(low-level controller)** 与机器人扭矩接口之间,包含两部分:**历史编码器(history encoder)** 将本体感受历史嵌入潜在状态,**扭矩适配器(torque adaptor)** 计算残余扭矩修正量
- TAM仅依赖本体感受历史,与策略观测或动作空间无关,同一组TAM权重可复用于不同动作空间(关节目标、末端效应器目标或直接扭矩)的策略
- 训练过程:在多机器人随机仿真中预训练,然后进行机器人特定微调(无需真实数据),从而将域随机化需求转移到TAM
- **跨策略通用性**:TAM独立于策略观测空间和动作空间,同一模块可适配不同控制策略(如RL、BC、MPC),无需重新训练
- **零样本真实机器人迁移**:在真实Franka Panda机器人上零样本执行动态操作任务(推箱子、翻转、球板平衡),无需真实数据微调
- **轻量化训练范式**:将域随机化负担从任务策略转移到TAM,使策略本身无需进行域随机化训练,简化策略开发流程
- **相比现有方法**:在零样本真实执行中优于在线系统辨识和RMA基线,鲁棒地实现动态操作性能
- 提出一种新颖的**模块化扭矩适应范式(Modular Torque Adaptation Paradigm)**,可即插即用于现有操作策略,提升跨机器人迁移的鲁棒性
- 通过仅依赖本体感受历史实现与策略解耦,显著降低为不同机器人或负载重新收集数据的成本
- 在多机器人仿真预训练+少量微调的框架下,实现零样本真实世界部署,推动了**仿真到现实迁移(sim-to-real transfer)** 在动态操作中的应用
- 在多个动态操作任务上验证了有效性,为机器人操作策略的实用化部署提供了可复用的解决方案