- 现有**扩散策略(diffusion policy)** 在机器人操作中易受**分布偏移(distributional shift)** 影响,需要人类在线纠正
- 人类纠正提供了配对的负样本(机器人错误动作)和正样本(人类纠正动作),但现有方法忽略负信号,导致过拟合和依赖昂贵专家数据
- 提出**集合监督扩散策略(Set-Supervised Diffusion Policy, SDP)**,利用**对比动作块(contrastive action-chunks)** 数据训练
- 从配对的正负动作块构建一个**期望动作块集合(desired action-chunks set)**,设计训练流水线使扩散策略与该集合对齐
- **首次利用负样本**:将人类纠正中的机器人错误动作(负样本)作为有用信号,而非丢弃,缓解数据稀疏问题
- **集合对齐(Set Alignment)**:通过构建动作块集合进行监督,替代传统的逐点匹配,增强对**分布偏移(distributional shift)** 的鲁棒性
- 显著提升策略性能,特别是在**噪声数据(noisy data)** 场景下鲁棒性大幅增强
- 诱导生成高质量聚合数据集,实现从人类反馈中更高效、可靠地学习
- 开源代码促进社区复现与后续研究,为**行为克隆(behavior cloning)** 领域提供新范式