集合监督扩散策略：通过纠正学习动作分块扩散

Set-Supervised Diffusion Policy: Learning Action-Chunking Diffusion through Corrections

作者: Zhaoting Li, Gang Chen, Javier Alonso-Mora 等5人

arXiv: 2606.01865v1

分类: cs.RO

📝 论文摘要

扩散策略近期已成为机器人操控领域的一个强大框架。然而，与其他行为克隆方法类似，它们仍然容易受到分布偏移的影响，通常需要人在环路中干预以纠正部署过程中的失败。这些交互自然地提供了成对的监督信号，形式包括机器人的不期望动作与人类教师的纠正动作。然而，现有的数据聚合流程和标准行为克隆损失函数在很大程度上忽略了来自不期望动作的负向信号，导致对教师动作的过拟合，并日益依赖昂贵的数据专家。为解决这一局限，我们提出了集合监督扩散策略（Set-Supervised Diffusion Policy, SDP），一种新颖的学习框架，利用对比动作块数据从人类矫正中训练扩散策略。通过配对的正面与负面动作块，SDP构建了一组期望动作块，并设计了一个训练流程，鼓励扩散策略与这组动作对齐。通过在多个机器人操控任务上的大量实验，我们证明SDP始终能提升策略性能，尤其在对噪声数据的鲁棒性方面表现出色。此外，SDP生成了高质量的聚合数据集，能够从人在环路矫正中实现更高效、更可靠的策略学习。我们的代码可在 https://set-supervised-diffusion-policy.github.io/ 获取。

📊 核心分析

🎯 研究动机

- 现有**扩散策略(diffusion policy)** 在机器人操作中易受**分布偏移(distributional shift)** 影响，需要人类在线纠正 - 人类纠正提供了配对的负样本（机器人错误动作）和正样本（人类纠正动作），但现有方法忽略负信号，导致过拟合和依赖昂贵专家数据

🔧 核心方法

- 提出**集合监督扩散策略(Set-Supervised Diffusion Policy, SDP)**，利用**对比动作块(contrastive action-chunks)** 数据训练 - 从配对的正负动作块构建一个**期望动作块集合(desired action-chunks set)**，设计训练流水线使扩散策略与该集合对齐

💡 核心创新

- **首次利用负样本**：将人类纠正中的机器人错误动作（负样本）作为有用信号，而非丢弃，缓解数据稀疏问题 - **集合对齐(Set Alignment)**：通过构建动作块集合进行监督，替代传统的逐点匹配，增强对**分布偏移(distributional shift)** 的鲁棒性

🏆 总体贡献

- 显著提升策略性能，特别是在**噪声数据(noisy data)** 场景下鲁棒性大幅增强 - 诱导生成高质量聚合数据集，实现从人类反馈中更高效、可靠地学习 - 开源代码促进社区复现与后续研究，为**行为克隆(behavior cloning)** 领域提供新范式