理解动作块行为克隆中的多模态失败

📝 论文摘要

当同一观测对应多个有效动作时，行为克隆变得困难。我们针对动作分块策略研究这一问题，并表明不同的多模态参数化方式会以不同方式失效。对于潜在变量策略，后验-先验正则化使部署时采样更可靠，但过度正则化会移除区分演示模式所需的动作条件信息。减少这种正则化可保留模式信息，但此时成功与否取决于先验是否覆盖相关潜在区域。对于动作空间生成策略，多模态性受到基空间到动作空间传输的平滑度约束：具有较小利普希茨常数的映射无法为多个间隔良好的模式分配显著概率。因此，覆盖多个模式需要在基空间设置尖锐过渡或在动作空间设置支撑外桥接区域。在合成多模态任务和机器人仿真基准上的实验支持这些机制。

🎯 研究动机

- 研究**行为克隆(Behavioral Cloning, BC)** 在相同观测对应多个有效动作时（多模态性）导致的困难 - 现有工作对**动作分块策略(action-chunking policies)** 的多模态性问题理解不足，不同参数化方式失败模式不同 - 背景：机器人模仿学习中，观测-动作映射的非唯一性使得确定性BC难以拟合，需要探索不同多模态方法的失效机制

🔧 核心方法

- 对比分析两种多模态参数化：**隐变量策略(latent-variable policies)** 和**动作空间生成策略(action-space generative policies)** - 对于隐变量策略，研究了**后验-先验正则化(posterior-prior regularization)** 对部署时采样可靠性和模式信息保持的权衡 - 对于动作空间生成策略，分析了**基空间到动作空间映射的平滑性（Lipschitz常数）** 如何约束模态覆盖能力 - 通过合成多模态任务和机器人仿真基准实验验证提出的失效机制

💡 核心创新

- 首次系统揭示了动作分块BC中不同多模态参数化的**独特失效模式**，而不仅仅是泛泛讨论多模态性 - 提出隐变量策略中**正则化强度与模式信息保持的权衡**：过度正则化丢失条件信息，不足则依赖先验覆盖 - 发现动作空间生成策略中**基-动作映射的Lipschitz约束** 限制多模态覆盖，需要尖锐过渡或离支撑桥接区域 - 将理论分析与实验验证结合，为理解多模态BC失败提供清晰机理

🏆 总体贡献

- 为**动作分块行为克隆(action-chunking behavioral cloning)** 领域提供了多模态失效的系统性分类和机理分析 - 为实践中选择多模态参数化方法（隐变量vs生成模型）提供指导：根据任务模式分离程度和采样可靠性需求 - 在合成任务和机器人仿真基准上的实验验证了理论机制，帮助研究者避免常见陷阱 - 推动了对**模仿学习(mitation learning)** 中多模态性的深入理解，启发更鲁棒的多模态策略设计

理解动作块行为克隆中的多模态失败
Understanding Multimodal Failure in Action-Chunking Behavioral Cloning

📊 核心分析

理解动作块行为克隆中的多模态失败 Understanding Multimodal Failure in Action-Chunking Behavioral Cloning

📊 核心分析

理解动作块行为克隆中的多模态失败
Understanding Multimodal Failure in Action-Chunking Behavioral Cloning