基于运动基元几何组装的稀疏组合流匹配

📝 论文摘要

具身轨迹（例如机器人操作臂、水下航行器和移动机器人的可执行运动序列）是具身智能的基本输出形式。现代生成模型通常将其视为逐点生成的密集整体信号，在拟合复杂高维后验分布的同时未对数据的潜在结构进行建模——这正是结构化生成模型文献中早已指出的样本效率问题。我们认为组合性潜在结构是自然选择：许多具身任务共享可重构的运动片段，这些片段可显式表示为有限的可复用运动基元库，且组合单元自然与子任务边界对齐以支持任务分解。然而现有组合生成器在潜在空间中进行组合，依赖事后解码将采样单元映射至实际轨迹片段。我们则通过包含两种耦合设计的流匹配框架，直接在物理轨迹空间中进行组合。运动基元字典学习为每个原子配备可学习长度掩码与二进制起始指示符，使原子本身即为基元，可在任意放置位置逐字复用。结合几何约束的结构化稀疏流匹配通过时长感知标记化与可微几何损失生成二进制放置矩阵，该损失在相邻基元衔接处强制实现空间连续性与时间邻接性。在Open X-Embodiment和3DMoTraj数据集上，该框架实现了最先进的精度，将FDE/ADE比率从1.8降低至1.07，相较于最强基线在ADE上提升19.2%，在FDE上提升21.0%。

🎯 研究动机

- 解决**具身轨迹(embodied trajectories)** 生成中样本效率低下的问题，现有生成模型将轨迹视为稠密整体信号，未利用其潜在结构 - 许多具身任务共享可重复使用的**运动基元(motion primitives)**，但现有组合生成器在潜空间中组合，依赖后处理解码，无法直接在物理轨迹空间操作

🔧 核心方法

- 提出**稀疏组合流匹配(Sparse Compositional Flow Matching)** 框架，包含两个耦合设计：**运动基元字典学习(Motion-Primitive Dictionary Learning)** 和**结构稀疏流匹配与几何约束(Structural Sparse Flow Matching with Geometric Constraints)** - 运动基元字典学习为每个原子配备可学习**长度掩码(length mask)** 和**二进制起始指示器(binary starting indicator)**，使原子本身作为基元直接复用 - 结构稀疏流匹配使用**时长感知分词(duration-aware tokenization)** 生成**二进制放置矩阵(binary placement matrix)**，并引入**可微几何损失(differentiable geometric loss)** 强制执行空间连续性和时间邻接性

💡 核心创新

- **直接在物理轨迹空间组合**，而非潜空间，基元作为可重用原子被逐字复用，避免了后处理解码的误差 - **几何约束(geometric constraints)** 确保相邻基元拼接处的空间连续性和时间邻接性，显著降低**最终位移误差/平均位移误差(FDE/ADE)比率** （从1.8降至1.07） - **时长感知分词** 与稀疏放置矩阵联合优化，实现高效的结构化生成

🏆 总体贡献

- 提出一种新的**组合轨迹生成范式**，通过显式建模运动基元的可重用性提升样本效率 - 在**Open X-Embodiment** 和**3DMoTraj** 基准上取得**SOTA(state-of-the-art)** 性能，平均位移误差(ADE)降低19.2%，最终位移误差(FDE)降低21.0% - 为具身AI的轨迹生成领域提供了一种结构化、可分解的生成框架，支持任务分解与基元复用

基于运动基元几何组装的稀疏组合流匹配
Sparse Compositional Flow Matching by geometric assembly from motion primitives

📊 核心分析

基于运动基元几何组装的稀疏组合流匹配 Sparse Compositional Flow Matching by geometric assembly from motion primitives

📊 核心分析

基于运动基元几何组装的稀疏组合流匹配
Sparse Compositional Flow Matching by geometric assembly from motion primitives