用于平滑实时分块的动作先验去噪

📝 论文摘要

实时分块（RTC）通过将新生成的动作分块与前一动作分块已提交的动作进行条件化，使得分块行动策略能够在推理延迟下运行。训练时RTC在学习过程中模拟此延迟，并避免了部署阶段昂贵的指导，但其二元前缀掩码将所有非前缀token视为完全无约束。这种处理方式对异步执行的建模不足：早期重叠动作是固定的，而后期重叠动作虽保持可编辑性，但仍应贴近原有规划。我们提出Soft RTC，一种基于动作先验去噪的训练时RTC泛化方法。Soft RTC从部分去噪状态而非纯噪声中构建带噪的重叠token，并通过轻量级的逐token混合规则，在推理时将对齐后的前一动作分块作为相同先验注入。在12个已发布的Kinetix大型关卡中，短软窗口在整体解决率上几乎与硬训练时RTC持平（0.809 vs. 0.815），而中等窗口相较于硬RTC，在高延迟下的动作差值与急动度分别降低了9.1%和9.6%。与推理时RTC基线不同，这两种变体均保持近乎朴素的运行时效率。一项小规模初步实物机器人分拣研究提供了额外证据，证明训练时RTC可改善完成率，且Soft RTC在测试策略中给出了最低的命令动作有限差分指标。

🎯 研究动机

- 现有**训练时实时分块(training-time Real-time chunking, RTC)** 使用二进制前缀掩码将所有非前缀词元视为完全无约束，导致对**异步执行(asynchronous execution)** 的建模不足 - 在重叠动作中，早期动作已被固定，后期动作虽可编辑但应保持与先前计划接近，现有方法无法体现这一渐进约束 - 研究背景：**实时分块(Real-time chunking, RTC)** 允许分块动作策略在推理延迟下运行，但训练时RTC的简单掩码限制了动作平滑性

🔧 核心方法

- 提出**Soft RTC**，基于**动作先验去噪(action-prior denoising)** 的训练时RTC泛化方法 - 构造**部分去噪状态下的损坏重叠词元(corrupted overlap tokens from partially denoised states)** 代替纯噪声 - 在推理时通过**轻量级词元级混合规则(token-wise blending rule)** 注入对齐的先前块作为相同先验

💡 核心创新

- **首创性**：首次将**动作先验去噪(action-prior denoising)** 引入训练时实时分块，实现对重叠动作的**渐进式约束(progressive constraint)** - **平滑性提升**：相比硬训练时RTC，中等窗口下**高延迟动作增量(high-delay action delta)** 和**急动度(jerk)** 分别降低9.1%和9.6% - **效率保持**：保持近朴素运行时，避免了推理时RTC基线的额外开销

🏆 总体贡献

- 为**实时动作分块(real-time action chunking)** 领域提供了一种更平滑、更鲁棒的训练范式 - 在12个Kinetix关卡上达到接近硬训练时RTC的求解率（0.809 vs. 0.815），同时显著降低动作抖动 - 通过真实机器人分拣实验验证了**训练时RTC** 的有效性，并证明**Soft RTC** 在**指令加速度有限差分指标(commanded-action finite-difference metrics)** 上最优

用于平滑实时分块的动作先验去噪
Action-Prior Denoising for Smooth Real-Time Chunking

📊 核心分析

用于平滑实时分块的动作先验去噪 Action-Prior Denoising for Smooth Real-Time Chunking

📊 核心分析

用于平滑实时分块的动作先验去噪
Action-Prior Denoising for Smooth Real-Time Chunking