DynaFLIP：通过三模态动力学引导的表示重新思考机器人感知

📝 论文摘要

机器人操作关键依赖于对场景中与动作相关方面进行保持的感知。然而，大多数机器人学习流程基于为静态识别或视觉-语言对齐预训练的视觉编码器，将运动理解留给下游策略。我们提出DynaFLIP，一种动力学感知的多模态预训练框架，将运动理解上推至感知层面。我们从异构的人类和机器人视频中构建图像-语言-3D流三元组，并利用这些三元组作为训练时的监督信号，塑造仅依赖于图像的编码器。我们的核心思想是鼓励三个模态在共享的超球面空间中张成较小的单形体体积——体积越小表示对齐越强。为避免朴素体积最小化带来的几何模糊性和琐碎坍缩，我们将单形体体积最小化与余弦正则化项及对比学习目标相结合。分析表明，DynaFLIP聚焦于对操作至关重要的控制相关区域。由此产生的动力学感知表示可作为可复用的视觉骨干网络，并在包括VLA在内的多样下游策略中持续优于基线方法。我们在多种仿真和真实场景中验证了这一点，在分布外场景中性能提升可达+22.5%。结果表明，当视觉表示不仅编码存在什么，还编码世界在动作下如何变化时，机器人泛化能力得到提升。

🎯 研究动机

- 现有机器人学习流水线的视觉编码器预训练用于**静态识别(static recognition)** 或**视觉-语言对齐(vision-language alignment)**，忽略了运动理解，导致下游策略需从头学习动作相关信息 - 机器人操作需要感知保留与动作相关的场景方面，但当前感知未编码“世界在动作下如何变化” - **研究背景：** 机器人泛化能力受限于视觉表示仅关注静态内容，未能捕捉动态变化的关键信息

🔧 核心方法

- 构建**图像-语言-3D流三元组(image-language-3D flow triplets)**，从异构的人类和机器人视频中提取，作为训练时监督 - 提出**单纯形体积最小化(simplex-volume minimization)** 策略：鼓励三个模态在共享超球面空间中跨越小的单纯形体积，体积越小表示对齐越强 - 结合**余弦正则化(cosine regularizer)** 和**对比目标(contrastive objective)**，避免朴素体积最小化导致的几何模糊和琐碎坍塌 - 训练得到的**动力学感知表示(dynamics-aware representations)** 作为可复用的仅图像编码器，推理时无需额外模态

💡 核心创新

- **首次将运动理解上推到感知阶段**：提出**动力学感知多模态预训练框架(DynaFLIP)**，推动感知编码动作相关动态信息，而非留给下游策略 - **创新性对齐机制**：引入**三模态单纯形体积最小化(tri-modal simplex volume minimization)**，通过鼓励图像、语言、3D流在超球面空间的小体积对齐来学习控制相关表示 - **解决退化问题**：联合**余弦正则化** 和**对比损失** 防止体积最小化时的模式坍塌，确保几何意义明确 - **仅图像编码器可复用**：训练后仅需RGB图像即可获得动力学感知的视觉骨干，高效兼容现有策略（如**视觉-语言-动作模型(VLA)**）

🏆 总体贡献

- 为机器人操作提供了一种**动力学感知视觉表示预训练新范式**，显著提升**分布外(out-of-distribution)** 场景下的泛化能力，增益达**+22.5%** - 所得**可复用视觉骨干(reusable visual backbones)** 在多种下游策略（包括VLA）中一致超越基线，验证了跨设置的有效性 - 在**模拟和真实世界** 实验中全面验证，证明将运动理解融入感知对机器人泛化的关键作用 - 推动了机器人感知从静态识别向**动力学感知(dynamics-aware)** 发展的研究方向，开源框架促进社区复现与后续研究

DynaFLIP：通过三模态动力学引导的表示重新思考机器人感知
DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation

📊 核心分析

DynaFLIP：通过三模态动力学引导的表示重新思考机器人感知 DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation

📊 核心分析

DynaFLIP：通过三模态动力学引导的表示重新思考机器人感知
DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation