我们讲的谎言：通过切空间上的分数匹配纠正视觉-语言-动作策略中的欧几里得谬误

📝 论文摘要

基于扩散的视觉-语言-动作策略在机器人操作中取得了显著成功，但却存在一个我们称之为$\textbf{欧几里得谬误}$的基本几何错误：将SE(3)位姿表示为平坦的$\mathbb{R}^{12}$向量。这种近似会导致：(1) 违反SO(3)约束的流形漂移，(2) 坐标变换下等变性的破坏，以及(3) 具有过度运动学代价的非测地轨迹。我们提出$\textbf{李扩散器执行器（LDA）}$，这是一个本质上在SE(3)上运行的扩散框架。该方法通过左不变SDE注入噪声，在切空间中预测分数，并通过指数映射回缩样本。这种构型通过构造消除了流形漂移，同时保证了坐标框架等变性和测地最优性。在CALVIN ABC$\rightarrow$D上，LDA将平均任务长度从$3.27$提升至$3.51$（$+7.3\%$）。我们进一步在真实机器人上验证了该方法，结果表明我们的方法在大多数任务上优于基线。

🎯 研究动机

- 扩散型**视觉-语言-动作(Vision-Language-Action, VLA)** 策略广泛用于机器人操作，但存在根本性的几何错误——**欧几里得谬误(Euclidean Fallacy)**：将SE(3)姿态近似为平坦的ℝ¹²向量 - 该近似导致三大问题：(1) 流形漂移违反SO(3)约束；(2) 坐标变换下等变性破坏；(3) 非测地轨迹产生额外运动学代价 - 现有方法忽视了对SE(3)流形结构的本征建模，造成策略输出不满足旋转群约束

🔧 核心方法

- 提出**李扩散演员(Lie Diffuser Actor, LDA)**，一个直接在SE(3)群流形上操作的扩散框架 - 使用**左不变随机微分方程(left-invariant SDE)** 注入噪声，确保噪声方向与群结构兼容 - 在**切空间(tangent space)** 中预测分数(score)，并通过**指数映射(exponential map)** 将样本回缩到流形上

💡 核心创新

- **根本性几何纠正**：首次在扩散VLA策略中严格处理SE(3)流形结构，通过构造消除流形漂移 - **保证坐标框架等变性** 与**测地最优性**，无需后处理或约束惩罚项 - 相比仅考虑旋转或平移的近似方法，完整保持了SE(3)的李群性质

🏆 总体贡献

- 在CALVIN ABC→D基准上，平均任务长度从3.27提升至3.51（+7.3%），表明几何正确性直接带来性能增益 - 在真实机器人实验中，LDA在多数任务上优于基线，验证了方法的实际有效性 - 为机器人操作策略提供了一种**几何本征(geometrically intrinsic)** 的扩散框架，推动了VLA策略的数学基础

我们讲的谎言：通过切空间上的分数匹配纠正视觉-语言-动作策略中的欧几里得谬误
The Lie We Tell: Correcting the Euclidean Fallacy in Vision Language Action Policies via Score Matching on Tangent Space

📊 核心分析

我们讲的谎言：通过切空间上的分数匹配纠正视觉-语言-动作策略中的欧几里得谬误 The Lie We Tell: Correcting the Euclidean Fallacy in Vision Language Action Policies via Score Matching on Tangent Space

📊 核心分析

我们讲的谎言：通过切空间上的分数匹配纠正视觉-语言-动作策略中的欧几里得谬误
The Lie We Tell: Correcting the Euclidean Fallacy in Vision Language Action Policies via Score Matching on Tangent Space