← 返回论文列表

我们讲的谎言:通过切空间上的分数匹配纠正视觉-语言-动作策略中的欧几里得谬误
The Lie We Tell: Correcting the Euclidean Fallacy in Vision Language Action Policies via Score Matching on Tangent Space

作者: Bing-Cheng Chuang, I-Hsuan Chu, Bor-Jiun Lin 等6人
arXiv: 2606.01847v1
分类: cs.RO, cs.LG
📝 论文摘要
基于扩散的视觉-语言-动作策略在机器人操作中取得了显著成功,但却存在一个我们称之为$\textbf{欧几里得谬误}$的基本几何错误:将SE(3)位姿表示为平坦的$\mathbb{R}^{12}$向量。这种近似会导致:(1) 违反SO(3)约束的流形漂移,(2) 坐标变换下等变性的破坏,以及(3) 具有过度运动学代价的非测地轨迹。我们提出$\textbf{李扩散器执行器(LDA)}$,这是一个本质上在SE(3)上运行的扩散框架。该方法通过左不变SDE注入噪声,在切空间中预测分数,并通过指数映射回缩样本。这种构型通过构造消除了流形漂移,同时保证了坐标框架等变性和测地最优性。在CALVIN ABC$\rightarrow$D上,LDA将平均任务长度从$3.27$提升至$3.51$($+7.3\%$)。我们进一步在真实机器人上验证了该方法,结果表明我们的方法在大多数任务上优于基线。

📊 核心分析

🎯 研究动机
- 扩散型**视觉-语言-动作(Vision-Language-Action, VLA)** 策略广泛用于机器人操作,但存在根本性的几何错误——**欧几里得谬误(Euclidean Fallacy)**:将SE(3)姿态近似为平坦的ℝ¹²向量 - 该近似导致三大问题:(1) 流形漂移违反SO(3)约束;(2) 坐标变换下等变性破坏;(3) 非测地轨迹产生额外运动学代价 - 现有方法忽视了对SE(3)流形结构的本征建模,造成策略输出不满足旋转群约束
🔧 核心方法
- 提出**李扩散演员(Lie Diffuser Actor, LDA)**,一个直接在SE(3)群流形上操作的扩散框架 - 使用**左不变随机微分方程(left-invariant SDE)** 注入噪声,确保噪声方向与群结构兼容 - 在**切空间(tangent space)** 中预测分数(score),并通过**指数映射(exponential map)** 将样本回缩到流形上
💡 核心创新
- **根本性几何纠正**:首次在扩散VLA策略中严格处理SE(3)流形结构,通过构造消除流形漂移 - **保证坐标框架等变性** 与**测地最优性**,无需后处理或约束惩罚项 - 相比仅考虑旋转或平移的近似方法,完整保持了SE(3)的李群性质
🏆 总体贡献
- 在CALVIN ABC→D基准上,平均任务长度从3.27提升至3.51(+7.3%),表明几何正确性直接带来性能增益 - 在真实机器人实验中,LDA在多数任务上优于基线,验证了方法的实际有效性 - 为机器人操作策略提供了一种**几何本征(geometrically intrinsic)** 的扩散框架,推动了VLA策略的数学基础