- 扩散型**视觉-语言-动作(Vision-Language-Action, VLA)** 策略广泛用于机器人操作,但存在根本性的几何错误——**欧几里得谬误(Euclidean Fallacy)**:将SE(3)姿态近似为平坦的ℝ¹²向量
- 该近似导致三大问题:(1) 流形漂移违反SO(3)约束;(2) 坐标变换下等变性破坏;(3) 非测地轨迹产生额外运动学代价
- 现有方法忽视了对SE(3)流形结构的本征建模,造成策略输出不满足旋转群约束
- 提出**李扩散演员(Lie Diffuser Actor, LDA)**,一个直接在SE(3)群流形上操作的扩散框架
- 使用**左不变随机微分方程(left-invariant SDE)** 注入噪声,确保噪声方向与群结构兼容
- 在**切空间(tangent space)** 中预测分数(score),并通过**指数映射(exponential map)** 将样本回缩到流形上
- **根本性几何纠正**:首次在扩散VLA策略中严格处理SE(3)流形结构,通过构造消除流形漂移
- **保证坐标框架等变性** 与**测地最优性**,无需后处理或约束惩罚项
- 相比仅考虑旋转或平移的近似方法,完整保持了SE(3)的李群性质
- 在CALVIN ABC→D基准上,平均任务长度从3.27提升至3.51(+7.3%),表明几何正确性直接带来性能增益
- 在真实机器人实验中,LDA在多数任务上优于基线,验证了方法的实际有效性
- 为机器人操作策略提供了一种**几何本征(geometrically intrinsic)** 的扩散框架,推动了VLA策略的数学基础