- 现有**大语言模型(LLM)** 和**视觉-语言模型(VLM)** 在高层次推理与语义理解上表现优异,但直接应用于**接触丰富操作(contact-rich manipulation)** 时缺乏显式物理基础和自适应控制能力
- 需要弥合**高层语义推理** 与**低层执行控制** 之间的鸿沟,以满足动态接触场景的实时稳定性要求
- 已有方法(如黑盒VLA策略)难以处理视觉数据中物理参数的模糊性,且在未见过接触任务中泛化能力不足
- 提出**CoRAL框架**,解耦高层推理与低层控制,实现**零样本规划(zero-shot planning)**
- **LLM作为成本设计器(cost designer)**,为采样运动规划器**MPPI(Model Predictive Path Integral)** 合成上下文感知的目标函数,而非直接控制
- 引入**神经符号适应循环(neuro-symbolic adaptation loop)**:VLM提供环境动力学语义先验(如质量、摩擦估计),通过**在线系统辨识(online system identification)** 实时精化物理参数,LLM根据交互反馈迭代调整成本函数结构
- 增加**检索式记忆单元(retrieval-based memory unit)**,重用重复任务中的成功策略
- **首次将LLM用作成本设计器而非直接控制器**,通过解耦高层推理与低层执行实现实时控制稳定性,克服LLM推理速度慢与动态接触需求不匹配的问题
- **神经符号适应循环结合语义先验与在线辨识**,有效处理视觉数据中物理参数的模糊性,实现自适应物理理解
- **零样本规划与跨任务记忆重用**:无需重新训练即可泛化到新任务,并通过记忆单元积累经验
- 相比现有**VLA(Vision-Language-Action)** 和**基础模型规划器(baseline planners)**,在未见过接触丰富场景中平均成功率提升超过50%
- 为**接触丰富机器人操作** 提供了一种新颖的模块化框架,弥合LLM/VLM语义推理与物理执行之间的差距
- 在仿真和真实硬件上验证了框架的有效性,成功处理**利用外部接触翻转物体(flipping objects against walls)** 等挑战性任务
- 证明了通过自适应物理理解能够有效应对**sim-to-real差距(sim-to-real gap)**,显著提升零样本泛化性能
- 开源方法(隐含)促进社区在接触操作中利用LLM进行自适应控制的进一步研究