- 现有**视觉-语言操作(Vision-Language Manipulation)** 研究主要针对刚性机械臂,其固定形态限制了在杂乱或狭窄空间中的适应性
- 软体机械臂凭借可变形性(deformability)具有潜力,但面临**本体感知(proprioception)** 不可靠和分布式低级驱动(distributed low-level actuation)等挑战
- 缺乏专门针对软体连续体机器人的视觉-语言操作基准和模拟器,亟需统一的测试平台
- 提出**ManiSoft** 基准,包含一个定制模拟器,通过**弹性力约束(elastic force constraint)** 耦合真实软体动力学与接触丰富的交互
- 定义四个任务,分别突出**末端执行器协调(end-effector coordination)**、避障(obstacle avoidance)等软体控制的不同方面
- 自动生成6,300个多样化场景及专家轨迹:首先采用**高级规划器(high-level planner)** 将任务分解为路径点序列,然后由**低级强化学习(low-level reinforcement learning)** 策略生成扭矩命令跟踪路径点
- 对三种代表性策略模型(如Cliport、RT-1等)进行基准测试,评估干净场景和随机化条件下的性能
- **首创性**:首次为**软体连续体机器人(soft continuum robotics)** 建立视觉-语言操作基准和模拟器,填补刚性臂与软体臂之间的空白
- **模拟器设计**:通过弹性力约束实现接触丰富的软体动力学模拟,真实再现软体机器人的变形行为
- **自动轨迹生成**:结合高级规划与低级RL,大规模产生高质量专家轨迹,支持策略训练
- **任务与评估**:四个任务系统覆盖软体控制关键方面,并通过基准测试揭示随机化下性能下降的主因——**视觉本体感知估计不准确** 和**可变形性利用不足**
- 为**软体连续体机器人(soft continuum robotics)** 的视觉-语言操作领域提供了首个标准基准ManiSoft,包含模拟器、任务定义和多样场景数据集
- 开源所有代码和数据集,促进社区复现与后续研究
- 通过三种代表性策略模型的基准测试,系统分析了软体臂操作的当前局限性,为未来改进方向(如视觉本体感知、可变形性利用)提供指导
- 桥接了**刚性机械臂(rigid robotic arms)** 与**软体臂(soft arms)** 在视觉-语言操作方面的鸿沟,推动软体操纵的实际应用