ManiSoft：面向软体连续体机器人的视觉-语言操控

📝 论文摘要

现有大多数视觉语言操作研究针对刚性机械臂，其固定形态限制了在杂乱或狭窄空间中的适应性。软体机械臂因其可变形能力提供了有吸引力的替代方案，但面临本体感知不可靠和分布式低级驱动等挑战。为探究这些问题，我们提出了ManiSoft——一个面向软体机械臂的视觉语言操作基准。ManiSoft配备定制化模拟器，通过弹性力约束将真实软体动力学与接触丰富的交互相结合。在此基础上，ManiSoft定义了四项任务，分别突出可变形控制的不同方面，从基础末端执行器协调到避障。为支持策略训练与评估，ManiSoft包含自动化流水线，可生成6,300个多样化场景及对应的专家轨迹。为大规模生成高质量轨迹，我们首先采用高级规划器将每个任务分解为一系列路径点，随后通过低级强化学习策略生成力矩指令以跟踪路径点。对三种代表性策略模型的基准测试显示，在干净场景中表现相对出色，但在随机化条件下性能显著下降。可视化分析表明，失败主要源于对本体感知状态的视觉估计不准确，以及未能充分利用可变形性实现自适应避障。我们期望ManiSoft能成为连接刚性机械臂与软体机械臂在视觉语言操作领域鸿沟的重要测试平台。代码与数据集已开源至https://buaa-colalab.github.io/ManiSoft。

🎯 研究动机

- 现有**视觉-语言操作(Vision-Language Manipulation)** 研究主要针对刚性机械臂，其固定形态限制了在杂乱或狭窄空间中的适应性 - 软体机械臂凭借可变形性(deformability)具有潜力，但面临**本体感知(proprioception)** 不可靠和分布式低级驱动(distributed low-level actuation)等挑战 - 缺乏专门针对软体连续体机器人的视觉-语言操作基准和模拟器，亟需统一的测试平台

🔧 核心方法

- 提出**ManiSoft** 基准，包含一个定制模拟器，通过**弹性力约束(elastic force constraint)** 耦合真实软体动力学与接触丰富的交互 - 定义四个任务，分别突出**末端执行器协调(end-effector coordination)**、避障(obstacle avoidance)等软体控制的不同方面 - 自动生成6,300个多样化场景及专家轨迹：首先采用**高级规划器(high-level planner)** 将任务分解为路径点序列，然后由**低级强化学习(low-level reinforcement learning)** 策略生成扭矩命令跟踪路径点 - 对三种代表性策略模型（如Cliport、RT-1等）进行基准测试，评估干净场景和随机化条件下的性能

💡 核心创新

- **首创性**：首次为**软体连续体机器人(soft continuum robotics)** 建立视觉-语言操作基准和模拟器，填补刚性臂与软体臂之间的空白 - **模拟器设计**：通过弹性力约束实现接触丰富的软体动力学模拟，真实再现软体机器人的变形行为 - **自动轨迹生成**：结合高级规划与低级RL，大规模产生高质量专家轨迹，支持策略训练 - **任务与评估**：四个任务系统覆盖软体控制关键方面，并通过基准测试揭示随机化下性能下降的主因——**视觉本体感知估计不准确** 和**可变形性利用不足**

🏆 总体贡献

- 为**软体连续体机器人(soft continuum robotics)** 的视觉-语言操作领域提供了首个标准基准ManiSoft，包含模拟器、任务定义和多样场景数据集 - 开源所有代码和数据集，促进社区复现与后续研究 - 通过三种代表性策略模型的基准测试，系统分析了软体臂操作的当前局限性，为未来改进方向（如视觉本体感知、可变形性利用）提供指导 - 桥接了**刚性机械臂(rigid robotic arms)** 与**软体臂(soft arms)** 在视觉-语言操作方面的鸿沟，推动软体操纵的实际应用

ManiSoft：面向软体连续体机器人的视觉-语言操控
ManiSoft: Towards Vision-Language Manipulation for Soft Continuum Robotics

📊 核心分析

ManiSoft：面向软体连续体机器人的视觉-语言操控 ManiSoft: Towards Vision-Language Manipulation for Soft Continuum Robotics

📊 核心分析

ManiSoft：面向软体连续体机器人的视觉-语言操控
ManiSoft: Towards Vision-Language Manipulation for Soft Continuum Robotics