该论文旨在解决机器人操作领域的一个关键问题:现有基于仿真的数据生成平台缺乏对物体可供性(affordance)信息的整合。研究背景是:
- 当前仿真数据生成范式无法自动生成需要与物体特定功能区域进行精确交互的任务轨迹(如抓握杯子把手、从杯沿倒水、将杯子挂到挂钩上)
- 语义正确的轨迹生成需要理解物体的功能区域,而现有方法忽略了这一关键信息
论文提出了AffordSim框架,具体方法包括:
- 开发VoxAfford模型:一个开放词汇(open-vocabulary)的3D可供性检测器,通过多尺度几何特征增强多模态大语言模型(MLLM)输出标记(token)
- 在物体点云(point cloud)上预测可供性图(affordance map),引导抓握姿态估计朝向任务相关的功能区域
- 基于NVIDIA Isaac Sim构建,支持跨本体(cross-embodiment)机器人(Franka FR3、Panda、UR5e、Kinova)
- 使用视觉语言模型(VLM)生成任务
- 采用基于DA3的3D高斯重建(3D Gaussian reconstruction)从真实照片进行新颖的领域随机化(domain randomization)
论文的核心创新点包括:
- 首次将开放词汇3D可供性预测集成到机器人操作数据生成流程中,实现了可供性感知(affordance-aware)的自动化轨迹生成
- 提出VoxAfford模型,通过几何特征增强的MLLM标记实现细粒度3D可供性检测,突破了传统封闭词汇方法的限制
- 建立了首个大规模可供性感知操作基准测试(benchmark),包含7个类别50个任务,系统评估了模仿学习(imitation learning)方法在可供性需求任务上的表现
- 揭示了当前模仿学习方法在需要精确可供性理解的任务(如向窄口容器倒水、挂杯子)上性能严重不足(1-47%成功率),而抓握任务已基本解决(53-93%)
论文对该领域的整体贡献是:
- 提供了首个可扩展的(salable)可供性感知机器人操作数据生成框架,填补了语义正确轨迹自动生成的技术空白
- 建立了标准化的评估基准,为未来可供性感知操作研究提供了统一的测试平台
- 通过零样本(zero-shot)仿真到真实(sim-to-real)实验验证了生成数据的可迁移性(transferability)
- 系统性地揭示了当前模仿学习方法的局限性,为推动可供性感知数据生成和策略学习提供了明确的研究方向