← 返回论文列表

AffordSim:可扩展的机器人操作感知数据生成器与基准测试
AffordSim: A Scalable Data Generator and Benchmark for Affordance-Aware Robotic Manipulation

作者: Mingyang Li, Haofan Xu, Haowen Sun 等12人
arXiv: 2604.11674v1
分类: cs.RO, cs.AI
📝 论文摘要
基于仿真的数据生成已成为训练机器人操作策略的主流范式,但现有平台未能将物体可供性信息融入轨迹生成过程。这导致需要与特定功能区域进行精确交互的任务——例如抓握杯柄、从杯缘倾倒液体或将杯子悬挂于挂钩——无法自动生成语义正确的轨迹。我们提出AffordSim,这是首个将开放词汇3D可供性预测整合到操作数据生成流程的仿真框架。AffordSim采用我们开发的VoxAfford模型(一种通过多尺度几何特征增强多模态大语言模型输出标记的开放词汇3D可供性检测器),在物体点云上预测可供性分布图,从而引导抓取姿态估计朝向任务相关的功能区域。该框架基于NVIDIA Isaac Sim构建,具备跨本体支持(Franka FR3、Panda、UR5e、Kinova)、基于视觉语言模型的任务生成能力,以及通过基于DA3的真实照片3D高斯重建实现的新型域随机化技术,实现了自动化、可扩展的可供性感知操作数据生成。我们建立了涵盖7个类别(抓取、放置、堆叠、推/拉、倾倒、挂杯、长时程复合任务)共50项任务的基准测试集,并评估了4种模仿学习基线方法(行为克隆、扩散策略、ACT、Pi 0.5)。实验结果表明:虽然抓取任务已基本解决(成功率53-93%),但对可供性敏感的任务如向窄口容器倾倒(1-43%)和挂杯操作(0-47%)对现有模仿学习方法仍极具挑战,这凸显了可供性感知数据生成的必要性。在真实Franka FR3机器人上进行的零样本仿真到现实迁移实验验证了生成数据的可转移性。

📊 核心分析

🎯 研究动机
该论文旨在解决机器人操作领域的一个关键问题:现有基于仿真的数据生成平台缺乏对物体可供性(affordance)信息的整合。研究背景是: - 当前仿真数据生成范式无法自动生成需要与物体特定功能区域进行精确交互的任务轨迹(如抓握杯子把手、从杯沿倒水、将杯子挂到挂钩上) - 语义正确的轨迹生成需要理解物体的功能区域,而现有方法忽略了这一关键信息
🔧 核心方法
论文提出了AffordSim框架,具体方法包括: - 开发VoxAfford模型:一个开放词汇(open-vocabulary)的3D可供性检测器,通过多尺度几何特征增强多模态大语言模型(MLLM)输出标记(token) - 在物体点云(point cloud)上预测可供性图(affordance map),引导抓握姿态估计朝向任务相关的功能区域 - 基于NVIDIA Isaac Sim构建,支持跨本体(cross-embodiment)机器人(Franka FR3、Panda、UR5e、Kinova) - 使用视觉语言模型(VLM)生成任务 - 采用基于DA3的3D高斯重建(3D Gaussian reconstruction)从真实照片进行新颖的领域随机化(domain randomization)
💡 核心创新
论文的核心创新点包括: - 首次将开放词汇3D可供性预测集成到机器人操作数据生成流程中,实现了可供性感知(affordance-aware)的自动化轨迹生成 - 提出VoxAfford模型,通过几何特征增强的MLLM标记实现细粒度3D可供性检测,突破了传统封闭词汇方法的限制 - 建立了首个大规模可供性感知操作基准测试(benchmark),包含7个类别50个任务,系统评估了模仿学习(imitation learning)方法在可供性需求任务上的表现 - 揭示了当前模仿学习方法在需要精确可供性理解的任务(如向窄口容器倒水、挂杯子)上性能严重不足(1-47%成功率),而抓握任务已基本解决(53-93%)
🏆 总体贡献
论文对该领域的整体贡献是: - 提供了首个可扩展的(salable)可供性感知机器人操作数据生成框架,填补了语义正确轨迹自动生成的技术空白 - 建立了标准化的评估基准,为未来可供性感知操作研究提供了统一的测试平台 - 通过零样本(zero-shot)仿真到真实(sim-to-real)实验验证了生成数据的可迁移性(transferability) - 系统性地揭示了当前模仿学习方法的局限性,为推动可供性感知数据生成和策略学习提供了明确的研究方向