该论文旨在解决机器人感知中的关键挑战:在功能相似但情境不匹配的物体(称为混淆对(confusing pairs))中,根据隐含的自然语言意图(如“切苹果”)精准地选择并定位正确的工具。现有3D功能可供性(affordance)方法通常评估单个孤立物体,且查询中常提供明确的类别名称,这回避了真实杂乱多物体场景中基于意图进行选择的难题。
论文提出了一个名为CompassNet的框架,包含两个专门设计的模块:
- 实例边界交叉注入(Instance-bounded Cross Injection, ICI):将语言特征与物体实例的几何特征在对象边界内进行对齐,防止语义信息在物体间不当泄漏(cross-object semantic leakage)。
- 双层对比细化(Bi-level Contrastive Refinement, BCR):在几何组级别和点级别实施对比学习,以增强目标物体表面与混淆物体表面之间的区分度。
该方法以杂乱的多物体点云和隐含的自然语言意图作为输入,输出目标物体上的逐点功能可供性掩码(per-point affordance mask)。
论文的核心创新点在于:
1. **问题形式化与基准创建**:首次形式化了“意图驱动的多物体3D功能可供性定位(Multi-Object Affordance Grounding under Intent-Driven Instructions)”这一新任务,并构建了首个专注于隐含意图和混淆多物体场景的基准CompassAD。
2. **针对性的架构设计**:提出的ICI模块通过实例边界约束,专门解决了多物体场景中语言-几何对齐时的语义泄漏问题,这是现有方法未考虑的。
3. **双层对比学习机制**:BCR模块通过同时进行几何组级和点级的对比学习,从粗到细地锐化了功能相似但情境不匹配的物体表面之间的判别特征,提升了在混淆对中的选择精度。
论文对该领域的整体贡献包括:
1. **定义新任务与基准**:推动3D功能可供性研究从单物体、显式类别查询,迈向更现实的多物体、隐含意图驱动的场景,并通过大规模基准CompassAD(包含30个混淆对、6,422个场景、88K+查询)为社区提供了评估标准。
2. **提出有效解决方案**:CompassNet框架在可见和未见查询上均取得了最先进(state-of-the-art)的性能,并通过机器人机械臂部署验证了其在真实混淆多物体场景中抓取任务的有效迁移性。
3. **方法论启示**:其针对语义泄漏和混淆表面区分的模块设计,为多物体场景下的视觉语言 grounding 任务提供了新的技术思路。