← 返回论文列表

CompassAD:功能竞争对象中的意图驱动三维可供性定位
CompassAD: Intent-Driven 3D Affordance Grounding in Functionally Competing Objects

作者: Jingliang Li, Jindou Jia, Tuo An 等10人
arXiv: 2604.02060v1
分类: cs.CV, cs.RO
📝 论文摘要
当被告知"切苹果"时,机器人必须选择刀具而非旁边的剪刀——尽管两者都具备切割功能。在现实场景中,多个物体可能具有相同的功能可供性,但只有特定物体符合当前任务情境。我们将这类情况称为混淆对。然而现有3D可供性方法大多通过评估孤立单物体来回避这一挑战,且查询时往往提供明确的类别名称。本研究正式提出"意图驱动指令下的多物体可供性定位"新范式,该3D可供性任务要求:在杂乱的多物体点云场景中,根据隐式自然语言意图,在正确物体上预测逐点可供性掩码。为研究此问题,我们构建了首个聚焦于可混淆多物体场景隐式意图的基准测试CompassAD,涵盖16种可供性类型下的30组混淆物体对、6,422个场景及8.8万组查询-答案对。进一步提出CompassNet框架,包含两个专用模块:实例边界交叉注入通过约束物体边界内的语言-几何对齐防止跨物体语义泄露;双层对比优化在几何组和点层级实施双重判别,锐化目标表面与混淆表面的差异。大量实验表明该方法在已知与未知查询中均达到最优性能,机械臂部署实验证实了其在真实混淆多物体场景中抓取任务的有效迁移能力。

📊 核心分析

🎯 研究动机
该论文旨在解决机器人感知中的关键挑战:在功能相似但情境不匹配的物体(称为混淆对(confusing pairs))中,根据隐含的自然语言意图(如“切苹果”)精准地选择并定位正确的工具。现有3D功能可供性(affordance)方法通常评估单个孤立物体,且查询中常提供明确的类别名称,这回避了真实杂乱多物体场景中基于意图进行选择的难题。
🔧 核心方法
论文提出了一个名为CompassNet的框架,包含两个专门设计的模块: - 实例边界交叉注入(Instance-bounded Cross Injection, ICI):将语言特征与物体实例的几何特征在对象边界内进行对齐,防止语义信息在物体间不当泄漏(cross-object semantic leakage)。 - 双层对比细化(Bi-level Contrastive Refinement, BCR):在几何组级别和点级别实施对比学习,以增强目标物体表面与混淆物体表面之间的区分度。 该方法以杂乱的多物体点云和隐含的自然语言意图作为输入,输出目标物体上的逐点功能可供性掩码(per-point affordance mask)。
💡 核心创新
论文的核心创新点在于: 1. **问题形式化与基准创建**:首次形式化了“意图驱动的多物体3D功能可供性定位(Multi-Object Affordance Grounding under Intent-Driven Instructions)”这一新任务,并构建了首个专注于隐含意图和混淆多物体场景的基准CompassAD。 2. **针对性的架构设计**:提出的ICI模块通过实例边界约束,专门解决了多物体场景中语言-几何对齐时的语义泄漏问题,这是现有方法未考虑的。 3. **双层对比学习机制**:BCR模块通过同时进行几何组级和点级的对比学习,从粗到细地锐化了功能相似但情境不匹配的物体表面之间的判别特征,提升了在混淆对中的选择精度。
🏆 总体贡献
论文对该领域的整体贡献包括: 1. **定义新任务与基准**:推动3D功能可供性研究从单物体、显式类别查询,迈向更现实的多物体、隐含意图驱动的场景,并通过大规模基准CompassAD(包含30个混淆对、6,422个场景、88K+查询)为社区提供了评估标准。 2. **提出有效解决方案**:CompassNet框架在可见和未见查询上均取得了最先进(state-of-the-art)的性能,并通过机器人机械臂部署验证了其在真实混淆多物体场景中抓取任务的有效迁移性。 3. **方法论启示**:其针对语义泄漏和混淆表面区分的模块设计,为多物体场景下的视觉语言 grounding 任务提供了新的技术思路。