- 现有的**可供性定位(affordance grounding)** 系统依赖固定流水线,难以适应每个实例的难度差异,对中间错误缺乏针对性恢复,且无法重用常见物体的经验
- 开放世界场景中的可交互区域通常尺寸小、被遮挡、表面反光且视觉模糊,导致现有方法错误率高
- 测试时定位面临系统级挑战:需要在不访问标签的情况下获取正确证据、判断证据可靠性,并控制推理成本
- 提出**Affordance Agent Harness**,一个闭环运行时框架,包含**证据存储(evidence store)** 和**成本控制(cost control)** 模块,统一异构技能(检测、分割、交互想象等)
- 通过**情景记忆检索(episodic memory retrieval)** 为常见物体类别提供先验知识,指导后续技能选择
- 使用**路由器(Router)** 自适应选择和参数化技能,并引入**可供性验证器(Verifier)**,通过**自一致性(self-consistency)**、**跨尺度稳定性(cross-scale stability)** 和**证据充分性(evidence sufficiency)** 来门控预测提交,触发针对性重试
- 最终由**判定器(Judge)** 融合所有累积证据和轨迹生成最终预测
- **验证门控技能编排(Verification-Gated Skill Orchestration)**:首次将专用验证器引入可供性定位,通过自一致性、跨尺度稳定性和证据充分性实现commit/don't-commit决策,动态触发重试
- **闭环测试时自适应**:利用情景记忆和路由器实现技能选择与参数化的按实例自适应,而非固定流水线
- **成本-精度帕累托优化(Pareto frontier)**:在提升接地质量的同时减少平均技能调用次数和延迟,打破了传统方法中精度与成本的正相关关系
- 提出了一个系统级的**可供性定位运行时框架**,将异构技能、记忆、路由和验证统一为闭环,解决了固定流水线的鲁棒性和效率问题
- 在多个可供性基准和难度控制子集上实现了更强的**准确-成本帕累托前沿(accuracy-cost Pareto frontier)**,验证了方法的有效性
- 开源项目页面提供了代码和演示,促进社区在**交互式感知(interactive perception)** 和**机器人操作(robot manipulation)** 领域的后续研究