可供性智能体框架：验证门控技能编排

📝 论文摘要

可供性基础定位需要识别智能体在开放世界场景中应如何交互以及交互位置，其中可操作区域往往具有小面积、被遮挡、反光及视觉模糊等特征。现有系统通常融合多种技能（如检测、分割、交互想象），但多数采用固定流水线编排方式，难以匹配实例难度差异，对中间错误的定向修复能力有限，且无法复用重复出现的对象的经验。这些失败暴露了一个系统性问题：测试时的基础定位必须在有限推理成本且无标注信息的条件下，获取正确证据，判断证据是否足够可靠以作出决策。我们提出可供性智能体操控系统——一种统一异构技能、证据存储与成本控制的闭环运行时，通过检索情景记忆为重复类别提供先验信息，并利用路由器自适应选择技能及参数化配置。随后，可供性专用验证器通过自一致性、跨尺度稳定性及证据充分性对承诺决策进行门控，在最终判决器将累积证据与轨迹融合为预测结果前触发定向重试。在多个可供性基准测试及难度控制子集上的实验表明，相较于固定流水线基线方法，本系统在准确率与成本之间实现了更优的帕累托前沿，在提升基础定位质量的同时降低了平均技能调用次数与延迟。项目页面：https://tenplusgood.github.io/a-harness-page/。

🎯 研究动机

- 现有的**可供性定位(affordance grounding)** 系统依赖固定流水线，难以适应每个实例的难度差异，对中间错误缺乏针对性恢复，且无法重用常见物体的经验 - 开放世界场景中的可交互区域通常尺寸小、被遮挡、表面反光且视觉模糊，导致现有方法错误率高 - 测试时定位面临系统级挑战：需要在不访问标签的情况下获取正确证据、判断证据可靠性，并控制推理成本

🔧 核心方法

- 提出**Affordance Agent Harness**，一个闭环运行时框架，包含**证据存储(evidence store)** 和**成本控制(cost control)** 模块，统一异构技能（检测、分割、交互想象等） - 通过**情景记忆检索(episodic memory retrieval)** 为常见物体类别提供先验知识，指导后续技能选择 - 使用**路由器(Router)** 自适应选择和参数化技能，并引入**可供性验证器(Verifier)**，通过**自一致性(self-consistency)**、**跨尺度稳定性(cross-scale stability)** 和**证据充分性(evidence sufficiency)** 来门控预测提交，触发针对性重试 - 最终由**判定器(Judge)** 融合所有累积证据和轨迹生成最终预测

💡 核心创新

- **验证门控技能编排(Verification-Gated Skill Orchestration)**：首次将专用验证器引入可供性定位，通过自一致性、跨尺度稳定性和证据充分性实现commit/don't-commit决策，动态触发重试 - **闭环测试时自适应**：利用情景记忆和路由器实现技能选择与参数化的按实例自适应，而非固定流水线 - **成本-精度帕累托优化(Pareto frontier)**：在提升接地质量的同时减少平均技能调用次数和延迟，打破了传统方法中精度与成本的正相关关系

🏆 总体贡献

- 提出了一个系统级的**可供性定位运行时框架**，将异构技能、记忆、路由和验证统一为闭环，解决了固定流水线的鲁棒性和效率问题 - 在多个可供性基准和难度控制子集上实现了更强的**准确-成本帕累托前沿(accuracy-cost Pareto frontier)**，验证了方法的有效性 - 开源项目页面提供了代码和演示，促进社区在**交互式感知(interactive perception)** 和**机器人操作(robot manipulation)** 领域的后续研究

可供性智能体框架：验证门控技能编排
Affordance Agent Harness: Verification-Gated Skill Orchestration

📊 核心分析

可供性智能体框架：验证门控技能编排 Affordance Agent Harness: Verification-Gated Skill Orchestration

📊 核心分析

可供性智能体框架：验证门控技能编排
Affordance Agent Harness: Verification-Gated Skill Orchestration