该论文旨在解决具身智能体(embodied agents)在动态现实环境中执行任务时面临的核心问题:现有方法通常直接执行指令,而忽略了目标对象是否实际可操作(即可供性(affordance)评估)。研究背景是:真实世界环境常涉及意外条件和例外情况,物体可供性会随时间变化且指令中未明确指定,这导致现有系统缺乏对动态可供性的推理能力。
论文提出了一个名为DynAfford的基准测试(benchmark),用于评估具身智能体在物体可供性动态变化且未指定的环境中的表现。同时,论文引入了ADAPT,一个即插即用(plug-and-play)模块,其核心方法是:
- 通过一个领域适应(domain-adapted)且经过LoRA微调(LoRA-finetuned)的视觉语言模型(vision-language model)作为可供性推理后端(affordance inference backend),来感知物体状态并推断隐式前提条件(implicit preconditions)。
- 将此模块与现有规划器(planners)结合,为其增强显式的可供性推理(explicit affordance reasoning)能力,从而使智能体能够根据环境变化调整行动。
论文的核心创新点在于:
1. **问题与基准创新**:首次系统性地提出并构建了针对“动态、未指定可供性约束”下常识规划(commonsense planning)的评估基准(DynAfford),将研究焦点从单纯的指令执行转向了对环境动态可供性的感知与推理。
2. **方法架构创新**:提出了ADAPT这一轻量级、即插即用的模块化解决方案,而非重新训练整个规划系统,能够灵活地增强现有规划器的鲁棒性(robustness)。
3. **技术路径创新**:证明了针对特定任务进行领域适应并微调(如使用LoRA)的专用视觉语言模型,在可供性接地(affordance grounding)任务上优于通用的商用大语言模型(LLM)(如GPT-4o),强调了任务对齐(task-aligned)模型的重要性。
论文对该领域的整体贡献包括:
- **提出了新的评估范式**:通过DynAfford基准,为具身人工智能(embodied AI)领域建立了更贴近现实动态环境的、以可供性推理为核心的新评估标准。
- **提供了有效的解决方案**:ADAPT模块作为一种实用工具,显著提升了现有规划器在已见和未见环境中的任务成功率和鲁棒性。
- **揭示了关键洞见**:通过实验对比,明确了在具身任务中,专用的、经过领域适应的模型在可供性接地这类需要精细环境感知的任务上,比通用大模型更具优势,为后续研究指明了方向。