- 大型语言模型(LLM)被广泛应用于机器人系统,但其决策过程不透明,难以解释闭环具身任务中的成功或失败
- 现有评估方法依赖成功率,忽视了感知误差与推理失败的交互作用
- 研究背景:**具身人工智能(Embodied AI)** 中,需要行为学方法(behavioral methodology)来理解LLM的认知过程
- 使用**Lockbox** (一个具有隐藏依赖关系的顺序机械谜题)作为评估环境
- 在物理机器人设置中,LLM被提供**RGB**、**RGB-D** 和**地面真值符号(ground-truth symbolic)** 三种不同保真度的观测
- 在仿真中,通过**随机翻转(reversing)** 感知动作结果来引入噪声,探测噪声对性能的影响
- **反直觉发现**:高保真观测(地面真值符号)反而导致最差性能,原始RGB输入表现最佳
- **噪声有益效应**:适度噪声(40%翻转概率)使成功率提升2.85倍,揭示感知误差与推理的复杂交互
- **机制解释**:噪声减少重复动作循环(repetitive action loops),打破固定行为模式
- **方法论贡献**:提出系统性的行为探测方法,用于分析LLM在闭环任务中的推理过程
- **评估洞察**:指明仅靠成功率不足以评估LLM,需考虑**感知-推理耦合(perception-reasoning coupling)**
- **设计启示**:为具身AI系统设计提供新视角,即不一定追求完美感知,适度噪声可能有利于鲁棒性