探究具身大语言模型：更高的观察保真度反而损害问题解决

📝 论文摘要

大型语言模型正被越来越多地作为机器人系统中的认知组件，但其不透明的决策过程使得在闭环具身任务中解释成功或失败的原因变得困难。遵循经验人工智能方法论，我们通过改变智能体可获得的信息并测量由此产生的行为变化，对具身大型语言模型进行行为学的研究。利用锁盒——一种具有隐藏依赖关系的顺序机械谜题——我们在物理机器人装置中评估了大型语言模型在RGB、RGB-D及地面真值符号观测下的表现，并通过受控仿真探究其行为结果。与直觉相反，智能体在原始RGB输入下表现最佳，而在完美地面真值观测下表现最差。在仿真中，我们通过随机翻转感知到的动作结果来探究这一效应，发现适度噪声能提升性能，在40%翻转概率下达到峰值，成功率比无噪声基线提高了2.85倍。进一步分析将这一提升归因于重复动作循环的减少。这些发现表明，仅凭成功率不足以评估大型语言模型，因为测量到的性能可能反映的是感知错误与推理失败之间的相互作用，而非稳健的问题解决能力。

🎯 研究动机

- 大型语言模型(LLM)被广泛应用于机器人系统，但其决策过程不透明，难以解释闭环具身任务中的成功或失败 - 现有评估方法依赖成功率，忽视了感知误差与推理失败的交互作用 - 研究背景：**具身人工智能(Embodied AI)** 中，需要行为学方法(behavioral methodology)来理解LLM的认知过程

🔧 核心方法

- 使用**Lockbox** （一个具有隐藏依赖关系的顺序机械谜题）作为评估环境 - 在物理机器人设置中，LLM被提供**RGB**、**RGB-D** 和**地面真值符号(ground-truth symbolic)** 三种不同保真度的观测 - 在仿真中，通过**随机翻转(reversing)** 感知动作结果来引入噪声，探测噪声对性能的影响

💡 核心创新

- **反直觉发现**：高保真观测（地面真值符号）反而导致最差性能，原始RGB输入表现最佳 - **噪声有益效应**：适度噪声（40%翻转概率）使成功率提升2.85倍，揭示感知误差与推理的复杂交互 - **机制解释**：噪声减少重复动作循环(repetitive action loops)，打破固定行为模式

🏆 总体贡献

- **方法论贡献**：提出系统性的行为探测方法，用于分析LLM在闭环任务中的推理过程 - **评估洞察**：指明仅靠成功率不足以评估LLM，需考虑**感知-推理耦合(perception-reasoning coupling)** - **设计启示**：为具身AI系统设计提供新视角，即不一定追求完美感知，适度噪声可能有利于鲁棒性

探究具身大语言模型：更高的观察保真度反而损害问题解决
Probing Embodied LLMs: When Higher Observation Fidelity Hurts Problem Solving

📊 核心分析

探究具身大语言模型：更高的观察保真度反而损害问题解决 Probing Embodied LLMs: When Higher Observation Fidelity Hurts Problem Solving

📊 核心分析

探究具身大语言模型：更高的观察保真度反而损害问题解决
Probing Embodied LLMs: When Higher Observation Fidelity Hurts Problem Solving