- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 策略在长时域(long-horizon)和高不确定性(high-uncertainty)控制中表现脆弱,单次动作解码(one-pass action decoding)缺乏推理时推理(inference-time deliberation)。
- 显式思维链(chain-of-thought)虽能增加推理深度,但引入**token延迟(token latency)** 和间接的**文本到动作(text-to-action)** 接口,降低效率。
- 提出**奖励引导的多路径潜在推理(MPCoT, Reward-Guided Multi-Path Latent Reasoning)** 框架:初始化$M$个假设(hypotheses),在$K$个权重共享(weight-tied)步骤中逐步细化,然后进行软聚合(softly aggregation)后再解码动作。
- 设计训练时**路径偏好目标(path-preference objective)**,结合专家动作一致性(expert-action consistency)、基于**世界模型/视觉语言模型(world-model/VLM)** 的进展(progress)和成功反馈(success feedback)来评估候选动作分支,使潜在路径评分器(latent path scorer)对齐下游执行质量。
- **潜在推理无额外token**:在潜在空间进行多步推理,不生成任何推理token,保持原始8步动作接口(action interface),消除显式CoT的延迟和间接性。
- **可配置推理控制(configurable inference controls)**:通过超参数$(K, M)$灵活调节推理深度(depth)和宽度(width),实现测试时扩展(test-time scalable)。
- **奖励引导的多路径监督**:训练阶段使用多种反馈信号(专家动作、世界模型进展、成功)引导路径评分,而非仅依赖模仿学习。
- 为VLA领域提供了一种**测试时可扩展的潜在推理(test-time scalable latent reasoning)** 范式,在不增加推理token和保持动作接口的前提下提升长时域控制性能。
- 在**LIBERO** 和**CALVIN** 基准上验证了性能提升,消融实验确认了深度-宽度效应(depth-width effects)、置信加权聚合(confidence-weighted aggregation)和奖励引导路径监督(reward-guided path supervision)的有效性。
- 展示了**多路径潜在推理(multi-path latent reasoning)** 在机器人操作中的潜力,为未来研究提供了可复现的框架设计思路。