MPCoT：奖励引导的多路径潜在推理用于测试时可扩展的视觉-语言-动作

📝 论文摘要

视觉-语言-动作（VLA）策略在长时域和高不确定性控制中仍显脆弱，此类场景中单次动作解码提供的推理时间思考能力有限。显式链式思维可提升推理深度，但会引入词元延迟和间接的文本-动作接口。我们提出MPCoT——一种奖励引导的多路径潜在推理框架：初始化M个假设，经K步权重共享迭代精炼，在动作解码前进行软聚合。仅用于训练的路径偏好目标通过专家动作一致性、基于世界模型/视觉大模型的进展评估及成功反馈来评估候选动作分支，从而将潜在路径评分器与下游执行质量对齐。MPCoT保持原始8步动作接口，生成零推理词元，并提供可配置的推理控制参数（K, M）。在LIBERO和CALVIN基准的匹配协议下，MPCoT提升了长时域性能，消融实验证实了深度-宽度效应、置信加权聚合及奖励引导路径监督的有效性。

🎯 研究动机

- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 策略在长时域(long-horizon)和高不确定性(high-uncertainty)控制中表现脆弱，单次动作解码(one-pass action decoding)缺乏推理时推理(inference-time deliberation)。 - 显式思维链(chain-of-thought)虽能增加推理深度，但引入**token延迟(token latency)** 和间接的**文本到动作(text-to-action)** 接口，降低效率。

🔧 核心方法

- 提出**奖励引导的多路径潜在推理(MPCoT, Reward-Guided Multi-Path Latent Reasoning)** 框架：初始化$M$个假设(hypotheses)，在$K$个权重共享(weight-tied)步骤中逐步细化，然后进行软聚合(softly aggregation)后再解码动作。 - 设计训练时**路径偏好目标(path-preference objective)**，结合专家动作一致性(expert-action consistency)、基于**世界模型/视觉语言模型(world-model/VLM)** 的进展(progress)和成功反馈(success feedback)来评估候选动作分支，使潜在路径评分器(latent path scorer)对齐下游执行质量。

💡 核心创新

- **潜在推理无额外token**：在潜在空间进行多步推理，不生成任何推理token，保持原始8步动作接口(action interface)，消除显式CoT的延迟和间接性。 - **可配置推理控制(configurable inference controls)**：通过超参数$(K, M)$灵活调节推理深度(depth)和宽度(width)，实现测试时扩展(test-time scalable)。 - **奖励引导的多路径监督**：训练阶段使用多种反馈信号(专家动作、世界模型进展、成功)引导路径评分，而非仅依赖模仿学习。

🏆 总体贡献

- 为VLA领域提供了一种**测试时可扩展的潜在推理(test-time scalable latent reasoning)** 范式，在不增加推理token和保持动作接口的前提下提升长时域控制性能。 - 在**LIBERO** 和**CALVIN** 基准上验证了性能提升，消融实验确认了深度-宽度效应(depth-width effects)、置信加权聚合(confidence-weighted aggregation)和奖励引导路径监督(reward-guided path supervision)的有效性。 - 展示了**多路径潜在推理(multi-path latent reasoning)** 在机器人操作中的潜力，为未来研究提供了可复现的框架设计思路。

MPCoT：奖励引导的多路径潜在推理用于测试时可扩展的视觉-语言-动作
MPCoT: Reward-Guided Multi-Path Latent Reasoning for Test-Time Scalable Vision-Language-Action

📊 核心分析

MPCoT：奖励引导的多路径潜在推理用于测试时可扩展的视觉-语言-动作 MPCoT: Reward-Guided Multi-Path Latent Reasoning for Test-Time Scalable Vision-Language-Action

📊 核心分析

MPCoT：奖励引导的多路径潜在推理用于测试时可扩展的视觉-语言-动作
MPCoT: Reward-Guided Multi-Path Latent Reasoning for Test-Time Scalable Vision-Language-Action