← 返回论文列表

MPCoT:奖励引导的多路径潜在推理用于测试时可扩展的视觉-语言-动作
MPCoT: Reward-Guided Multi-Path Latent Reasoning for Test-Time Scalable Vision-Language-Action

作者: Boyang Zhang, Lianlei Shan
arXiv: 2606.06245v1
分类: cs.RO, cs.AI
📝 论文摘要
视觉-语言-动作(VLA)策略在长时域和高不确定性控制中仍显脆弱,此类场景中单次动作解码提供的推理时间思考能力有限。显式链式思维可提升推理深度,但会引入词元延迟和间接的文本-动作接口。我们提出MPCoT——一种奖励引导的多路径潜在推理框架:初始化M个假设,经K步权重共享迭代精炼,在动作解码前进行软聚合。仅用于训练的路径偏好目标通过专家动作一致性、基于世界模型/视觉大模型的进展评估及成功反馈来评估候选动作分支,从而将潜在路径评分器与下游执行质量对齐。MPCoT保持原始8步动作接口,生成零推理词元,并提供可配置的推理控制参数(K, M)。在LIBERO和CALVIN基准的匹配协议下,MPCoT提升了长时域性能,消融实验证实了深度-宽度效应、置信加权聚合及奖励引导路径监督的有效性。

📊 核心分析

🎯 研究动机
- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 策略在长时域(long-horizon)和高不确定性(high-uncertainty)控制中表现脆弱,单次动作解码(one-pass action decoding)缺乏推理时推理(inference-time deliberation)。 - 显式思维链(chain-of-thought)虽能增加推理深度,但引入**token延迟(token latency)** 和间接的**文本到动作(text-to-action)** 接口,降低效率。
🔧 核心方法
- 提出**奖励引导的多路径潜在推理(MPCoT, Reward-Guided Multi-Path Latent Reasoning)** 框架:初始化$M$个假设(hypotheses),在$K$个权重共享(weight-tied)步骤中逐步细化,然后进行软聚合(softly aggregation)后再解码动作。 - 设计训练时**路径偏好目标(path-preference objective)**,结合专家动作一致性(expert-action consistency)、基于**世界模型/视觉语言模型(world-model/VLM)** 的进展(progress)和成功反馈(success feedback)来评估候选动作分支,使潜在路径评分器(latent path scorer)对齐下游执行质量。
💡 核心创新
- **潜在推理无额外token**:在潜在空间进行多步推理,不生成任何推理token,保持原始8步动作接口(action interface),消除显式CoT的延迟和间接性。 - **可配置推理控制(configurable inference controls)**:通过超参数$(K, M)$灵活调节推理深度(depth)和宽度(width),实现测试时扩展(test-time scalable)。 - **奖励引导的多路径监督**:训练阶段使用多种反馈信号(专家动作、世界模型进展、成功)引导路径评分,而非仅依赖模仿学习。
🏆 总体贡献
- 为VLA领域提供了一种**测试时可扩展的潜在推理(test-time scalable latent reasoning)** 范式,在不增加推理token和保持动作接口的前提下提升长时域控制性能。 - 在**LIBERO** 和**CALVIN** 基准上验证了性能提升,消融实验确认了深度-宽度效应(depth-width effects)、置信加权聚合(confidence-weighted aggregation)和奖励引导路径监督(reward-guided path supervision)的有效性。 - 展示了**多路径潜在推理(multi-path latent reasoning)** 在机器人操作中的潜力,为未来研究提供了可复现的框架设计思路。