- 现有**具身控制(embodied control)** 研究主要通过扩展训练数据和模型尺寸来提升性能,但**推理时策略(inference-time strategy)** 作为替代方向尚未被充分探索
- **非确定性生成模型(non-deterministic generative models)** (如扩散和自回归模型)已被广泛采用,但其**单次推理范式(single-shot inference paradigm)** 限制了性能上限
- 需要一种即插即用的推理时采样框架,在不重新训练策略的前提下提升机器人操作的性能
- 提出**TapSampling** 框架,包含两个核心模块:**动作变分自编码器(Action-VAE)** 和**任务进度验证器(task-progress verifier)**
- **Action-VAE** 将策略生成的初始动作映射到低维潜在空间的后验分布,从中采样任意数量的潜在样本并解码为候选动作
- **任务进度验证器** 将动作验证转化为**任务进度结果预测(task-progress outcome prediction)**,利用机器人数据集的固有序列结构训练语义可解释的验证器用于动作选择
- 该框架是**策略无关(policy-agnostic)** 的,可即插即用于多种通用策略,无需额外微调
- **首创推理时采样范式**:首次将**推理时采样(inference-time sampling)** 引入机器人操作领域,通过多候选生成与验证突破单次推理的性能瓶颈
- **基于任务进度的语义验证**:提出利用机器人任务的**时序结构(temporal structure)** 训练验证器,使动作选择具有可解释的语义依据,区别于传统的启发式或判别式验证
- **高效低维动作空间采样**:通过**Action-VAE** 将动作压缩到低维潜在空间,实现高质量、多样化的候选动作生成,兼顾计算效率与表达力
- **零微调泛化能力**:无需对原始策略进行任何微调,即可显著提升多种通用策略(generalist policies)在模拟和真实环境中的性能
- 为**具身控制(embodied control)** 领域提供了一种新的**推理时增强范式(inference-time enhancement paradigm)**,证明推理策略可作为训练扩展的补充维度
- 在模拟和真实环境的广泛实验中,**显著提升了多个通用策略的性能**,验证了方法的有效性和泛化性
- 开源了代码和模型(项目页面),促进社区复现与后续研究,推动**可解释、即插即用的推理时采样(plug-and-play inference-time sampling)** 在机器人操作中的应用