- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型的**置信度估计(confidence estimation)** 方法依赖**集成(ensemble)** 或**动作token概率(action-token probabilities)**,存在**计算效率低** 和**跨架构泛化性差** 的问题
- 现有方法通常需要重复采样导致推理低效,且局限于**离散动作空间(discrete action spaces)**,难以应用于连续动作空间
- 研究背景:在开放世界机器人操作任务中,风险敏感决策和故障预测需要可靠的置信度信号
- 提出**VLAConf**,一种**单类判别置信度框架(one-class discriminative confidence framework)**
- 利用**冻结的预训练VLA内部表示(frozen pretrained VLA internal representations)**,通过一个**轻量级置信度头(lightweight confidence head)** 在单次前向传播中直接估计逐步骤的**异常分数(step-wise anomaly scores)**
- 采用**步骤条件建模(step-conditioned modeling)** 编码操作轨迹中的**部署阶段信息(rollout-phase information)**
- **首次将单类判别方法应用于VLA置信度估计**,替代传统集成或概率方法
- **单次前向传播**:利用冻结表示和轻量级头消除重复采样开销,显著提升**推理效率(inference efficiency)**
- **支持连续动作空间**:不依赖离散动作令牌概率,适用于任意VLA架构
- **步骤条件建模**:通过注入轨迹阶段信息提升异常检测的时序感知能力
- 为**VLA模型置信度估计** 提供了一种**高效、通用、校准(calibrated)** 的新范式
- 在**LIBERO基准** 上大幅超越现有基线,尤其在**推理效率(inference efficiency)** 方面优势显著
- 在**真实机器人实验** 中验证了方法的有效性和实用性
- 开源代码和补充视频促进社区复现与后续研究