该论文旨在解决机器人视觉-语言-动作(Vision-Language-Action, VLA)模型在序列任务中不确定性校准(uncertainty calibration)的评估与改进问题。研究背景是:尽管VLA模型在机器人领域取得了进展,但在序列任务(尤其是仅能观察到部分轨迹时)中,如何可靠地量化其不确定性仍是一个未被充分探索的领域。
论文提出了一个针对片段式任务(episodic tasks)的序列校准(sequential calibration)框架,其中任务成功置信度(task-success confidence)在片段中持续产生,而成功与否仅在片段结束时确定。
- 引入了Brier分数(Brier score)的序列扩展形式。
- 证明了对于二元结果,其风险最小化器(risk minimizer)与VLA策略的价值函数(value function)一致。
- 利用这种联系,将时间差分(Temporal-Difference, TD)价值估计作为一种原则性的、随时间演进的校准机制。
- 在模拟和真实机器人数据上进行了实证验证。
论文的核心创新点在于:
- **建立了不确定性校准与强化学习(reinforcement learning)之间的理论桥梁**:首次证明了在序列二元任务中,Brier分数的风险最小化器等价于策略的价值函数。这一理论发现是关键突破。
- **提出了时间差分校准(TD calibration)**:利用上述理论联系,创新性地将时间差分(TD)学习——一种经典的强化学习价值估计方法——转化为一种用于序列不确定性校准的机制。这是一种方法论的创新。
- **挑战了现有认知**:实证表明,当使用TD进行校准时,VLA模型的单步动作概率(single-step action probabilities)能够产生有竞争力的不确定性估计,这与近期采用不同校准技术的研究结论形成了对比。
论文对该领域的整体贡献包括:
- **理论贡献**:为序列任务中的不确定性校准问题提供了新的理论框架,明确了校准目标(最小化序列Brier分数)与强化学习价值函数之间的等价关系。
- **方法贡献**:提出了一种新颖且具有理论依据的TD校准方法,为改进VLA模型在序列决策中的校准性能提供了实用工具。
- **实证贡献**:在模拟和真实机器人数据上验证了TD校准相对于现有技术的优越性能,并揭示了VLA模型单步概率在TD校准下的新潜力,为未来研究和应用提供了新方向。