- 现有真实机器人**视觉-语言-动作(Vision-Language-Action, VLA)** 策略评估几乎完全依赖固定超时的**二值成功率(binary success rate)**,且每条件滚动次数N≤25,几乎不提供**置信区间(confidence intervals)** 或**配对统计比较(paired statistical comparison)**。
- 这种小样本规模难以可靠地分辨性能接近的模型,导致评估结果不可靠。
- 需要一种更精确、具备统计意义的评估方法,以提升VLA策略比较的鲁棒性和可重复性。
- 提出**PhAIL(Physical AI Leaderboard)** 开放基准,基于**Franka FR3** 机器人平台,提供数据集、逐滚动记录和端到端参考实现。
- 采用**分布评估方法论(distributional evaluation methodology)**,核心基元是**时间到成功累积分布函数(time-to-success cumulative distribution function, TTS-CDF)**。
- 评估包含两个分离任务:第一,**人类相对吞吐量(Human-Relative Throughput, HRT)**,即无量纲标量,附带**bootstrap置信区间(bootstrap confidence intervals)**,以同一装置的**人类遥操作(human teleoperation)** 为锚点;第二,通过**Kolmogorov-Smirnov检验(Kolmogorov-Smirnov test)** 进行显著性检验,每个物体单独计算后**宏平均(macro-averaged)**。
- **首创性**:首次将**时间到成功累积分布函数(TTS-CDF)** 作为VLA策略评估的基本单元,替代传统的二值成功率。
- **统计严谨性**:引入**HRT标量** 与**bootstrap置信区间** 实现定量打分,并采用**KS显著性检验** 进行配对统计比较,有效在小样本(N≤30)下分辨接近的模型。
- **可复现与标准化**:以真实机器人平台和开源基准(含数据集、实现)提供标准评估框架,锚定人类性能作为参考。
- 为**VLA策略评估** 领域提供了更精确、统计上可靠的**分布评估方法论(distributional evaluation methodology)**,显著提升小样本下模型比较的分辨力。
- 在四个公开VLA模型上验证:宏平均KS测试在N≤30时成功分辨了GR00T vs ACT、OpenPI vs ACT等接近比较,而二值阈值指标无法做到。
- 揭示了当前最优VLA模型(最慢)比人类遥操作慢约7倍(基于**RMST比率(RMST ratio)**),为后续研究提供性能基准。
- 开源了完整的基准、数据集和参考实现,便于社区复现和扩展。