← 返回论文列表

PhAIL:真实机器人VLA基准与分布方法论
PhAIL: A Real-Robot VLA Benchmark and Distributional Methodology

作者: Sergey Arkhangelskiy
arXiv: 2605.29710v1
分类: cs.RO
📝 论文摘要
真实世界中视觉-语言-动作(VLA)策略的评估仍依赖于固定超时内的二元成功率,每个条件仅进行N≤25次试验,几乎从不包含置信区间或配对统计比较;这些样本量难以可靠地分辨相近的比较结果。我们提出PhAIL(物理人工智能排行榜,https://phail.ai),这是一个基于Franka FR3机器人(包含数据集、单次试验产物及端到端参考实现)的开放真实机器人基准,采用分布性评估方法:以成功时间累积分布函数(CDF)作为评估基元,并分离为两项任务。第一项是通过人类相对吞吐量(HRT)进行评分,这是一种带自举置信区间的无量纲标量,锚定于同一设备的人类遥操作。第二项是显著性检验(Kolmogorov-Smirnov检验,按物体计算并跨物体宏观平均)。在四个公开可用的VLA模型上,宏观平均KS检验在N≤30次试验(每个模型-物体单元)下解决了二元阈值指标无法区分的两组相近比较(GR00T vs. ACT, OpenPI vs. ACT);最接近的一对(OpenPI vs. GR00T)在我们的预算内仍未解决。评估中表现最佳的VLA模型每次操作的速度(RMST比值)比人类参考慢约7倍。

📊 核心分析

🎯 研究动机
- 现有真实机器人**视觉-语言-动作(Vision-Language-Action, VLA)** 策略评估几乎完全依赖固定超时的**二值成功率(binary success rate)**,且每条件滚动次数N≤25,几乎不提供**置信区间(confidence intervals)** 或**配对统计比较(paired statistical comparison)**。 - 这种小样本规模难以可靠地分辨性能接近的模型,导致评估结果不可靠。 - 需要一种更精确、具备统计意义的评估方法,以提升VLA策略比较的鲁棒性和可重复性。
🔧 核心方法
- 提出**PhAIL(Physical AI Leaderboard)** 开放基准,基于**Franka FR3** 机器人平台,提供数据集、逐滚动记录和端到端参考实现。 - 采用**分布评估方法论(distributional evaluation methodology)**,核心基元是**时间到成功累积分布函数(time-to-success cumulative distribution function, TTS-CDF)**。 - 评估包含两个分离任务:第一,**人类相对吞吐量(Human-Relative Throughput, HRT)**,即无量纲标量,附带**bootstrap置信区间(bootstrap confidence intervals)**,以同一装置的**人类遥操作(human teleoperation)** 为锚点;第二,通过**Kolmogorov-Smirnov检验(Kolmogorov-Smirnov test)** 进行显著性检验,每个物体单独计算后**宏平均(macro-averaged)**。
💡 核心创新
- **首创性**:首次将**时间到成功累积分布函数(TTS-CDF)** 作为VLA策略评估的基本单元,替代传统的二值成功率。 - **统计严谨性**:引入**HRT标量** 与**bootstrap置信区间** 实现定量打分,并采用**KS显著性检验** 进行配对统计比较,有效在小样本(N≤30)下分辨接近的模型。 - **可复现与标准化**:以真实机器人平台和开源基准(含数据集、实现)提供标准评估框架,锚定人类性能作为参考。
🏆 总体贡献
- 为**VLA策略评估** 领域提供了更精确、统计上可靠的**分布评估方法论(distributional evaluation methodology)**,显著提升小样本下模型比较的分辨力。 - 在四个公开VLA模型上验证:宏平均KS测试在N≤30时成功分辨了GR00T vs ACT、OpenPI vs ACT等接近比较,而二值阈值指标无法做到。 - 揭示了当前最优VLA模型(最慢)比人类遥操作慢约7倍(基于**RMST比率(RMST ratio)**),为后续研究提供性能基准。 - 开源了完整的基准、数据集和参考实现,便于社区复现和扩展。