PhAIL：真实机器人VLA基准与分布方法论

📝 论文摘要

真实世界中视觉-语言-动作（VLA）策略的评估仍依赖于固定超时内的二元成功率，每个条件仅进行N≤25次试验，几乎从不包含置信区间或配对统计比较；这些样本量难以可靠地分辨相近的比较结果。我们提出PhAIL（物理人工智能排行榜，https://phail.ai），这是一个基于Franka FR3机器人（包含数据集、单次试验产物及端到端参考实现）的开放真实机器人基准，采用分布性评估方法：以成功时间累积分布函数（CDF）作为评估基元，并分离为两项任务。第一项是通过人类相对吞吐量（HRT）进行评分，这是一种带自举置信区间的无量纲标量，锚定于同一设备的人类遥操作。第二项是显著性检验（Kolmogorov-Smirnov检验，按物体计算并跨物体宏观平均）。在四个公开可用的VLA模型上，宏观平均KS检验在N≤30次试验（每个模型-物体单元）下解决了二元阈值指标无法区分的两组相近比较（GR00T vs. ACT, OpenPI vs. ACT）；最接近的一对（OpenPI vs. GR00T）在我们的预算内仍未解决。评估中表现最佳的VLA模型每次操作的速度（RMST比值）比人类参考慢约7倍。

🎯 研究动机

- 现有真实机器人**视觉-语言-动作(Vision-Language-Action, VLA)** 策略评估几乎完全依赖固定超时的**二值成功率(binary success rate)**，且每条件滚动次数N≤25，几乎不提供**置信区间(confidence intervals)** 或**配对统计比较(paired statistical comparison)**。 - 这种小样本规模难以可靠地分辨性能接近的模型，导致评估结果不可靠。 - 需要一种更精确、具备统计意义的评估方法，以提升VLA策略比较的鲁棒性和可重复性。

🔧 核心方法

- 提出**PhAIL(Physical AI Leaderboard)** 开放基准，基于**Franka FR3** 机器人平台，提供数据集、逐滚动记录和端到端参考实现。 - 采用**分布评估方法论(distributional evaluation methodology)**，核心基元是**时间到成功累积分布函数(time-to-success cumulative distribution function, TTS-CDF)**。 - 评估包含两个分离任务：第一，**人类相对吞吐量(Human-Relative Throughput, HRT)**，即无量纲标量，附带**bootstrap置信区间(bootstrap confidence intervals)**，以同一装置的**人类遥操作(human teleoperation)** 为锚点；第二，通过**Kolmogorov-Smirnov检验(Kolmogorov-Smirnov test)** 进行显著性检验，每个物体单独计算后**宏平均(macro-averaged)**。

💡 核心创新

- **首创性**：首次将**时间到成功累积分布函数(TTS-CDF)** 作为VLA策略评估的基本单元，替代传统的二值成功率。 - **统计严谨性**：引入**HRT标量** 与**bootstrap置信区间** 实现定量打分，并采用**KS显著性检验** 进行配对统计比较，有效在小样本(N≤30)下分辨接近的模型。 - **可复现与标准化**：以真实机器人平台和开源基准（含数据集、实现）提供标准评估框架，锚定人类性能作为参考。

🏆 总体贡献

- 为**VLA策略评估** 领域提供了更精确、统计上可靠的**分布评估方法论(distributional evaluation methodology)**，显著提升小样本下模型比较的分辨力。 - 在四个公开VLA模型上验证：宏平均KS测试在N≤30时成功分辨了GR00T vs ACT、OpenPI vs ACT等接近比较，而二值阈值指标无法做到。 - 揭示了当前最优VLA模型（最慢）比人类遥操作慢约7倍（基于**RMST比率(RMST ratio)**），为后续研究提供性能基准。 - 开源了完整的基准、数据集和参考实现，便于社区复现和扩展。

PhAIL：真实机器人VLA基准与分布方法论
PhAIL: A Real-Robot VLA Benchmark and Distributional Methodology

📊 核心分析

PhAIL：真实机器人VLA基准与分布方法论 PhAIL: A Real-Robot VLA Benchmark and Distributional Methodology

📊 核心分析

PhAIL：真实机器人VLA基准与分布方法论
PhAIL: A Real-Robot VLA Benchmark and Distributional Methodology