- 现有**具身智能(embodied AI)** 基准将细粒度操作能力压缩为**二元成功率(binary success rates)**,导致报告的能力被系统性高估(高达70%),且掩盖了阻碍真实部署的架构瓶颈
- 全局场景上下文不足以判断细粒度操作的成功,成功依赖于**局部属性定位(local attribute grounding)**、**高保真空间感知(high-fidelity spatial perception)** 和**遵守约束的运动执行(constraint-respecting motor execution)** 的紧密耦合
- 研究背景:当前评估范式从排名转向诊断的需求日益增长,需要将基准测试转变为修复能力的行动指南
- 提出**MetaFine**,一个**诊断性元评估框架(diagnostic meta-evaluation framework)**,沿三个轴解构操作能力:**理解(understanding)**、**感知(perception)** 和**控制行为(controlled behavior)**
- 基于**组合任务图(compositional task graph)**,吸收异构外部基准,在统一协议下重构为不同复杂度的诊断场景
- 通过**靶向因果干预(targeted causal intervention)**,识别出**视觉编码器(visual encoder)** 保持局部空间结构的能力是细粒度精度的关键瓶颈
- 支持**混合真实-仿真验证(hybrid real-sim validation)**,使用有限的配对真实世界 rollout 校准可扩展的仿真估计
- **首创性**:首次提出超越二元成功率的诊断性元评估框架,将评测从排名转向**诊断(diagnosis)**,揭示传统指标无法发现的维度特异性失败
- **因果分析驱动**:通过靶向因果干预明确指向**视觉编码器** 是瓶颈,并证明改进视觉编码器可直接解锁下游策略无法达到的操作能力,无需修改策略本身
- **统一协议与混合验证**:提供统一协议整合异构基准,并结合真实-仿真混合验证提升物理基准的稳定性
- 为**细粒度操作(fine-grained manipulation)** 领域提供了一种**诊断性评估范式(diagnostic evaluation paradigm)**,将基准测试转变为修复能力的行动指南
- 揭示了**视觉编码器** 在保持局部空间结构方面的瓶颈,为未来模型设计提供方向
- 将公开框架、基准和支持资源(项目页面:https://metafine.github.io/),促进社区复现与后续研究