- 大型**视觉-语言-动作(Vision-Language-Action, VLA)** 模型和**生成式世界模型(Generative World Model)** 在长程具身智能中面临**不确定性** 问题
- 低质量动作可能导致物理执行失败或产生误导性的世界模型展开,造成冗余渲染成本
- 现有方法缺乏在动作执行或世界模型想象前进行有效运行时验证的机制
- 提出**Pre-VLA** 统一运行时验证架构,在物理执行或世界模型想象前进行**预emptive(先发制人)** 动作有效性评估
- 使用**高效多模态骨干(backbone)** 结合**模态感知池化(modality-aware pooling)** 和轻量**双分支头(dual-branch head)**,同时预测**安全置信度(safety confidence)** 和**优势分数(advantage score)**
- 采用**多任务目标(multi-task objective)** 训练,融合**Focal分类(Focal classification)**、**优势回归(advantage regression)** 和**软阈值校准(soft-threshold calibration)** 以处理类别不平衡和边界决策不稳定
- 部署时使用**双模式预emptive重采样调度器(dual-mode preemptive resampling scheduler)**,在有限计算预算下过滤低质量动作并触发自适应重采样
- **首次** 将**预emptive运行时验证(preemptive runtime verification)** 引入VLA和世界模型展开,在动作执行前评估其有效性
- 提出**模态感知池化** 和**轻量双分支头** 设计,高效融合多模态特征并同时预测安全与优势维度
- 创新性使用**多任务损失函数** 组合处理严重的**类别不平衡(class imbalance)** 和**边界决策(boundary decision)** 问题
- 设计**双模式自适应重采样调度器**,在计算预算约束下动态过滤低质量动作,避免冗余渲染
- 在**LIBERO基准** 上,将RynnVLA-002的平均闭环成功率从30.79%提升至37.62%,提升了约6.8个百分点
- 减少了任务执行步骤,并实现了每个动作块平均183.9ms的前向验证时间
- 有效缓解了世界模型展开中的误差累积问题,提升了生成式世界模型的可靠性
- 为**具身智能(Embodied Intelligence)** 中的运行时验证提供了一种统一、高效的范式