Pre-VLA：面向可靠视觉-语言-动作及世界模型推演的预占式运行时验证

📝 论文摘要

尽管大规模视觉-语言-动作（VLA）模型与生成式世界模型（WM）推动了长程具身智能的发展，但其实际部署仍面临基于学习的动作生成中的不确定性挑战。低质量动作可能在执行阶段引发物理故障，或导致世界模型展开出现误导性结果并产生冗余渲染开销。为解决此问题，我们提出Pre-VLA——一种统一的运行时验证架构，可在物理执行或世界模型想象之前执行预判式动作有效性评估。Pre-VLA利用高效多模态骨干网络，结合模态感知池化与轻量级双分支头，预测候选动作块的安全置信度与基于评论家的优势得分。为处理严重的类别不平衡与边界决策不稳定问题，我们采用多任务训练目标训练Pre-VLA，该目标融合焦点分类、优势回归与软阈值校准。在部署阶段，双模式预判式重采样调度器过滤低质量动作，并在有限计算预算下触发自适应重采样。在LIBERO基准上的实验表明，与RynnVLA-002相比，Pre-VLA将四个套件的平均闭环成功率从30.79%提升至37.62%，减少了任务执行步数，每个动作块的平均前向验证时间为183.9毫秒，并缓解了世界模型展开中的误差累积。

🎯 研究动机

- 大型**视觉-语言-动作(Vision-Language-Action, VLA)** 模型和**生成式世界模型(Generative World Model)** 在长程具身智能中面临**不确定性** 问题 - 低质量动作可能导致物理执行失败或产生误导性的世界模型展开，造成冗余渲染成本 - 现有方法缺乏在动作执行或世界模型想象前进行有效运行时验证的机制

🔧 核心方法

- 提出**Pre-VLA** 统一运行时验证架构，在物理执行或世界模型想象前进行**预emptive(先发制人)** 动作有效性评估 - 使用**高效多模态骨干(backbone)** 结合**模态感知池化(modality-aware pooling)** 和轻量**双分支头(dual-branch head)**，同时预测**安全置信度(safety confidence)** 和**优势分数(advantage score)** - 采用**多任务目标(multi-task objective)** 训练，融合**Focal分类(Focal classification)**、**优势回归(advantage regression)** 和**软阈值校准(soft-threshold calibration)** 以处理类别不平衡和边界决策不稳定 - 部署时使用**双模式预emptive重采样调度器(dual-mode preemptive resampling scheduler)**，在有限计算预算下过滤低质量动作并触发自适应重采样

💡 核心创新

- **首次** 将**预emptive运行时验证(preemptive runtime verification)** 引入VLA和世界模型展开，在动作执行前评估其有效性 - 提出**模态感知池化** 和**轻量双分支头** 设计，高效融合多模态特征并同时预测安全与优势维度 - 创新性使用**多任务损失函数** 组合处理严重的**类别不平衡(class imbalance)** 和**边界决策(boundary decision)** 问题 - 设计**双模式自适应重采样调度器**，在计算预算约束下动态过滤低质量动作，避免冗余渲染

🏆 总体贡献

- 在**LIBERO基准** 上，将RynnVLA-002的平均闭环成功率从30.79%提升至37.62%，提升了约6.8个百分点 - 减少了任务执行步骤，并实现了每个动作块平均183.9ms的前向验证时间 - 有效缓解了世界模型展开中的误差累积问题，提升了生成式世界模型的可靠性 - 为**具身智能(Embodied Intelligence)** 中的运行时验证提供了一种统一、高效的范式

Pre-VLA：面向可靠视觉-语言-动作及世界模型推演的预占式运行时验证
Pre-VLA: Preemptive Runtime Verification for Reliable Vision-Language-Action and World-Model Rollouts

📊 核心分析

Pre-VLA：面向可靠视觉-语言-动作及世界模型推演的预占式运行时验证 Pre-VLA: Preemptive Runtime Verification for Reliable Vision-Language-Action and World-Model Rollouts

📊 核心分析

Pre-VLA：面向可靠视觉-语言-动作及世界模型推演的预占式运行时验证
Pre-VLA: Preemptive Runtime Verification for Reliable Vision-Language-Action and World-Model Rollouts