- 现有**视觉-语言-动作(VLA)** 模型在**分布偏移(distribution shift)** 下常失败,因为决策可能依赖**虚假视觉相关性(spurious visual correlations)** 而非任务相关原因
- 缺乏有效方法诊断**因果失调(causal misalignment)**,即模型是否真正关注任务相关的视觉区域
- 需要一种**干预性(interventional)** 归因方法,从因果角度理解VLA决策机制
- 提出**干预显著性分数(Interventional Significance Score, ISS)**,一种**干预掩蔽(interventional masking)** 程序,用于估计视觉区域对动作预测的**因果影响(causal influence)**
- 提出**干扰质量比(Nuisance Mass Ratio, NMR)**,标量度量,衡量对**任务无关特征(task-irrelevant features)** 的归因程度
- 理论分析表明ISS可进行**无偏估计(unbiased estimation)**,并刻画了**动作预测误差(action prediction error)** 作为因果影响有效代理的条件
- **首创性**:将视觉-动作归因形式化为**干预估计(interventional estimation)** 问题,区别于现有基于相关性或梯度的可解释性方法
- **因果诊断**:通过NMR量化模型对无关特征的依赖程度,从而预测**泛化行为(generalization behavior)**
- **统计保证**:证明ISS无偏性,并提供代理有效性条件,增强归因的**理论可靠性(theoretical reliability)**
- 为**具身策略(embodied policies)** 提供了一种**简单诊断方法(simple diagnostic approach)**,用于识别因果失调
- 实验表明ISS比现有可解释性方法产生更**忠实的解释(faithful explanations)**,NMR能预测泛化性能
- 推动了**具身可解释性(embodied interpretability)** 领域发展,建立了因果理解与泛化之间的直接联系