- 现有**零样本外观基3D视线估计(zero-shot appearance-based 3D gaze estimation)** 在**人机交互(Human-Robot Interaction, HRI)** 场景中的可靠性尚未明确
- 既有基准忽略了HRI基本条件,如动态摄像头视角和视频中的移动目标
- 当前跨数据集评估存在**复杂性差距(complexity gap)**,训练集多样但测试集单一,无法评估真实鲁棒性
- 构建**Gaze4HRI** 大规模数据集,包含50+名受试者、3000+视频、600000+帧,覆盖光照、头眼冲突、相机运动、视线目标运动等HRI关键变量
- 使用该数据集对多种**视线估计神经网络(gaze estimation neural networks)** 进行零样本基准测试
- 分析各方法在不同条件下的失败模式,并对比**ETH-X-Gaze** 等训练数据的影响
- **首次** 针对HRI场景设计系统性基准,评估光照、头眼冲突、相机与目标运动等变量,而非仅静态或单一条件
- 揭示所有评估方法至少在一个条件下失败,且**陡峭向下凝视(steeply-downward gaze)** 是普遍失败点
- 发现**PureGaze** 结合**ETH-X-Gaze** 数据集能保持跨条件鲁棒性,挑战了近年**复杂时空建模(complex spatial-temporal modeling)** 和**Transformer架构(Transformer-based architectures)** 的主流方向
- 提出数据多样性(如ETH-X-Gaze)是零样本鲁棒性的主要驱动力,而**自对抗损失(self-adversarial loss)** 等韧性增强框架可进一步改进
- 为HRI领域提供**首个专门的大规模零样本视线估计基准**,涵盖实际交互中的动态变量
- 明确为从业者提供实用指南:优先关注数据多样性而非复杂模型架构
- 通过开源数据集和代码(https://gazeforhri.github.io)促进社区复现与后续研究
- 重塑该领域未来研究方向,将关注点从架构创新转向数据多样性和鲁棒性增强