← 返回论文列表

Gaze4HRI: 面向人机交互的凝视估计神经网络的零样本基准测试
Gaze4HRI: Zero-shot Benchmarking Gaze Estimation Neural-Networks for Human-Robot Interaction

作者: Berk Sezer, Ali Görkem Küçük, Erol Şahin 等4人
arXiv: 2605.04770v1
分类: cs.CV, cs.HC, cs.LG, cs.RO
📝 论文摘要
虽然基于外观的零样本3D视线估计通过直接将RGB图像映射到视线向量提供了显著的成本效率,但其在人机交互(HRI)场景中的可靠性仍不确定。现有基准测试常常忽略基本的HRI条件,例如视频中的动态相机视角和移动目标。此外,当前的跨数据集评估通常存在复杂度差距,即在多样化数据集上训练的方法被在规模明显更小、变化更少的数据集上测试,从而无法评估真正的鲁棒性。为弥补这些不足,我们引入了Gaze4HRI——一个大规模数据集(50余名受试者、3000余段视频、60万余帧),旨在评估针对关键HRI变量的最新性能:光照、头部-视线冲突,以及视频中相机和视线目标的运动。我们的基准测试揭示,所有被评估的方法至少在一种条件下失败,其中陡峭向下的视线被识别为普遍失效点。值得注意的是,基于ETH-X-Gaze数据集训练的PureGaze方法在所有其他条件下保持了独有的鲁棒性。这些结果对近期文献中专注于复杂时空建模和基于Transformer架构的研究方向提出了挑战。相反,我们的发现表明,以ETH-X-Gaze数据集为代表的大规模数据多样性,是非约束环境下零样本鲁棒性的主要驱动因素,而像PureGaze的自对抗损失用于视线特征净化这类增强鲁棒性的框架,则带来了显著的进一步改进。最终,本研究建立了一个严格的基准,为从业者提供实用指南,并重塑未来研究方向。数据集和代码见 https://gazeforhri.github.io。

📊 核心分析

🎯 研究动机
- 现有**零样本外观基3D视线估计(zero-shot appearance-based 3D gaze estimation)** 在**人机交互(Human-Robot Interaction, HRI)** 场景中的可靠性尚未明确 - 既有基准忽略了HRI基本条件,如动态摄像头视角和视频中的移动目标 - 当前跨数据集评估存在**复杂性差距(complexity gap)**,训练集多样但测试集单一,无法评估真实鲁棒性
🔧 核心方法
- 构建**Gaze4HRI** 大规模数据集,包含50+名受试者、3000+视频、600000+帧,覆盖光照、头眼冲突、相机运动、视线目标运动等HRI关键变量 - 使用该数据集对多种**视线估计神经网络(gaze estimation neural networks)** 进行零样本基准测试 - 分析各方法在不同条件下的失败模式,并对比**ETH-X-Gaze** 等训练数据的影响
💡 核心创新
- **首次** 针对HRI场景设计系统性基准,评估光照、头眼冲突、相机与目标运动等变量,而非仅静态或单一条件 - 揭示所有评估方法至少在一个条件下失败,且**陡峭向下凝视(steeply-downward gaze)** 是普遍失败点 - 发现**PureGaze** 结合**ETH-X-Gaze** 数据集能保持跨条件鲁棒性,挑战了近年**复杂时空建模(complex spatial-temporal modeling)** 和**Transformer架构(Transformer-based architectures)** 的主流方向 - 提出数据多样性(如ETH-X-Gaze)是零样本鲁棒性的主要驱动力,而**自对抗损失(self-adversarial loss)** 等韧性增强框架可进一步改进
🏆 总体贡献
- 为HRI领域提供**首个专门的大规模零样本视线估计基准**,涵盖实际交互中的动态变量 - 明确为从业者提供实用指南:优先关注数据多样性而非复杂模型架构 - 通过开源数据集和代码(https://gazeforhri.github.io)促进社区复现与后续研究 - 重塑该领域未来研究方向,将关注点从架构创新转向数据多样性和鲁棒性增强