Gaze4HRI: 面向人机交互的凝视估计神经网络的零样本基准测试

Gaze4HRI: Zero-shot Benchmarking Gaze Estimation Neural-Networks for Human-Robot Interaction

作者: Berk Sezer, Ali Görkem Küçük, Erol Şahin 等4人

arXiv: 2605.04770v1

分类: cs.CV, cs.HC, cs.LG, cs.RO

📝 论文摘要

虽然基于外观的零样本3D视线估计通过直接将RGB图像映射到视线向量提供了显著的成本效率，但其在人机交互（HRI）场景中的可靠性仍不确定。现有基准测试常常忽略基本的HRI条件，例如视频中的动态相机视角和移动目标。此外，当前的跨数据集评估通常存在复杂度差距，即在多样化数据集上训练的方法被在规模明显更小、变化更少的数据集上测试，从而无法评估真正的鲁棒性。为弥补这些不足，我们引入了Gaze4HRI——一个大规模数据集（50余名受试者、3000余段视频、60万余帧），旨在评估针对关键HRI变量的最新性能：光照、头部-视线冲突，以及视频中相机和视线目标的运动。我们的基准测试揭示，所有被评估的方法至少在一种条件下失败，其中陡峭向下的视线被识别为普遍失效点。值得注意的是，基于ETH-X-Gaze数据集训练的PureGaze方法在所有其他条件下保持了独有的鲁棒性。这些结果对近期文献中专注于复杂时空建模和基于Transformer架构的研究方向提出了挑战。相反，我们的发现表明，以ETH-X-Gaze数据集为代表的大规模数据多样性，是非约束环境下零样本鲁棒性的主要驱动因素，而像PureGaze的自对抗损失用于视线特征净化这类增强鲁棒性的框架，则带来了显著的进一步改进。最终，本研究建立了一个严格的基准，为从业者提供实用指南，并重塑未来研究方向。数据集和代码见 https://gazeforhri.github.io。

📊 核心分析

🎯 研究动机

- 现有**零样本外观基3D视线估计(zero-shot appearance-based 3D gaze estimation)** 在**人机交互(Human-Robot Interaction, HRI)** 场景中的可靠性尚未明确 - 既有基准忽略了HRI基本条件，如动态摄像头视角和视频中的移动目标 - 当前跨数据集评估存在**复杂性差距(complexity gap)**，训练集多样但测试集单一，无法评估真实鲁棒性

🔧 核心方法

- 构建**Gaze4HRI** 大规模数据集，包含50+名受试者、3000+视频、600000+帧，覆盖光照、头眼冲突、相机运动、视线目标运动等HRI关键变量 - 使用该数据集对多种**视线估计神经网络(gaze estimation neural networks)** 进行零样本基准测试 - 分析各方法在不同条件下的失败模式，并对比**ETH-X-Gaze** 等训练数据的影响

💡 核心创新

- **首次** 针对HRI场景设计系统性基准，评估光照、头眼冲突、相机与目标运动等变量，而非仅静态或单一条件 - 揭示所有评估方法至少在一个条件下失败，且**陡峭向下凝视(steeply-downward gaze)** 是普遍失败点 - 发现**PureGaze** 结合**ETH-X-Gaze** 数据集能保持跨条件鲁棒性，挑战了近年**复杂时空建模(complex spatial-temporal modeling)** 和**Transformer架构(Transformer-based architectures)** 的主流方向 - 提出数据多样性（如ETH-X-Gaze）是零样本鲁棒性的主要驱动力，而**自对抗损失(self-adversarial loss)** 等韧性增强框架可进一步改进

🏆 总体贡献

- 为HRI领域提供**首个专门的大规模零样本视线估计基准**，涵盖实际交互中的动态变量 - 明确为从业者提供实用指南：优先关注数据多样性而非复杂模型架构 - 通过开源数据集和代码（https://gazeforhri.github.io）促进社区复现与后续研究 - 重塑该领域未来研究方向，将关注点从架构创新转向数据多样性和鲁棒性增强