- 人类动作理解对**人机交互(Human-Robot Interaction, HRI)** 至关重要,尤其是在需要语义解释不熟悉或难以标注的动作时
- 收集足够标注数据用于**监督学习(supervised learning)** 在快速、罕见动作场景下困难,**零样本(zero-shot)** 方法成为实用替代方案
- 现有**大规模预训练模型(large-scale pretrained models)** 虽支持零样本推理,但**时间分辨率(temporal resolution)** 对快速、细粒度动作的影响尚未充分探索
- 提出一个**无需训练(training-free)** 的流水线,结合**预训练视频-语言模型(pre-trained video-language model)** 进行语义表示,以及**大语言模型(Large Language Model, LLM)** 进行成对动作比较推理
- 以**剑道(kendo)** 作为快速和微妙运动模式的代表案例,在多个帧率(**120 Hz、60 Hz、30 Hz**)下进行控制实验
- 使用**最近类原型(nearest-class prototype)** 策略进行定量评估,并分析**基于跟踪的人体关节信息(tracking-based joint information)** 在完整和部分观察场景下的作用
- **首次系统研究时间分辨率** 对零样本动作语义理解的影响,揭示更高帧率(120Hz)显著提升**语义可分性(semantic separability)**
- 提出**无需任务特定训练** 的流水线,避免监督学习的数据依赖,直接利用预训练模型和LLM进行推理
- **创新性实验设计**:对比多帧率(120/60/30 Hz),证明高速视频提供更稳定、可解释的语义表示,特别是对于快速动作
- 将**高速视觉(high-speed vision)** 与零样本学习结合,拓展了传统动作识别中对时间维度的理解
- **强调时间分辨率** 在**无需训练动作识别(training-free action recognition)** 中的关键作用,为高速相机在人机交互中的应用提供理论依据
- 为**零样本语义理解(zero-shot semantic understanding)** 中处理快速动作提供一种通用、有效的流水线方法
- 通过在**剑道** 这一典型案例上的定量分析,验证高速感知增强语义理解能力的可行性,推动快速动作理解领域的发展
- 研究结果有助于设计更鲁棒的**人机交互系统(Human-Robot Interaction systems)**,尤其是需要实时理解快速人类动作的场景