- 解决**人机交互(HRI)** 中**早期动作识别(early action recognition)** 问题,机器人需从不完整观测中快速识别人类动作以提供即时反馈
- 现有方法主要关注**整体动作(holistic actions)**,忽略了动作内部**子动作(sub-action)** 的丰富语义和层次结构,导致早期识别效果不佳
- 研究背景:人类动作本质上是结构化的,可分解为有意义的子单元,利用子动作语义有助于在部分序列上实现鲁棒识别
- 提出**SASI(子动作语义集成跨模态融合)框架**,融合**时空特征(spatiotemporal features)** 与**子动作语义(sub-action semantics)**
- 使用**分割模型** 提取细粒度子动作语义,结合**基于骨架的图卷积网络(skeleton-based GCN)** 捕获整体空间上下文
- 实现**实时运行(real-time)**,频率达29Hz,满足交互延迟要求
- 在**BABEL** 数据集(带帧级标注的骨架数据集)上进行训练和评估
- **首次** 将**子动作语义(sub-action semantics)** 显式集成至**跨模态融合(cross-modal fusion)** 框架中,用于早期动作识别
- 利用**子动作的层次结构(hierarchical structure)** 提供语义线索,区别于传统方法仅关注整体动作的单一表示
- 通过**分割模型+图卷积网络** 的组合,在保持实时性的同时捕获细粒度与全局特征,支持部分序列理解
- 揭示了子动作分割质量提升可带来额外准确率增益,为未来优化提供方向
- 为**人机交互(HRI)** 领域提供了一种新颖的**早期动作识别范式**,显著提升了部分观测下的识别鲁棒性
- 在**BABEL** 数据集上相比传统方法取得更高的识别准确率,尤其在早期(不完整)动作序列上表现优越
- 开源代码(https://anonymous.4open.science/r/SASI)促进社区复现与后续研究,推动**子动作语义** 在动作理解中的应用