SASI: 在人机交互中利用子动作语义实现鲁棒的早期动作识别

📝 论文摘要

理解人类动作对于推进人机交互中的行为分析至关重要。特别是在需要快速主动反馈的任务中，机器人必须从部分观测结果中尽早识别人类动作。子动作提供了实现这一目标所需的语义和层级线索，因为人类动作本身具有结构性，可以分解为更小、更有意义的单元。然而，传统方法主要关注整体动作，往往忽略了嵌入在子动作中的丰富语义结构，因此难以适用于早期识别。为填补这一空白，我们提出了SASI（子动作语义集成跨模态融合）框架，该新型框架整合了现有图卷积网络，将时空特征与子动作语义相结合。SASI利用了一个分割模型与传统的基于骨架的图卷积网络，既能捕获细粒度的子动作语义，又能获取整体空间上下文信息，同时以29赫兹的帧率实时运行。在包含帧级标注的基于骨架的数据集BABEL上的实验表明，我们的方法相较于传统方法提高了识别准确率，且随着子动作分割质量的提升还可获得额外增益。值得注意的是，SASI在理解部分动作序列方面也表现出优越性能，揭示了其早期识别能力，这对于实现主动且无缝的人机交互至关重要。代码可在 https://anonymous.4open.science/r/SASI 获取。

🎯 研究动机

- 解决**人机交互(HRI)** 中**早期动作识别(early action recognition)** 问题，机器人需从不完整观测中快速识别人类动作以提供即时反馈 - 现有方法主要关注**整体动作(holistic actions)**，忽略了动作内部**子动作(sub-action)** 的丰富语义和层次结构，导致早期识别效果不佳 - 研究背景：人类动作本质上是结构化的，可分解为有意义的子单元，利用子动作语义有助于在部分序列上实现鲁棒识别

🔧 核心方法

- 提出**SASI（子动作语义集成跨模态融合）框架**，融合**时空特征(spatiotemporal features)** 与**子动作语义(sub-action semantics)** - 使用**分割模型** 提取细粒度子动作语义，结合**基于骨架的图卷积网络(skeleton-based GCN)** 捕获整体空间上下文 - 实现**实时运行(real-time)**，频率达29Hz，满足交互延迟要求 - 在**BABEL** 数据集（带帧级标注的骨架数据集）上进行训练和评估

💡 核心创新

- **首次** 将**子动作语义(sub-action semantics)** 显式集成至**跨模态融合(cross-modal fusion)** 框架中，用于早期动作识别 - 利用**子动作的层次结构(hierarchical structure)** 提供语义线索，区别于传统方法仅关注整体动作的单一表示 - 通过**分割模型+图卷积网络** 的组合，在保持实时性的同时捕获细粒度与全局特征，支持部分序列理解 - 揭示了子动作分割质量提升可带来额外准确率增益，为未来优化提供方向

🏆 总体贡献

- 为**人机交互(HRI)** 领域提供了一种新颖的**早期动作识别范式**，显著提升了部分观测下的识别鲁棒性 - 在**BABEL** 数据集上相比传统方法取得更高的识别准确率，尤其在早期（不完整）动作序列上表现优越 - 开源代码（https://anonymous.4open.science/r/SASI）促进社区复现与后续研究，推动**子动作语义** 在动作理解中的应用

SASI: 在人机交互中利用子动作语义实现鲁棒的早期动作识别
SASI: Leveraging Sub-Action Semantics for Robust Early Action Recognition in Human-Robot Interaction

📊 核心分析

SASI: 在人机交互中利用子动作语义实现鲁棒的早期动作识别 SASI: Leveraging Sub-Action Semantics for Robust Early Action Recognition in Human-Robot Interaction

📊 核心分析

SASI: 在人机交互中利用子动作语义实现鲁棒的早期动作识别
SASI: Leveraging Sub-Action Semantics for Robust Early Action Recognition in Human-Robot Interaction