该论文旨在解决实时人机交互中的反应动作生成问题。研究背景是:真实环境中的人类行为本质上是交互式的,个体的动作受到周围智能体和场景的影响。这种能力对于虚拟化身、交互式动画和人机协作等应用至关重要。具体挑战包括:(i) 交互数据有限且分散在异构的单人、人-人和人-场景领域;(ii) 需要在连续在线交互中产生低延迟且高保真的动作响应。
论文提出了ReMoGen(反应动作生成)框架,这是一个用于实时交互到反应生成的模块化学习框架。具体方法包括:
- 从大规模单人动作数据集中学习通用动作先验(universal motion prior)
- 通过独立训练的元交互(Meta-Interaction)模块将该先验适应到目标交互领域
- 采用分段级(segment-level)生成策略
- 引入轻量级的帧级分段细化(Frame-wise Segment Refinement)模块,在帧级别整合新观察到的线索
论文的核心创新点包括:
- **模块化学习框架**:通过分离通用动作先验和领域特定交互模块,解决了数据稀缺和异构监督下的泛化问题
- **两阶段生成策略**:结合分段级生成和帧级细化,在保持高质量的同时实现实时响应
- **元交互模块设计**:独立训练的交互模块可以灵活适应不同交互场景(人-人、人-场景等)
- **在线推理优化**:避免了昂贵的全序列推理,通过轻量级帧级处理提高响应速度和时序连贯性
论文对该领域的整体贡献包括:
- 提出了首个专门针对实时交互到反应生成的模块化学习框架
- 解决了交互数据分散和异构监督下的模型泛化问题
- 实现了高质量、连贯且响应迅速的动作生成,在延迟和保真度之间取得了良好平衡
- 通过大量实验验证了方法在人-人、人-场景和混合模态交互设置中的有效性和泛化能力