ReMoGen：通过多样化数据的模块化学习实现实时人体交互到反应生成

📝 论文摘要

现实环境中的人类行为本质上是交互性的，个体的运动轨迹受到周围智能体与场景的共同塑造。这种能力对于虚拟化身、交互式动画和人机协作等应用至关重要。我们聚焦于实时的人类交互-反应生成任务，即从动态多源线索（包括他人动作、场景几何结构及可选的高层语义输入）中生成主体未来的运动轨迹。该任务面临两大根本性挑战：（一）交互数据分散在异构的单人、人-人、人-场景等多个领域，呈现碎片化且规模有限；（二）需要在持续在线交互过程中生成低延迟、高保真的运动响应。为应对这些挑战，我们提出ReMoGen（反应运动生成）——一个面向实时交互-反应生成的模块化学习框架。该框架利用从大规模单人运动数据中学习的通用运动先验，通过独立训练的元交互模块将其适配至目标交互领域，从而在数据稀缺和异构监督条件下实现鲁棒泛化。为支持响应式在线交互，ReMoGen采用分段生成策略，并配备轻量级的帧级分段优化模块，该模块能在帧级别整合新观测到的交互线索，在不依赖昂贵全序列推理的前提下，同步提升系统响应速度与时间连贯性。通过在人-人交互、人-场景交互及混合模态交互场景中的大量实验表明，ReMoGen能够生成高质量、连贯且响应迅速的运动反应，并在多样化交互情境中展现出卓越的泛化能力。

🎯 研究动机

该论文旨在解决实时人机交互中的反应动作生成问题。研究背景是：真实环境中的人类行为本质上是交互式的，个体的动作受到周围智能体和场景的影响。这种能力对于虚拟化身、交互式动画和人机协作等应用至关重要。具体挑战包括：(i) 交互数据有限且分散在异构的单人、人-人和人-场景领域；(ii) 需要在连续在线交互中产生低延迟且高保真的动作响应。

🔧 核心方法

论文提出了ReMoGen（反应动作生成）框架，这是一个用于实时交互到反应生成的模块化学习框架。具体方法包括： - 从大规模单人动作数据集中学习通用动作先验(universal motion prior) - 通过独立训练的元交互(Meta-Interaction)模块将该先验适应到目标交互领域 - 采用分段级(segment-level)生成策略 - 引入轻量级的帧级分段细化(Frame-wise Segment Refinement)模块，在帧级别整合新观察到的线索

💡 核心创新

论文的核心创新点包括： - **模块化学习框架**：通过分离通用动作先验和领域特定交互模块，解决了数据稀缺和异构监督下的泛化问题 - **两阶段生成策略**：结合分段级生成和帧级细化，在保持高质量的同时实现实时响应 - **元交互模块设计**：独立训练的交互模块可以灵活适应不同交互场景（人-人、人-场景等） - **在线推理优化**：避免了昂贵的全序列推理，通过轻量级帧级处理提高响应速度和时序连贯性

🏆 总体贡献

论文对该领域的整体贡献包括： - 提出了首个专门针对实时交互到反应生成的模块化学习框架 - 解决了交互数据分散和异构监督下的模型泛化问题 - 实现了高质量、连贯且响应迅速的动作生成，在延迟和保真度之间取得了良好平衡 - 通过大量实验验证了方法在人-人、人-场景和混合模态交互设置中的有效性和泛化能力

ReMoGen：通过多样化数据的模块化学习实现实时人体交互到反应生成
ReMoGen: Real-time Human Interaction-to-Reaction Generation via Modular Learning from Diverse Data

📊 核心分析

ReMoGen：通过多样化数据的模块化学习实现实时人体交互到反应生成 ReMoGen: Real-time Human Interaction-to-Reaction Generation via Modular Learning from Diverse Data

📊 核心分析

ReMoGen：通过多样化数据的模块化学习实现实时人体交互到反应生成
ReMoGen: Real-time Human Interaction-to-Reaction Generation via Modular Learning from Diverse Data