← 返回论文列表

ReMoGen:通过多样化数据的模块化学习实现实时人体交互到反应生成
ReMoGen: Real-time Human Interaction-to-Reaction Generation via Modular Learning from Diverse Data

作者: Yaoqin Ye, Yiteng Xu, Qin Sun 等6人
arXiv: 2604.01082v1
分类: cs.CV, cs.GR
📝 论文摘要
现实环境中的人类行为本质上是交互性的,个体的运动轨迹受到周围智能体与场景的共同塑造。这种能力对于虚拟化身、交互式动画和人机协作等应用至关重要。我们聚焦于实时的人类交互-反应生成任务,即从动态多源线索(包括他人动作、场景几何结构及可选的高层语义输入)中生成主体未来的运动轨迹。该任务面临两大根本性挑战:(一)交互数据分散在异构的单人、人-人、人-场景等多个领域,呈现碎片化且规模有限;(二)需要在持续在线交互过程中生成低延迟、高保真的运动响应。为应对这些挑战,我们提出ReMoGen(反应运动生成)——一个面向实时交互-反应生成的模块化学习框架。该框架利用从大规模单人运动数据中学习的通用运动先验,通过独立训练的元交互模块将其适配至目标交互领域,从而在数据稀缺和异构监督条件下实现鲁棒泛化。为支持响应式在线交互,ReMoGen采用分段生成策略,并配备轻量级的帧级分段优化模块,该模块能在帧级别整合新观测到的交互线索,在不依赖昂贵全序列推理的前提下,同步提升系统响应速度与时间连贯性。通过在人-人交互、人-场景交互及混合模态交互场景中的大量实验表明,ReMoGen能够生成高质量、连贯且响应迅速的运动反应,并在多样化交互情境中展现出卓越的泛化能力。

📊 核心分析

🎯 研究动机
该论文旨在解决实时人机交互中的反应动作生成问题。研究背景是:真实环境中的人类行为本质上是交互式的,个体的动作受到周围智能体和场景的影响。这种能力对于虚拟化身、交互式动画和人机协作等应用至关重要。具体挑战包括:(i) 交互数据有限且分散在异构的单人、人-人和人-场景领域;(ii) 需要在连续在线交互中产生低延迟且高保真的动作响应。
🔧 核心方法
论文提出了ReMoGen(反应动作生成)框架,这是一个用于实时交互到反应生成的模块化学习框架。具体方法包括: - 从大规模单人动作数据集中学习通用动作先验(universal motion prior) - 通过独立训练的元交互(Meta-Interaction)模块将该先验适应到目标交互领域 - 采用分段级(segment-level)生成策略 - 引入轻量级的帧级分段细化(Frame-wise Segment Refinement)模块,在帧级别整合新观察到的线索
💡 核心创新
论文的核心创新点包括: - **模块化学习框架**:通过分离通用动作先验和领域特定交互模块,解决了数据稀缺和异构监督下的泛化问题 - **两阶段生成策略**:结合分段级生成和帧级细化,在保持高质量的同时实现实时响应 - **元交互模块设计**:独立训练的交互模块可以灵活适应不同交互场景(人-人、人-场景等) - **在线推理优化**:避免了昂贵的全序列推理,通过轻量级帧级处理提高响应速度和时序连贯性
🏆 总体贡献
论文对该领域的整体贡献包括: - 提出了首个专门针对实时交互到反应生成的模块化学习框架 - 解决了交互数据分散和异构监督下的模型泛化问题 - 实现了高质量、连贯且响应迅速的动作生成,在延迟和保真度之间取得了良好平衡 - 通过大量实验验证了方法在人-人、人-场景和混合模态交互设置中的有效性和泛化能力