该论文旨在解决从自然语言生成逼真3D手部动作的问题。研究背景是:现有方法要么专注于全身动作而忽略了详细的手部手势,要么需要显式的3D物体网格,这限制了方法的通用性。该研究对于虚拟现实(VR)、机器人学和人机交互领域至关重要。
论文提出了TSHaMo,这是一个模型无关的师生扩散框架(teacher-student diffusion framework)。具体方法包括:
- 学生模型(student model)学习仅从文本(text)合成动作。
- 教师模型(teacher model)利用辅助信号(如MANO参数)在训练期间提供结构化指导。
- 采用协同训练策略(co-training strategy),使学生模型在训练时能从教师模型的中间预测中受益,而在推理时仅依赖文本。
- 该方法在GRAB和H2O数据集上使用两种扩散主干网络(diffusion backbones)进行了评估。
论文的核心创新点在于提出了一个新颖的模型无关的师生扩散框架,用于文本驱动的3D手部动作生成。其独特之处在于:
- 引入了协同训练策略,使纯文本驱动的学生模型能够通过教师模型提供的结构化辅助信号(如MANO参数)获得指导,而无需在测试时使用这些辅助信号或3D物体。
- 实现了训练与推理的解耦:训练时利用丰富的辅助信息提升模型性能,推理时仅需文本输入,提高了实用性和泛化能力。
- 与现有工作相比,该方法既避免了全身动作生成方法对手部细节的忽视,又克服了依赖显式3D物体网格的限制。
论文对该领域的整体贡献包括:
- 提出了TSHaMo框架,在GRAB和H2O数据集上一致地提升了动作生成的质量和多样性。
- 通过消融实验(ablations)证实了该框架的鲁棒性和灵活性,能够利用多样化的辅助输入,且在测试时无需3D物体。
- 为文本驱动的3D手部动作生成提供了一种有效的、模型无关的解决方案,推动了该领域向更通用、更实用的方向发展。