该论文旨在解决文本到动作生成(text-to-motion generation)领域的两个关键问题:
- 扩散模型(diffusion models)在噪声预测(noise prediction)过程中存在误差放大(error amplification)问题。
- 自回归模型(autoregressive models)由于动作离散化(motion discretization)容易导致模式崩溃(mode collapse)。
研究背景是文本到动作生成在动画、虚拟现实(virtual reality)、机器人学(robotics)和人机交互(human-computer interaction)等领域具有广泛应用前景。
论文提出了一个名为基于坐标的双约束自回归动作生成(Coordinate-based Dual-Constrained Autoregressive Motion Generation, CDAMD)的框架:
- 采用基于坐标(coordinate-based)的动作表示作为输入。
- 遵循自回归(autoregressive)范式进行生成。
- 利用受扩散模型启发的多层感知机(diffusion-inspired multi-layer perceptrons)来增强预测动作的保真度(fidelity)。
- 引入了双约束因果掩码(Dual-Constrained Causal Mask)来指导自回归生成,其中动作令牌(motion tokens)作为先验(priors)并与文本编码(textual encodings)进行拼接(concatenated)。
论文的核心创新点主要体现在三个方面:
1. **框架设计创新**:首次将基于坐标的动作表示与自回归生成范式相结合,提出了一种灵活的混合架构,同时借鉴了扩散模型的优势来提升保真度。
2. **约束机制创新**:提出了新颖的双约束因果掩码(Dual-Constrained Causal Mask),通过将动作令牌作为先验信息与文本编码结合,有效引导生成过程,缓解了自回归模型固有的模式崩溃问题。
3. **基准建立创新**:由于基于坐标的动作合成(coordinate-based motion synthesis)研究有限,论文为此方向建立了新的文本到动作生成和动作编辑(motion editing)基准(benchmarks),推动了该子领域的发展。
论文对该领域的整体贡献包括:
- 提出了一个高保真度(high-fidelity)且语义忠实(semantically faithful)的文本到动作生成框架CDAMD,在自回归框架中成功融合了扩散模型的优点。
- 在新建的基准上,实验结果表明该方法在保真度和语义一致性(semantic consistency)方面达到了最先进的(state-of-the-art)性能。
- 为基于坐标的动作合成这一相对未被充分探索的方向建立了评估基准,为后续研究提供了重要的基础和比较标准。