基于坐标的双约束自回归运动生成

📝 论文摘要

文本驱动动作生成在动画、虚拟现实、机器人及人机交互等领域具有广阔应用前景，近年来受到研究界日益关注。扩散模型与自回归模型是该领域并行发展的两大主流方向，但扩散模型常面临噪声预测过程中的误差累积问题，而自回归模型则因动作离散化易出现模式坍缩。为突破这些局限，我们提出一种灵活、高保真且语义忠实的新型文本驱动动作生成框架——基于坐标的双约束自回归动作生成模型。该模型以动作坐标为输入，遵循自回归范式，创新性地引入扩散启发的多层感知机来提升预测动作的保真度。通过设计双约束因果掩码机制，将动作标记作为先验信息与文本编码拼接，实现对自回归生成过程的精准引导。鉴于当前基于坐标的动作合成研究尚不充分，我们为此建立了涵盖文本驱动动作生成与动作编辑的全新基准测试体系。实验结果表明，我们的方法在这些基准测试中实现了保真度与语义一致性的最优性能。

🎯 研究动机

该论文旨在解决文本到动作生成(text-to-motion generation)领域的两个关键问题： - 扩散模型(diffusion models)在噪声预测(noise prediction)过程中存在误差放大(error amplification)问题。 - 自回归模型(autoregressive models)由于动作离散化(motion discretization)容易导致模式崩溃(mode collapse)。研究背景是文本到动作生成在动画、虚拟现实(virtual reality)、机器人学(robotics)和人机交互(human-computer interaction)等领域具有广泛应用前景。

🔧 核心方法

论文提出了一个名为基于坐标的双约束自回归动作生成(Coordinate-based Dual-Constrained Autoregressive Motion Generation, CDAMD)的框架： - 采用基于坐标(coordinate-based)的动作表示作为输入。 - 遵循自回归(autoregressive)范式进行生成。 - 利用受扩散模型启发的多层感知机(diffusion-inspired multi-layer perceptrons)来增强预测动作的保真度(fidelity)。 - 引入了双约束因果掩码(Dual-Constrained Causal Mask)来指导自回归生成，其中动作令牌(motion tokens)作为先验(priors)并与文本编码(textual encodings)进行拼接(concatenated)。

💡 核心创新

论文的核心创新点主要体现在三个方面： 1. **框架设计创新**：首次将基于坐标的动作表示与自回归生成范式相结合，提出了一种灵活的混合架构，同时借鉴了扩散模型的优势来提升保真度。 2. **约束机制创新**：提出了新颖的双约束因果掩码(Dual-Constrained Causal Mask)，通过将动作令牌作为先验信息与文本编码结合，有效引导生成过程，缓解了自回归模型固有的模式崩溃问题。 3. **基准建立创新**：由于基于坐标的动作合成(coordinate-based motion synthesis)研究有限，论文为此方向建立了新的文本到动作生成和动作编辑(motion editing)基准(benchmarks)，推动了该子领域的发展。

🏆 总体贡献

论文对该领域的整体贡献包括： - 提出了一个高保真度(high-fidelity)且语义忠实(semantically faithful)的文本到动作生成框架CDAMD，在自回归框架中成功融合了扩散模型的优点。 - 在新建的基准上，实验结果表明该方法在保真度和语义一致性(semantic consistency)方面达到了最先进的(state-of-the-art)性能。 - 为基于坐标的动作合成这一相对未被充分探索的方向建立了评估基准，为后续研究提供了重要的基础和比较标准。

基于坐标的双约束自回归运动生成
Coordinate-Based Dual-Constrained Autoregressive Motion Generation

📊 核心分析

基于坐标的双约束自回归运动生成 Coordinate-Based Dual-Constrained Autoregressive Motion Generation

📊 核心分析

基于坐标的双约束自回归运动生成
Coordinate-Based Dual-Constrained Autoregressive Motion Generation