该论文旨在解决歌唱语音合成(singing voice synthesis)中一个关键挑战:如何在修改歌词的同时保持旋律的一致性。现有方法要么可控性有限,要么需要繁琐的人工对齐(manual alignment)工作。
论文提出了一个名为YingMusic-Singer的完全基于扩散模型(diffusion-based model)的系统。其核心方法包括:
- 模型接受三个输入:可选音色参考、提供旋律的歌唱片段、以及修改后的歌词,整个过程无需人工对齐。
- 在训练中采用了课程学习(curriculum learning)和组相对策略优化(Group Relative Policy Optimization)技术。
- 同时,论文还引入了首个用于评估旋律保持型歌词修改的基准测试LyricEditBench。
论文的核心创新点在于:
- 提出了首个完全基于扩散模型的、支持灵活歌词操纵且无需人工对齐的旋律可控歌唱语音合成系统。
- 通过创新的训练策略(课程学习和组相对策略优化),在无需对齐标注的情况下,实现了比现有最佳基线(Vevo2)更强的旋律保持能力和歌词遵循能力。
- 创建了该任务领域的首个评估基准LyricEditBench,填补了方法论评估的空白。
论文对该领域的整体贡献包括:
- 技术贡献:提出了一个高性能、高可控性的歌唱语音合成新框架YingMusic-Singer,显著提升了在歌词修改场景下的旋律保持性能。
- 基准贡献:建立了首个用于旋律保持型歌词修改任务的标准化评估基准LyricEditBench,为后续研究提供了可靠的比较平台。
- 资源贡献:公开了代码、模型权重、基准测试和演示,促进了该研究方向的开放性和可复现性。