YingMusic-Singer：具备灵活歌词操控与无标注旋律引导的可控歌唱语音合成系统

📝 论文摘要

在保持旋律一致性的同时，通过修改歌词实现歌声再生仍具挑战性，现有方法要么可控性有限，要么需要繁琐的人工对齐。我们提出YingMusic-Singer，这是一个完全基于扩散的模型，能够通过灵活的歌词操控实现旋律可控的歌声合成。该模型接收三个输入：可选的音色参考、提供旋律的演唱片段以及修改后的歌词，无需人工对齐。通过课程学习和组相对策略优化进行训练，YingMusic-Singer在旋律保持和歌词遵循方面优于最接近的基线模型Vevo2，后者同样支持无需人工对齐的旋律控制。我们还推出了LyricEditBench，这是首个用于评估保持旋律的歌词修改的基准测试。代码、权重、基准测试和演示均已在https://github.com/ASLP-lab/YingMusic-Singer公开提供。

🎯 研究动机

该论文旨在解决歌唱语音合成(singing voice synthesis)中一个关键挑战：如何在修改歌词的同时保持旋律的一致性。现有方法要么可控性有限，要么需要繁琐的人工对齐(manual alignment)工作。

🔧 核心方法

论文提出了一个名为YingMusic-Singer的完全基于扩散模型(diffusion-based model)的系统。其核心方法包括： - 模型接受三个输入：可选音色参考、提供旋律的歌唱片段、以及修改后的歌词，整个过程无需人工对齐。 - 在训练中采用了课程学习(curriculum learning)和组相对策略优化(Group Relative Policy Optimization)技术。 - 同时，论文还引入了首个用于评估旋律保持型歌词修改的基准测试LyricEditBench。

💡 核心创新

论文的核心创新点在于： - 提出了首个完全基于扩散模型的、支持灵活歌词操纵且无需人工对齐的旋律可控歌唱语音合成系统。 - 通过创新的训练策略（课程学习和组相对策略优化），在无需对齐标注的情况下，实现了比现有最佳基线（Vevo2）更强的旋律保持能力和歌词遵循能力。 - 创建了该任务领域的首个评估基准LyricEditBench，填补了方法论评估的空白。

🏆 总体贡献

论文对该领域的整体贡献包括： - 技术贡献：提出了一个高性能、高可控性的歌唱语音合成新框架YingMusic-Singer，显著提升了在歌词修改场景下的旋律保持性能。 - 基准贡献：建立了首个用于旋律保持型歌词修改任务的标准化评估基准LyricEditBench，为后续研究提供了可靠的比较平台。 - 资源贡献：公开了代码、模型权重、基准测试和演示，促进了该研究方向的开放性和可复现性。

YingMusic-Singer：具备灵活歌词操控与无标注旋律引导的可控歌唱语音合成系统
YingMusic-Singer: Controllable Singing Voice Synthesis with Flexible Lyric Manipulation and Annotation-free Melody Guidance

📊 核心分析

YingMusic-Singer：具备灵活歌词操控与无标注旋律引导的可控歌唱语音合成系统 YingMusic-Singer: Controllable Singing Voice Synthesis with Flexible Lyric Manipulation and Annotation-free Melody Guidance

📊 核心分析

YingMusic-Singer：具备灵活歌词操控与无标注旋律引导的可控歌唱语音合成系统
YingMusic-Singer: Controllable Singing Voice Synthesis with Flexible Lyric Manipulation and Annotation-free Melody Guidance