← 返回论文列表

YingMusic-Singer:具备灵活歌词操控与无标注旋律引导的可控歌唱语音合成系统
YingMusic-Singer: Controllable Singing Voice Synthesis with Flexible Lyric Manipulation and Annotation-free Melody Guidance

作者: Chunbo Hao, Junjie Zheng, Guobin Ma 等9人
arXiv: 2603.24589v1
分类: eess.AS, cs.SD
📝 论文摘要
在保持旋律一致性的同时,通过修改歌词实现歌声再生仍具挑战性,现有方法要么可控性有限,要么需要繁琐的人工对齐。我们提出YingMusic-Singer,这是一个完全基于扩散的模型,能够通过灵活的歌词操控实现旋律可控的歌声合成。该模型接收三个输入:可选的音色参考、提供旋律的演唱片段以及修改后的歌词,无需人工对齐。通过课程学习和组相对策略优化进行训练,YingMusic-Singer在旋律保持和歌词遵循方面优于最接近的基线模型Vevo2,后者同样支持无需人工对齐的旋律控制。我们还推出了LyricEditBench,这是首个用于评估保持旋律的歌词修改的基准测试。代码、权重、基准测试和演示均已在https://github.com/ASLP-lab/YingMusic-Singer公开提供。

📊 核心分析

🎯 研究动机
该论文旨在解决歌唱语音合成(singing voice synthesis)中一个关键挑战:如何在修改歌词的同时保持旋律的一致性。现有方法要么可控性有限,要么需要繁琐的人工对齐(manual alignment)工作。
🔧 核心方法
论文提出了一个名为YingMusic-Singer的完全基于扩散模型(diffusion-based model)的系统。其核心方法包括: - 模型接受三个输入:可选音色参考、提供旋律的歌唱片段、以及修改后的歌词,整个过程无需人工对齐。 - 在训练中采用了课程学习(curriculum learning)和组相对策略优化(Group Relative Policy Optimization)技术。 - 同时,论文还引入了首个用于评估旋律保持型歌词修改的基准测试LyricEditBench。
💡 核心创新
论文的核心创新点在于: - 提出了首个完全基于扩散模型的、支持灵活歌词操纵且无需人工对齐的旋律可控歌唱语音合成系统。 - 通过创新的训练策略(课程学习和组相对策略优化),在无需对齐标注的情况下,实现了比现有最佳基线(Vevo2)更强的旋律保持能力和歌词遵循能力。 - 创建了该任务领域的首个评估基准LyricEditBench,填补了方法论评估的空白。
🏆 总体贡献
论文对该领域的整体贡献包括: - 技术贡献:提出了一个高性能、高可控性的歌唱语音合成新框架YingMusic-Singer,显著提升了在歌词修改场景下的旋律保持性能。 - 基准贡献:建立了首个用于旋律保持型歌词修改任务的标准化评估基准LyricEditBench,为后续研究提供了可靠的比较平台。 - 资源贡献:公开了代码、模型权重、基准测试和演示,促进了该研究方向的开放性和可复现性。