一种高表现力歌唱声音合成模型训练方法、合成方法及装置与流程

2025-11-17 17:00:07 347次浏览

技术特征：

1.一种高表现力歌唱声音合成模型训练方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的高表现力歌唱声音合成模型训练方法，其特征在于，获取待合成的歌词文本，以及由真实歌声预测得到的乐谱序列，所述乐谱序列采用乐器数字接口格式。

3.根据权利要求1所述的高表现力歌唱声音合成模型训练方法，其特征在于，根据每个字的基频计算其谐波能量，包括：

4.根据权利要求1所述的高表现力歌唱声音合成模型训练方法，其特征在于，将每个字的时间平均谐波能量预处理后映射至预设范围，包括：

5.根据权利要求1所述的高表现力歌唱声音合成模型训练方法，其特征在于，将所述混合嵌入向量依次输入所述transformer和所述连续语音单元表征模块，生成连续语音单元向量之后，还包括：

6.根据权利要求1所述的高表现力歌唱声音合成模型训练方法，其特征在于，将所述连续语音单元向量、所述基频和所述谐波能量输入信号处理模块，生成初级语音表示，包括：

7.一种高表现力歌唱声音合成方法，其特征在于，所述方法包括以下步骤：

8.一种高表现力歌唱声音合成装置，其特征在于，所述装置被执行时实现如权利要求7中所述高表现力歌唱声音合成方法的步骤，所述装置包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。

技术总结
本发明提供一种高表现力歌唱声音合成模型训练方法、合成方法及装置，获取歌词文本以及由真实歌声预测得到的乐谱序列；将歌词文本转换为音素信息，从歌声音频数据中提取歌声的物理信息并分析，得到强度信息；将音素信息和乐谱序列的属性信息输入文本编码器生成文本嵌入序列，由时长预测器确定每个字的持续时长，将文本嵌入序列和持续时长输入长度约束器生成语音表征；将语音表征输入基频解码器和梅尔解码器生成基频和梅尔谱；将基频、梅尔谱和语音表征相加得到混合嵌入向量，将混合嵌入向量输入Transformer和连续语音单元表征模块生成连续语音单元向量，由声码器合成预测歌声。本发明提供的方法对各属性进行细粒度建模，避免耦合，合成高质量歌声。

技术研发人员：王风平,李雅,娄帆
受保护的技术使用者：上海艾特欧数字娱乐科技有限公司
技术研发日：
技术公布日：2024/12/2

文档序号 : 【 40201604 】

技术研发人员：王风平,李雅,娄帆
技术所有人：上海艾特欧数字娱乐科技有限公司

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

王风平丨李雅丨娄帆丨上海艾特欧数字娱乐科技有限公司

一种构网型变流器控制方法及装置与流程机动车关键出行路径的提取方法、装置及存储介质与流程