配音方法及系统与流程

2026-02-16 09:40:01 247次浏览

本发明涉及音频处理，尤其涉及一种配音方法及系统。

背景技术：

1、在影视剧、动画片、纪录片及其它多媒体作品的制作过程中，配音是一项至关重要的工作，尤其是在多角色对话场景中，不同角色的声音需要精确同步，以确保观众能够清晰理解对话内容。

2、在实际操作中，由于每个配音演员的语速、语调和发音习惯存在差异，常常会导致多个角色的台词时长不一致。这种时长不匹配的问题，在后期处理过程中可能导致角色对话出现声音重叠、语音冲突或配音与画面不同步等问题，严重影响作品的整体质量。

3、针对多角色配音中存在的问题，现有技术通常依赖于手动调整，这需要音频工程师对每个配音演员的录音进行细致的时间调整，以使不同角色的声音不重叠。然而，这种手动处理方式不仅耗时费力，而且在处理复杂对话场景时容易出现误差，难以保证配音的同步性和自然性。此外，手动调整可能会在一定程度上改变角色的语调和情感表达，导致配音质量下降。因此，现在亟需一种配音方法及系统来解决上述问题。

技术实现思路

1、针对现有技术存在的问题，本发明提供一种配音方法及系统。

2、本发明提供一种配音方法，包括：

3、获取目标语种字幕文件和所述目标语种字幕文件对应的原始音频，并对所述原始音频中各段台词时间轴对应的语音音频进行特征提取，得到音频特征向量集合；

4、对所述音频特征向量集合中的音频特征向量进行聚类处理，并根据聚类处理结果，确定所述原始音频中各个台词时间轴的音频角色类型；

5、将所述音频角色类型与所述目标语种字幕文件中对应时间轴的台词进行对齐处理，得到对齐处理后的目标语种字幕文件；

6、将所述音频角色类型在所述原始音频对应的台词时间轴的语音音频序号，添加至所述对齐后的目标语种字幕文件中对应台词的位置，得到配音语种字幕文件；

7、基于文本转语音模型，将所述配音语种字幕文件中各段台词时间轴的台词转换为对应的配音音频，并根据多个所述配音音频，生成所述原始音频在目标语音下对应的配音文件。

8、根据本发明提供的一种配音方法，所述对所述原始音频中各段台词时间轴对应的语音音频进行特征提取，得到音频特征向量集合，包括：

9、对所述原始音频中各段台词时间轴的所述语音音频标注对应的所述语音音频序号，得到语音音频序号标注后的语音音频；

10、提取各个所述语音音频序号标注后的语音音频的梅尔倒谱系数特征；

11、将所述梅尔倒谱系数特征输入至x-vector模型中，得到由所述x-vector模型输出的所述音频特征向量集合。

12、根据本发明提供的一种配音方法，所述对所述音频特征向量集合中的音频特征向量进行聚类处理，包括：

13、基于层次聚类算法，对所述音频特征向量集合中的所述音频特征向量进行聚类处理，得到各个所述音频特征向量之间的相似度，并根据所述相似度和预设阈值，得到所述聚类处理结果。

14、根据本发明提供的一种配音方法，所述方法还包括：

15、获取所述配音语种字幕文件中各段台词时间轴的所述语音音频序号和所述音频角色类型；

16、获取原始语音音频，其中，所述原始语音音频为所述语音音频序号在所述原始音频中对应的语音音频；

17、获取目标配音音频，其中，所述目标配音音频为所述原始语音音频在所述配音语种字幕文件中对应台词时间轴的配音音频；

18、对所述原始语音音频和所述目标配音音频进行短时傅里叶变换，得到对应的频谱图特征；

19、将所述频谱图特征输入至个性化语音合成模型中，得到由所述个性化语音合成模型输出的角色配音音频，其中，所述个性化语音合成模型是基于transformer模型训练得到的。

20、根据本发明提供的一种配音方法，所述方法还包括：

21、基于数字信号处理技术，对多个所述配音音频进行去噪处理，得到多个去噪处理后的配音音频。

22、根据本发明提供的一种配音方法，在所述根据多个所述配音音频，生成所述原始音频在目标语音下对应的配音文件之前，所述方法还包括：

23、根据所述原始音频中各个台词时间轴的时间轴长度信息和对应的所述配音音频的长度信息，得到时长比例结果；

24、根据所述时长比例结果，对所述配音音频进行线性插值处理，或在降低采样率后进行重采样，得到处理后的配音音频。

25、本发明还提供一种配音系统，包括：

26、音频获取模块，用于获取目标语种字幕文件和所述目标语种字幕文件对应的原始音频，并对所述原始音频中各段台词时间轴对应的语音音频进行特征提取，得到音频特征向量集合；

27、处理模块，用于对所述音频特征向量集合中的音频特征向量进行聚类处理，并根据聚类处理结果，确定所述原始音频中各个台词时间轴的音频角色类型；

28、匹配模块，用于将所述音频角色类型与所述目标语种字幕文件中对应时间轴的台词进行对齐处理，得到对齐处理后的目标语种字幕文件；

29、配音字幕文件生成模块，用于将所述音频角色类型在所述原始音频对应的台词时间轴的语音音频序号，添加至所述对齐后的目标语种字幕文件中对应台词的位置，得到配音语种字幕文件；

30、配音音频生成模块，用于基于文本转语音模型，将所述配音语种字幕文件中各段台词时间轴的台词转换为对应的配音音频，并根据多个所述配音音频，生成所述原始音频在目标语音下对应的配音文件。

31、本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述配音方法。

32、本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述配音方法。

33、本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述配音方法。

34、本发明提供的配音方法及系统，能够自动化地调整配音语速并精确匹配台词时长，通过智能算法实现多角色对话中的音频同步处理，从而消除声音重叠和语音冲突问题，大幅提高配音处理的效率和质量。

技术特征：

1.一种配音方法，其特征在于，包括：

2.根据权利要求1所述的配音方法，其特征在于，所述对所述原始音频中各段台词时间轴对应的语音音频进行特征提取，得到音频特征向量集合，包括：

3.根据权利要求1所述的配音方法，其特征在于，所述对所述音频特征向量集合中的音频特征向量进行聚类处理，包括：

4.根据权利要求1所述的配音方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的配音方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的配音方法，其特征在于，在所述根据多个所述配音音频，生成所述原始音频在目标语音下对应的配音文件之前，所述方法还包括：

7.一种配音系统，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述配音方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述配音方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述配音方法。

技术总结
本发明提供一种配音方法及系统，该方法包括：对原始音频中各段台词时间轴对应的语音音频进行特征提取，得到音频特征向量集合；对音频特征向量进行聚类处理，确定原始音频中各个台词时间轴的音频角色类型；将音频角色类型与目标语种字幕文件中对应时间轴的台词进行对齐处理，得到对齐处理后的目标语种字幕文件；将音频角色类型在原始音频对应的台词时间轴的语音音频序号，添加至对齐后的目标语种字幕文件中对应台词的位置，得到配音语种字幕文件；基于文本转语音模型，将配音语种字幕文件中各段台词时间轴的台词转换为对应的配音音频，并根据多个配音音频，生成原始音频在目标语音下对应的配音文件。本发明大幅提高配音处理的效率和质量。

技术研发人员：李小梅,闫泽禹
受保护的技术使用者：语联网（武汉）信息技术有限公司
技术研发日：
技术公布日：2024/12/10

文档序号 : 【 40283285 】

技术研发人员：李小梅,闫泽禹
技术所有人：语联网（武汉）信息技术有限公司

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

李小梅丨闫泽禹丨语联网（武汉）信息技术有限公司