一种口音模拟方法、装置、计算机设备和存储介质与流程

2026-03-21 10:20:07 214次浏览

本发明涉及人工智能，特别是一种口音模拟方法、装置、计算机设备和存储介质。

背景技术：

1、近年来，随着科技的进步，语言大模型领域取得了显著的发展。因其强大的学习和信息处理能力，这些语言大模型在人机交互领域得到广泛应用。它们已经能够准确处理输入中的模糊音干扰，实现语音转文本功能。

2、每个人的语音习惯和口音都有独特之处，语言大模型往往难以捕捉并准确模仿这些细微差异，这导致语言大模型输出的模仿被模仿者说话习惯的语音不够精准，仍有待改进。

技术实现思路

1、本发明实施例要解决的技术问题在于，提供一种口音模拟方法、装置、计算机设备和存储介质，以解决现有技术中这导致语言大模型输出的模仿被模仿者说话习惯的语音不够精准的问题。

2、本发明公开了一种口音模拟方法，包括：

3、向被模仿者提供标准文本集，获取被模仿者基于所述标准文本集提供的原始语音集，基于所述标准文本集和所述原始语音集获取模糊音数据集；

4、获取所述标准文本集对应的标准语音集，基于所述标准文本集和所述标准语音集获取融合特征向量集；

5、基于所述模糊音数据集获取所述融合特征向量集中每个融合特征向量对应的掩码权重值，将所述掩码权重值嵌入对应的所述融合特征向量中，生成训练数据；

6、构建口音模拟模型，将所述训练数据输入所述口音模拟模型中进行训练，获取训练后的口音模拟模型；

7、获取目标文本，根据所述目标文本获取目标向量，将所述目标向量输入所述训练后的口音模拟模型以获取目标语音。

8、可选地，所述基于所述标准文本集和所述原始语音集获取模糊音数据集的步骤，包括：

9、针对所述标准文本集中的每个标准文本，获取其对应的原始语音，对所述原始语音进行语音识别，获取原始文本；

10、将所述标准文本和所述原始文本进行比对，获取不一致的模糊文本和对应的模糊语音；

11、获取所述标准文本和所述模糊文本的模糊音类型对应的相近等级；

12、针对每个所述模糊文本，统计其全部模糊音类型和相近等级基于全部的所述模糊音类型和所述相近等级获取所述模糊文本的模糊音程度值；

13、其中，所述模糊音类型越多，所述模糊音程度值越低。

14、可选地，所述将所述训练数据输入所述口音模拟模型中进行训练的步骤，包括：

15、将所述训练数据输入所述口音模拟模型中，将对应的所述原始文本与所述口音模拟模型的输出数据进行比对，获取损失函数值；

16、基于所述损失函数值对所述口音模拟模型的模型参数进行调整，直至所述损失函数值符合预设要求。

17、可选地，所述基于所述模糊音数据集获取所述融合特征向量集中每个融合特征向量对应的掩码权重值的步骤，包括：

18、获取所述融合特征向量对应的所述模糊文本所在的模糊位置；

19、基于所述对应的模糊文本的模糊音程度值获取所述标准文本对应的掩码权重值；

20、将所述掩码权重值映射至所述模糊位置。

21、可选地，所述根据所述目标文本获取目标向量的步骤，包括：

22、获取所述目标文本对应的目标标准语音，将所述目标文本和所述目标标准语音融合为所述目标向量。

23、可选地，所述将所述目标向量输入所述训练后的口音模拟模型以获取目标语音的步骤，包括：

24、获取所述目标文本中每一个字的模糊文字，生成模糊语音文本，将所述模糊语音文本的语音作为所述目标语音。

25、可选的，所述将所述模糊语音文本的语音作为所述目标语音的步骤，包括：

26、将所述模糊语音文本输入音色模拟模型，获取所述目标语音。

27、可选地，所述基于所述标准文本集和所述原始语音集获取融合特征向量集的步骤，包括：

28、通过双向lstm获取每个所述标准文本的文本特征和每个所述标准文本对应的标准语音的语音特征；

29、将所述文本特征和所述语音特征使用注意力机制进行融合获取融合特征向量。

30、本发明还公开了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上所述方法的步骤。

31、本发明还公开了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如上所述方法的步骤。

32、与现有技术相比，本发明实施例提供的口音模拟方法的有益效果在于：本发明基于所述标准文本集和被模仿者提供的原始语音集获取模糊音数据集，基于所述标准文本集和对应的所述标准语音集获取融合特征向量集，基于模糊语音数据集获取所述融合特征向量集中每个融合特征向量对应的掩码权重值，将掩码权重值嵌入到融合特征向量中，可以指导模型更多关注存在口音读音的特征，从而提高对口音的准确模仿能力。

技术特征：

1.一种口音模拟方法，其特征在于，包括：

2.根据权利要求1所述的口音模拟方法，其特征在于，所述基于所述标准文本集和所述原始语音集获取模糊音数据集的步骤，包括：

3.根据权利要求2所述的口音模拟方法，其特征在于，所述将所述训练数据输入所述口音模拟模型中进行训练的步骤，包括：

4.根据权利要求2所述的口音模拟方法，其特征在于，所述基于所述模糊音数据集获取所述融合特征向量集中每个融合特征向量对应的掩码权重值的步骤，包括：

5.根据权利要求1所述的口音模拟方法，其特征在于，所述根据所述目标文本获取目标向量的步骤，包括：

6.根据权利要求5所述的口音模拟方法，其特征在于，所述将所述目标向量输入所述训练后的口音模拟模型以获取目标语音的步骤，包括：

7.根据权利要求6所述的口音模拟方法，其特征在于，所述将所述模糊语音文本的语音作为所述目标语音的步骤，包括：

8.根据权利要求2所述的口音模拟方法，其特征在于，所述基于所述标准文本集和所述原始语音集获取融合特征向量集的步骤，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。

技术总结
本发明涉及人工智能技术领域，特别是一种口音模拟方法、装置、计算机设备和存储介质。该方法包括：向被模仿者提供标准文本集，获取被模仿者提供的原始语音集，基于标准文本集和原始语音集获取模糊音数据集；获取标准文本集的标准语音集，基于标准文本集和标准语音集获取融合特征向量集；基于模糊音数据集获取融合特征向量集中每个融合特征向量对应的掩码权重值，将掩码权重值嵌入对应的融合特征向量中，生成训练数据；构建口音模拟模型，将训练数据输入口音模拟模型中进行训练，获取训练后的口音模拟模型；获取目标文本，根据目标文本获取目标向量，将目标向量输入训练后的口音模拟模型获取目标语音。本发明可以实现对口音的精准模仿。

技术研发人员：徐坚,赵利聘,徐飞跃,张孟阳,黄浩
受保护的技术使用者：深圳安吉诺智能机器人有限公司
技术研发日：
技术公布日：2024/12/10

文档序号 : 【 40281053 】

技术研发人员：徐坚,赵利聘,徐飞跃,张孟阳,黄浩
技术所有人：深圳安吉诺智能机器人有限公司

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

徐坚丨赵利聘丨徐飞跃丨张孟阳丨黄浩丨深圳安吉诺智能机器人有限公司

LED显示屏的灯珠的亮色度校正方法、装置、电子设备及存储介质与流程基于卡尔曼滤波的ADS-B、5G、自组网与RemoteID的协同数据融合方法