基于空间交叉学习多尺度注意力特征模块的声纹识别方法与流程

2026-02-16 14:00:02 122次浏览

本技术涉及计算机，特别是涉及一种基于空间交叉学习多尺度注意力特征模块的声纹识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

背景技术：

1、随着计算机技术的发展，声纹识别技术在众多领域都有重要的应用。如何高效地进行声纹识别，成为了重要的研究方向。

2、传统技术通常是通过人工提取音频信息的方式，进行声纹识别；但是，通过该方式进行声纹识别需要耗费较多的人工处理时间，导致声纹识别的效率较低。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提高声纹识别的效率的基于空间交叉学习多尺度注意力特征模块的声纹识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面，本技术提供了一种基于空间交叉学习多尺度注意力特征模块的声纹识别方法。所述方法包括：

3、提取音频的二维频谱特征；

4、通过特征图识别层对所述二维频谱特征进行特征图识别，得到所述音频的多通道三维特征图；

5、通过目标残差块将所述多通道三维特征图按通道层进行分组，得到所述音频的原始子特征图组；

6、对所述原始子特征图组分别进行时域特征识别、频域特征识别和全局特征识别，得到所述原始子特征图组的时域特征、频域特征和全局特征；

7、根据所述时域特征和所述频域特征生成基础权重，并利用所述基础权重对所述原始子特征图组进行加权处理，得到目标子特征图组；

8、根据所述目标子特征图组和所述全局特征生成目标权重；

9、利用所述目标权重对所述原始子特征图组进行加权融合处理，得到所述音频的融合特征图；

10、根据所述融合特征图，对所述音频进行声纹识别，得到所述音频的声纹识别结果。

11、在其中一个实施例中，在根据所述融合特征图，对所述音频进行声纹识别，得到所述音频的声纹识别结果之前，还包括：

12、利用残差网络对所述融合特征图进行特征识别，得到目标特征图；

13、所述根据所述融合特征图，对所述音频进行声纹识别，得到所述音频的声纹识别结果，包括：

14、根据所述目标特征图，对所述音频进行声纹识别，得到所述声纹识别结果。

15、在其中一个实施例中，所述根据所述目标特征图，对所述音频进行声纹识别，得到所述声纹识别结果，包括：

16、利用注意力池化层和线性层对所述目标特征图进行特征识别，得到所述目标特征图的声纹特征；

17、根据所述声纹特征对所述音频进行声纹识别，得到所述声纹识别结果。

18、在其中一个实施例中，所述对所述原始子特征图组分别进行时域特征识别、频域特征识别和全局特征识别，得到所述原始子特征图组的时域特征、频域特征和全局特征，包括：

19、对所述原始子特征图组进行时域维度池化运算，得到所述时域特征；

20、对所述原始子特征图组进行频域维度池化运算，得到所述频域特征；

21、对所述原始子特征图组进行全局卷积运算，得到所述全局特征。

22、在其中一个实施例中，所述根据所述时域特征和所述频域特征生成基础权重，包括：

23、对所述时域特征和所述频域特征进行拼接处理，得到拼接特征；

24、对所述拼接特征进行卷积运算，得到卷积运算结果；

25、对所述卷积运算结果进行激活处理，得到所述基础权重。

26、在其中一个实施例中，所述提取音频的二维频谱特征，包括：

27、获取语音信号，作为所述音频；

28、对所述音频进行梅尔频谱转换处理，得到所述二维频谱特征。

29、第二方面，本技术还提供了一种基于空间交叉学习多尺度注意力特征模块的声纹识别装置。所述装置包括：

30、特征提取模块，用于提取音频的二维频谱特征；

31、第一识别模块，用于通过特征图识别层对所述二维频谱特征进行特征图识别，得到所述音频的多通道三维特征图；

32、特征分组模块，用于通过目标残差块将所述多通道三维特征图按通道层进行分组，得到所述音频的原始子特征图组；

33、第二识别模块，用于对所述原始子特征图组分别进行时域特征识别、频域特征识别和全局特征识别，得到所述原始子特征图组的时域特征、频域特征和全局特征；

34、第一生成模块，用于根据所述时域特征和所述频域特征生成基础权重，并利用所述基础权重对所述原始子特征图组进行加权处理，得到目标子特征图组；

35、第二生成模块，用于根据所述目标子特征图组和所述全局特征生成目标权重；

36、特征融合模块，用于利用所述目标权重对所述原始子特征图组进行加权融合处理，得到所述音频的融合特征图；

37、声纹识别模块，用于根据所述融合特征图，对所述音频进行声纹识别，得到所述音频的声纹识别结果。

38、第三方面，本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

39、提取音频的二维频谱特征；

40、通过特征图识别层对所述二维频谱特征进行特征图识别，得到所述音频的多通道三维特征图；

41、通过目标残差块将所述多通道三维特征图按通道层进行分组，得到所述音频的原始子特征图组；

42、对所述原始子特征图组分别进行时域特征识别、频域特征识别和全局特征识别，得到所述原始子特征图组的时域特征、频域特征和全局特征；

43、根据所述时域特征和所述频域特征生成基础权重，并利用所述基础权重对所述原始子特征图组进行加权处理，得到目标子特征图组；

44、根据所述目标子特征图组和所述全局特征生成目标权重；

45、利用所述目标权重对所述原始子特征图组进行加权融合处理，得到所述音频的融合特征图；

46、根据所述融合特征图，对所述音频进行声纹识别，得到所述音频的声纹识别结果。

47、第四方面，本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

48、提取音频的二维频谱特征；

49、通过特征图识别层对所述二维频谱特征进行特征图识别，得到所述音频的多通道三维特征图；

50、通过目标残差块将所述多通道三维特征图按通道层进行分组，得到所述音频的原始子特征图组；

51、对所述原始子特征图组分别进行时域特征识别、频域特征识别和全局特征识别，得到所述原始子特征图组的时域特征、频域特征和全局特征；

52、根据所述时域特征和所述频域特征生成基础权重，并利用所述基础权重对所述原始子特征图组进行加权处理，得到目标子特征图组；

53、根据所述目标子特征图组和所述全局特征生成目标权重；

54、利用所述目标权重对所述原始子特征图组进行加权融合处理，得到所述音频的融合特征图；

55、根据所述融合特征图，对所述音频进行声纹识别，得到所述音频的声纹识别结果。

56、第五方面，本技术还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

57、提取音频的二维频谱特征；

58、通过特征图识别层对所述二维频谱特征进行特征图识别，得到所述音频的多通道三维特征图；

59、通过目标残差块将所述多通道三维特征图按通道层进行分组，得到所述音频的原始子特征图组；

60、对所述原始子特征图组分别进行时域特征识别、频域特征识别和全局特征识别，得到所述原始子特征图组的时域特征、频域特征和全局特征；

61、根据所述时域特征和所述频域特征生成基础权重，并利用所述基础权重对所述原始子特征图组进行加权处理，得到目标子特征图组；

62、根据所述目标子特征图组和所述全局特征生成目标权重；

63、利用所述目标权重对所述原始子特征图组进行加权融合处理，得到所述音频的融合特征图；

64、根据所述融合特征图，对所述音频进行声纹识别，得到所述音频的声纹识别结果。

65、上述基于空间交叉学习多尺度注意力特征模块的声纹识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品，提取音频的二维频谱特征；通过特征图识别层对所述二维频谱特征进行特征图识别，得到所述音频的多通道三维特征图；通过目标残差块将所述多通道三维特征图按通道层进行分组，得到所述音频的原始子特征图组；对所述原始子特征图组分别进行时域特征识别、频域特征识别和全局特征识别，得到所述原始子特征图组的时域特征、频域特征和全局特征；根据所述时域特征和所述频域特征生成基础权重，并利用所述基础权重对所述原始子特征图组进行加权处理，得到目标子特征图组；根据所述目标子特征图组和所述全局特征生成目标权重；利用所述目标权重对所述原始子特征图组进行加权融合处理，得到所述音频的融合特征图；根据所述融合特征图，对所述音频进行声纹识别，得到所述音频的声纹识别结果。该方案通过多层次的特征识别和加权融合处理，有利于充分利用音频的时域特征、频域特征和全局特征，从而有利于提高特征的表达能力，提高声纹识别的准确性和效率。

文档序号 : 【 40283263 】

技术研发人员：吴石松,董召杰,李轩昂,梁寿愚,卢志良,陈柔伊,梁凌宇,赵翔宇,王鹏凯,郑桦,冯勤宇,任正国,林全郴,李晋伟,陈骞
技术所有人：南方电网人工智能科技有限公司

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

吴石松丨董召杰丨李轩昂丨梁寿愚丨卢志良丨陈柔伊丨梁凌宇丨赵翔宇丨王鹏凯丨郑桦丨冯勤宇丨任正国丨林全郴丨李晋伟丨陈骞丨南方电网人工智能科技有限公司