一种基于多头注意力机制和Bi-LSTM的复数去混响语音增强方法

本发明属于语音增强,具体涉及一种基于多头注意力机制和bi-lstm的复数去混响语音增强方法。
背景技术:
1、语音增强技术已经应用于生活中的许多场景。在实际使用场景中,除了噪声外,混响也是影响语音质量的重要因素之一,尤其是麦克风在混响环境下接收到的声音信号不仅包含原始语音信号,还融合了多个经过延迟和衰减的反射声,这可能会掩盖语音中的关键信息,从而影响语音信号的质量和可懂度。因此在存在混响噪声的条件下,去混响语音增强技术具有重要的现实意义。
2、深度学习技术在公共应用中日益突出并得到广泛实施,包括但不限于语音处理、图像分析、和自然语言处理。由于强大的拟合能力和对大数据的有效利用,基于深度学习的方法可以更准确地对目标信号和干扰信号之间的复杂关系进行建模。此外,深度学习方法对各种信号类型具有更强的泛化能力,不受信号独立性和高斯噪声等假设的限制,因此在语音增强方面具有优越的性能。
3、由于混响信号的复杂多样性使得模型难以准确抑制混响成分,且现有的深度学习模型大多基于幅度谱处理,忽略了语音信号的复数特性,导致在处理混响问题时可能丢失部分有用信息。
4、近年来,人们对去混响方向语音增强方法进行了大量研究。基于深度学习的去混响方法主要使用频谱映射和时频掩蔽两种原理。基于多隐藏层神经网络的模型旨在通过映射混响语音的幅度谱来恢复声源语音的幅度谱,从而增强模型的去混响性能。然而,由于浅层网络架构和损失函数的设计局限,这种映射方法在实现声源语音幅度谱的精确恢复上仍面临挑战。wang、williamson等人采用了t-f掩蔽技术,利用dnn训练得到混响语音幅度谱的复数理想比值掩码,而后通过将这个掩码与混响语音频谱相乘的方式来提取声源语音,可以改善去除混响后语音的清晰度。然而,该方法仍然面临着无法有效抑制混响中相关性较高部分的挑战。刘斌等人利用递归神经网络联合双向长短时记忆网络(bi-directionallong short-term memory,bi-lstm)对混响语音的对数功率谱特征进行映射,有效捕捉了上下文的关联特征。zhao、wang等人在去混响模型中引入注意力机制,通过对频带信息间关联性的精细建模,能够显著提升模型在映射声源语音幅度谱方面的性能。解元等人在不依赖目标语音和声学环境的先验信息的情况下,利用原始-对偶分裂算法,提出了一种基于盲信号提取的时频类维纳掩蔽逆滤波器的语音增强方法,在带噪和混响场景下有一定的优越性。本发明充分研究并改进了注意力机制的语音增强系统在混响噪声环境中的性能,设计了一种基于多头注意力机制和bi-lstm的复数去混响语音增强方法。
技术实现思路
1、针对上述现有技术去混响不充分的问题,本发明提供一种基于多头注意力机制和bi-lstm的复数去混响语音增强方法,引入一种时频双路径复多头注意力机制tf-cmha,捕捉输入序列内部不同位置之间的相关性并利用时间和频率信息捕捉语音关键成分信息;引入复双向长短时记忆网络bi-lstm,利用复乘法运算获得更为精确的长时语音相关性的描述,实现了对去混响语音增强系统性能的提升。
2、一种基于多头注意力机制和bi-lstm的复数去混响语音增强方法,包括如下步骤:
3、步骤s1:输入含混响的语音信号进行stft变换,将语音信号转换到频域,提取幅度谱特征和复数谱特征,得到频域的表示f;
4、步骤s2:将特征f输入到高级通道注意力机制hca,favg和fmax分别表示平均池化特征和最大池化特征,将平均池化特征和最大池化特征融合获得新的特征fa+m,favg和fmax分别通过卷积块进行特征处理并再次与fa+m融合,得到特征表示新的特征fsig,fsig与f进行逐元素相乘融合得到输出特征fhca;
5、步骤s3:将hca的输出特征fhca输入到时频双路径复多头注意力机制tf-cmha中,根据输入序列内部不同位置之间的相关性,利用时间和频率信息捕捉语音信号中的关键成分,并识别并抑制混响成分;
6、步骤s4:将tf-cmha的输出特征分成实部和虚部两个通道进入复双向长短时记忆网络cbi-lstm中,捕捉语音信号深层特征的前后关系。通过引入的复乘法运算模拟幅值和相位之间的相关关系,获得更为精确的长时语音相关性的描述;
7、步骤s5:对此设计一种联合约束损失函数来对网络模型进行训练,其中复数谱特征的实部和虚部被视为独立的特征进行同步训练,以此来减小预估值与真实值之间的误差,最后经过istft变换恢复成估计的时域信号;
8、步骤s6:对所提出的一种基于多头注意力机制和bi-lstm的复数去混响语音增强方法进行性能评估。
9、作为本发明的进一步改进,所述步骤s2的具体步骤为:
10、步骤s21:favg和fmax分别表示平均池化特征和最大池化特征,将平均池化特征和最大池化特征的每个维度进行逐元素相加作为一种新的特征fa+m;
11、步骤s22:平均池化特征和最大池化特征分别通过卷积块进行特征处理,并且与新特征fa+m再一次进行逐元素相加融合,并且经过sigmod函数进行激活,得到特征表示新的特征fsig。
12、步骤s23:输出特征fsig与输入特征f进行逐元素相乘得到fhca,强调输入特征中重要的部分并抑制不重要的信息,也可以将不同特征之间的信息进行融合,得到更丰富的特征表示。
13、作为本发明的进一步改进,所述步骤s3的具体步骤为:
14、步骤s31:维数为t×f×c的输入特征fhca分别重塑为维数为1×t的fc向量和维数为1×f的tc向量,一个沿时间轴,另一个沿频率轴。
15、步骤s32:沿着每个轴平行地施加多头注意力机制mha,捕捉输入数据不同位置之间的内在联系。
16、步骤s33:输出结果再各自通过一个全连接层,进一步整合提炼特征以得到更高级别的表示,然后经过一个dropout层和层归一化层,防止过拟合,提高模型的精度和稳定性。
17、步骤s34:将实部和虚部的输出特征进行重塑拼接,作为单时间轴和单频率轴的最终输出特征。再将时频双分支的最终输出特征和原始输入特征结合起来,得到tf-cmha最终的输出结果xa。
18、作为本发明的进一步改进,所述步骤s32中,具体步骤为:
19、步骤s321:输入注意力头数为8的多头注意力机制mha中。
20、步骤s322:mha的注意力的计算平行的对特征的实数部分和虚数部分分别进行。
21、作为本发明的进一步改进,所述步骤s4的具体步骤为:
22、步骤s41:分成实部和虚部两个通道进入cbi-lstm中,运用复乘法运算。
23、步骤s42:每个通道由两个堆叠的bi-lstm层组成,每个时间步的输出维度为1446,得到426×1446的特征矩阵。
24、步骤s43:经过线性层(1446,723),得到最终426×723的特征矩阵。
25、作为本发明的进一步改进,所述步骤s42步骤为:
26、步骤s421:定义复值卷积滤波器w为w=wr+jwi,这里的实值矩阵wr和wi分别表示复值卷积核的实部和虚部,同时输入复数谱图可以定义为x=xr+jxi,因此,可以通过复数卷积运算得到复数谱的输出y,可以表示为
27、y=(xr*wr-xi*wi)+j(xr*wi+xi*wr)。
28、步骤s422:经过tf-cmha的输出特征为xa,其实部和虚部表示为xar、xai,作为两个输入通道,分别输入到bi-lstm中,具体运算过程如下,最终cbi-lstm的输出为fout。
29、frr=bilstmr(xar)
30、fri=bilstmr(xai)
31、fir=bilstmi(xar)
32、fii=bilstmi(xai)
33、fout=(frr-fii)+j(fri+fir)
34、其中,bilstmr和bilstmi分别表示实部和虚部的两个传统bi-lstm,frr表示将输入实特征xar送入实bi-lstm后的输出特征,fri表示将输入实特征xai送入实bi-lstm后的输出特征,fir表示将输入实特征xar送入实bi-lstm后的输出特征,fii表示将输入实特征xai送入实bi-lstm后的输出特征。
35、作为本发明的进一步改进,所述步骤s5的具体步骤为:
36、步骤s51:定义时域mse损失函数:
37、
38、x表示干净语音信号,表示预估得到的语音信号。
39、步骤s52:设计了一种联合损失函数,包括语音信号的幅度谱、复数谱的实部和虚部共三部分,分别计算他们的mse损失后,进行联合作为模型最终的损失函数:
40、
41、其中,ymag表示干净语音信号的幅度谱,表示预估信号的幅度谱,yr和yi分别表示干净语音信号的实部和虚部,和分别表示预估信号的实部和虚部,α、β、γ∈[0,1]为权重系数。
42、步骤s53:最后输出经过istft变换后变回预测的时域语音信号。
43、作为本发明的进一步改进,实现所述步骤s6的具体方法为:
44、步骤s61:讨论联合约束损失中权重损失的权重的具体取值,探究出最优的权重值。
45、步骤s62:将基于多头注意力和bi-lstm的复数去混响语音增强算法进行消融实验,验证各个部分的有效性。
46、步骤s63:将基于多头注意力和bi-lstm的复数去混响语音增强算法与lstm模型、crn模型进行对比实验,验证整个模型的有效性。
47、与现有技术相比,本发明的有益效果:
48、1、在解决混响语音增强问题时,现有的深度学习模型大多基于幅度谱处理,忽略了语音信号的复数特性,导致在处理混响问题时可能丢失部分有用信息,本发明利用复数域处理的优势,将语音信号表示为复数形式,以充分利用语音信号的幅度和相位信息。
49、2、设计了一种时频双路径复多头注意力机制tf-cmha,能够捕捉输入序列内部不同位置之间的相关性并同时考虑时间和频率信息,从而使模型能够关注到语音信号中的多个关键部分,更准确地识别并抑制混响成分,进一步提高模型的计算效率和表示能力。
50、3、为了捕捉语音信号深层特征的前后关系,本发明引入了复乘法运算可以较好地模拟幅值和相位之间的相关关系,获得更为精确的长时语音相关性的描述。同时设计了一种联合约束损失函数来对网络模型进行训练,进一步提升去混响系统的性能。
技术研发人员:孙林慧,丁兆伟,王春艳,李平安,叶蕾
技术所有人:南京邮电大学
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
