一种基于多头注意力机制和Bi-LSTM的复数去混响语音增强方法

2026-05-05 15:20:01 147次浏览

技术特征：

1.一种基于多头注意力机制和bi-lstm的复数去混响语音增强方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于多头注意力机制和bi-lstm的复数去混响语音增强方法，其特征在于，所述步骤s2的具体步骤为：

3.根据权利要求1所述的一种基于多头注意力机制和bi-lstm的复数去混响语音增强方法，其特征在于，所述步骤s3的具体步骤为：

4.根据权利要求3所述的一种基于多头注意力机制和bi-lstm的复数去混响语音增强方法，其特征在于，所述步骤s32中，具体的步骤为：

5.根据权利要求1所述的一种基于多头注意力机制和bi-lstm的复数去混响语音增强方法，其特征在于，所述步骤s4的具体步骤为：

6.根据权利要求5所述的一种基于多头注意力机制和bi-lstm的复数去混响语音增强方法，其特征在于，所述步骤s42的具体步骤为：

7.根据权利要求1所述的一种基于多头注意力机制和bi-lstm的复数去混响语音增强方法，其特征在于，所述步骤s5的具体步骤为：

8.根据权利要求1所述的一种基于多头注意力机制和bi-lstm的复数去混响语音增强方法，其特征在于，实现所述步骤s6的具体方法为：

技术总结
本发明公开了一种基于多头注意力机制和Bi‑LSTM的复数去混响语音增强方法，属于语音增强技术领域。本发明在复数域进行去混响处理，首先将信号进行STFT变换得到复数谱，以充分地利用幅度和相位信息。然后将复数谱特征送入高级通道注意力机制HCA以融合特征。其次，为了能够捕捉输入序列内部不同位置之间的相关性并利用时间和频率信息捕捉语音关键成分，设计了一种时频双路径复多头注意力机制TF‑CMHA，更准确地识别语音成分并抑制混响成分。最后，引入了复乘法运算和联合约束损失函数，模拟幅值和相位之间的相关关系，获得更为精确的长时语音相关性的描述。本发明实现了对去混响语音增强系统性能的提升，使系统去混响后的语音在各种测量指标上均有提升，适用于语音前端处理。

技术研发人员：孙林慧,丁兆伟,王春艳,李平安,叶蕾
受保护的技术使用者：南京邮电大学
技术研发日：
技术公布日：2024/12/12

文档序号 : 【 40314817 】

技术研发人员：孙林慧,丁兆伟,王春艳,李平安,叶蕾
技术所有人：南京邮电大学

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

孙林慧丨丁兆伟丨王春艳丨李平安丨叶蕾丨南京邮电大学

一种大坝水位监测装置及闸门自动控制方法与流程一种基于混合现实的眼部术后护理模拟操作系统