用于多声道语音增强的基于掩码的神经波束成形的系统和方法与流程
技术特征:
1.一种方法,包括:
2.根据权利要求1所述的方法,其中,所述波束成形滤波器权重包括对应于语音音频的第一功率谱密度(psd)矩阵和对应于噪声音频的第二psd矩阵。
3.根据权利要求2所述的方法,其中,对应于第一psd矩阵的语音音频和对应于第二psd矩阵的噪声音频来自第一时间窗口之前的第二时间窗口。
4.根据权利要求2所述的方法,还包括:
5.根据权利要求1所述的方法,其中:
6.根据权利要求1所述的方法,其中:
7.根据权利要求1所述的方法,其中,所述掩码估计模型被训练以输出具有在复平面上的单位圆内的幅度的掩码。
8.一种电子设备,包括:
9.根据权利要求8所述的电子设备,其中,所述波束成形滤波器权重包括对应于语音音频的第一功率谱密度(psd)矩阵和对应于噪声音频的第二psd矩阵。
10.根据权利要求9所述的电子设备,其中,对应于第一psd矩阵的语音音频和对应于第二psd矩阵的噪声音频来自第一时间窗口之前的第二时间窗口。
11.根据权利要求9所述的电子设备,其中,所述至少一个处理设备还被配置为,使用掩码更新第一psd矩阵和第二psd矩阵。
12.根据权利要求8所述的电子设备,其中:
13.根据权利要求8所述的电子设备,其中:
14.根据权利要求8所述的电子设备,其中,所述掩码估计模型被训练以输出具有在复平面上的单位圆内的幅度的掩码。
15.一种包含指令的非暂时性机器可读介质,所述指令在被执行时使得电子设备的至少一个处理器:
技术总结
一种方法包括在第一时间窗口期间从多个音频输入设备接收一组有噪音频信号。该方法还包括基于该组有噪音频信号生成有噪时间‑频率表示。该方法还包括将有噪时间‑频率表示作为输入提供给掩码估计模型,该掩码估计模型被训练以输出用于从有噪时间‑频率表示预测干净语音音频的干净时间‑频率表示的掩码。该方法还包括基于掩码来确定波束成形滤波器权重。该方法还包括将波束成形滤波器权重应用于有噪时间‑频率表示,以将干净语音音频与该组有噪音频信号相隔离。另外,该方法包括输出干净语音音频。
技术研发人员:李青桦,杨宙璋,沈逸麟,金红霞
受保护的技术使用者:三星电子株式会社
技术研发日:
技术公布日:2024/12/5
文档序号 :
【 40238379 】
技术研发人员:李青桦,杨宙璋,沈逸麟,金红霞
技术所有人:三星电子株式会社
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
技术研发人员:李青桦,杨宙璋,沈逸麟,金红霞
技术所有人:三星电子株式会社
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
