一种面向DAS系统的高质量音频生成方法
技术特征:
1.一种面向das系统的高质量音频生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的面向das系统的高质量音频生成方法,其特征在于,所述s1中,预处理及特征提取通过如下子步骤实现:
3.根据权利要求1所述的面向das系统的高质量音频生成方法,其特征在于,所述生成网络包括:音高插值模块、模板生成模块、下采样模块、梅尔频谱卷积模块、上采样模块、leakyrelu激活函数、tanh激活函数;
4.根据权利要求1所述的面向das系统的高质量音频生成方法,其特征在于,所述多周期判别器包括:频谱转化模块、卷积层、leakyrelu激活函数;所述频谱转换模块用于通过短时傅里叶变换将时间域信号转换为频域信号;所述卷积层包括5个3×3卷积层,并在每个卷积层后使用leakyrelu激活函数,其中初始卷积层用于将输入的频谱图从单通道扩展到32通道,保持特征图的空间维度;中间三个卷积层用于逐层将特征图的通道数保持在32,以逐步减小特征图的高度,逐层提取更深层次的特征;最后一个卷积层将输出的通道数减少到1,以整合特征;
5.根据权利要求1所述的面向das系统的高质量音频生成方法,其特征在于,所述s4中,以d2为训练集训练生成网络,具体通过如下子步骤实现:
6.根据权利要求4所述的面向das系统的高质量音频生成方法,其特征在于,所述s4中,使用判别网络对生成网络的生成信号进行判断,具体如下:
7.根据权利要求1所述的面向das系统的高质量音频生成方法,其特征在于,所述s4中,使用损失函数,对生成网络与判别网络进行优化,判断损失函数是否小于设定阈值,若是,则结束训练,执行s5;反之则重复训练;
8.一种面向das系统的高质量音频生成系统,其特征在于,包括:数据采集模块、预处理和特征提取模块、生成网络、判别网络、训练模块、转换模块;
9.根据权利要求8所述的面向das系统的高质量音频生成系统,其特征在于,所述下采样模块包括三个7×7下采样卷积层,按顺序其膨胀率分别为1、3、5;每个下采样卷积层后使用leakyrelu激活函数;所述梅尔频谱卷积模块包括一个带权重归一化的一维7×7卷积层,填充为3,其输入的梅尔频谱特征图的长度与输出的卷积后的梅尔频谱特征图的长度一致;
技术总结
本发明公开了一种面向DAS系统的高质量音频生成方法,对低质量、高质量音频数据进行预处理及特征提取,分别得到集合多个短时间帧的音高特征‑梅尔频谱特征数据对的数据集D1和D2;构建包括多通道输入的生成网络和判别网络的高质量音频生成模型;用D2训练生成网络以学习高质量音频的先验分布;判别网络对生成网络的生成信号进行判断,若损失函数小于设定阈值,则结束训练,反之则优化生成网络与判别网络,重复训练;再用D1和D2训练高质量音频生成模型;对待处理的低质量音频进行预处理和特征提取后,输入训练好的高质量音频生成模型,得到高质量音频。本发明提高了音频信号的空间分辨率和一致性,能够更精确地进行高质量音频的生成。
技术研发人员:王宪保,刘豪,郑雅馀,钟恩烨,左顺文,左亚洁,程宝杭
受保护的技术使用者:浙江工业大学
技术研发日:
技术公布日:2024/12/19
技术研发人员:王宪保,刘豪,郑雅馀,钟恩烨,左顺文,左亚洁,程宝杭
技术所有人:浙江工业大学
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
