高效的蓝牙发射端单声道上混方法、系统、介质及设备与流程

2025-09-16 10:20:07 361次浏览

本申请属于蓝牙音频，特别是涉及一种高效的基于非负矩阵分解的蓝牙发射端单声道上混方法、系统、存储介质及设备。

背景技术：

1、目前主流的蓝牙音频编码器有：sbc、aac、aptx系列、ldac、lhdc等。在mp3之后，最主流的音频压缩格式当属aac，其低码率、高音质的特点使其应用十分广泛。很多音乐文件都使用aac格式保存，而且很多中高端手机和蓝牙耳机都支持使用aac格式传输音乐。

2、蓝牙音箱目前比较普及，除了欣赏单声道与立体声，人们更希望能提高沉浸感。5.1声道环绕声是使用比较广泛的音频格式，其能提供较好的用户体验。在多声道信号中，环绕声的一种主要功能是提供环境声(ambient)音效，对于沉浸感非常重要。但由于某些原因，相当数量的aac音源是单声道的，这些音源在通过具备多声道的音箱播放时通常可以使用前中声道播放，或者前左加前右声道播放，后置环绕声道的音箱无法利用，造成资源的浪费，也无法为用户提供沉浸感。

技术实现思路

1、针对现有技术中存在的上述技术问题，本申请提供了一种高效的基于非负矩阵分解的蓝牙发射端单声道上混方法、系统、存储介质及设备，基于非负矩阵分解，对于蓝牙音频中使用aac格式传输的单声道音源，通过在蓝牙发射端编码的同时上混为主声源与环境声，然后在蓝牙接收端进行解码并播放环境声，从而增强用户的沉浸感，提高用户体验。

2、为了实现上述目的，本申请采用的第一个技术方案是：提供一种高效的基于非负矩阵分解的蓝牙发射端单声道上混方法，包括：在蓝牙发射端，输入单声道音频pcm数据，并执行分帧；利用心理声学模型对每一帧单声道音频pcm数据执行窗口长度判决和门限计算，输出窗口长度判决结果；根据窗口长度判决结果，对每一帧单声道音频pcm数据执行加窗和滤波器组，得到mdct谱系数及其对应的mdct幅度谱系数；根据mdct谱系数的类型，构建对应的mdct幅度谱系数矩阵，并对mdct幅度谱系数矩阵执行非负矩阵分解，得到对应的基矩阵和激活矩阵；根据mdct谱系数、mdct幅度谱系数、基矩阵和激活矩阵，计算主声源谱系数和环境声谱系数；分别对主声源谱系数和环境声谱系数继续执行编码模块，输出主声源的码流和环境声的码流；以及在蓝牙接收端，对接收到的主声源的码流和环境声的码流执行解码，得到主声源pcm信号和环境声pcm信号。

3、本申请采用的第二个技术方案是：提供一种高效的基于非负矩阵分解的蓝牙发射端单声道上混系统，包括：用于在蓝牙发射端，输入单声道音频pcm数据，并执行分帧的模块；用于利用心理声学模型对每一帧单声道音频pcm数据执行窗口长度判决和门限计算，输出窗口长度判决结果的模块；用于根据窗口长度判决结果，对每一帧单声道音频pcm数据执行加窗和滤波器组，得到mdct谱系数及其对应的mdct幅度谱系数的模块；用于根据mdct谱系数的类型，构建对应的mdct幅度谱系数矩阵，并对mdct幅度谱系数矩阵执行非负矩阵分解，得到对应的基矩阵和激活矩阵的模块；用于根据mdct谱系数、mdct幅度谱系数、基矩阵和激活矩阵，计算主声源谱系数和环境声谱系数的模块；用于分别对主声源谱系数和环境声谱系数继续执行编码模块，输出主声源的码流和环境声的码流的模块；用于在蓝牙接收端，对接收到的主声源的码流和环境声的码流执行解码，得到主声源pcm信号和环境声pcm信号的模块。

4、本申请采用的第三个技术方案是：提供一种计算机可读存储介质，其存储有计算机指令，其中计算机指令被操作以执行方案一中的高效的基于非负矩阵分解的蓝牙发射端单声道上混方法。

5、本申请采用的第四个技术方案是：提供一种计算机设备，其包括处理器和存储器，存储器存储有计算机指令，其中处理器操作计算机指令以执行方案一中的高效的基于非负矩阵分解的蓝牙发射端单声道上混方法。

6、本申请技术方案可以达到的有益效果是：本申请的技术方案既可以应用于低功耗蓝牙，也可以应用于经典蓝牙，基于非负矩阵分解，对于蓝牙音频中使用aac格式传输的单声道音源，通过在蓝牙发射端编码的同时上混为主声源与环境声，然后在蓝牙接收端进行解码并播放环境声，给听众提供环境声的体验，并使声像的位置与标准多声道环绕声保持相同，从而增强了用户的沉浸感，提高了用户体验，而且还利用现有的时频变换和重叠相加，避免了增加算法延时。

技术特征：

1.一种高效的基于非负矩阵分解的蓝牙发射端单声道上混方法，其特征在于，包括：

2.根据权利要求1所述的高效的基于非负矩阵分解的蓝牙发射端单声道上混方法，其特征在于，所述根据所述窗口长度判决结果，对每一帧所述单声道音频pcm数据执行加窗，包括：

3.根据权利要求1所述的高效的基于非负矩阵分解的蓝牙发射端单声道上混方法，其特征在于，所述窗口长度判决结果包括长窗、过渡窗和短窗，其中，所述过渡窗包括长窗开始和长窗结束。

4.根据权利要求3所述的高效的基于非负矩阵分解的蓝牙发射端单声道上混方法，其特征在于，所述根据所述mdct谱系数的类型，构建对应的mdct幅度谱系数矩阵，包括：

5.根据权利要求1所述的高效的基于非负矩阵分解的蓝牙发射端单声道上混方法，其特征在于，还包括：

6.根据权利要求1所述的高效的基于非负矩阵分解的蓝牙发射端单声道上混方法，其特征在于，还包括：

7.根据权利要求1所述的高效的基于非负矩阵分解的蓝牙发射端单声道上混方法，其特征在于，所述继续执行编码模块，包括：

8.一种高效的基于非负矩阵分解的蓝牙发射端单声道上混系统，其特征在于，包括：

9.一种计算机可读存储介质，其存储有计算机指令，其中所述计算机指令被操作以执行权利要求1-7任一项所述的高效的基于非负矩阵分解的蓝牙发射端单声道上混方法。

10.一种计算机设备，其包括处理器和存储器，所述存储器存储有计算机指令，其中所述处理器操作所述计算机指令以执行权利要求1-7任一项所述的高效的基于非负矩阵分解的蓝牙发射端单声道上混方法。

技术总结
本申请公开了一种高效的基于非负矩阵分解的蓝牙发射端单声道上混方法、系统、存储介质及设备，属于蓝牙音频领域，该方法包括在蓝牙发射端输入单声道音频，执行分帧；利用心理声学模型对每一帧执行窗口长度判决，输出窗口长度判决结果；根据长度判决结果执行加窗和滤波器组，得到谱系数及幅度谱；根据谱系数类型，构建幅度谱矩阵，并执行非负矩阵分解，得到基矩阵和激活矩阵；根据谱系数、幅度谱、基矩阵和激活矩阵，计算主声源和环境声谱系数；分别对主声源和环境声谱系数继续执行编码，输出主声源和环境声码流；在蓝牙接收端对主声源和环境声码流执行解码，得到主声源和环境声PCM。本申请在蓝牙发射端基于单声道信号生成环境声，增强用户沉浸感。

技术研发人员：李强,叶东翔,朱勇
受保护的技术使用者：深圳百瑞互联技术有限公司
技术研发日：
技术公布日：2024/11/28

文档序号 : 【 40164612 】

技术研发人员：李强,叶东翔,朱勇
技术所有人：深圳百瑞互联技术有限公司

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

李强丨叶东翔丨朱勇丨深圳百瑞互联技术有限公司