一种声纹识别方法及声纹识别系统与流程

2025-09-19 11:40:01 491次浏览

本发明涉及声纹识别，具体涉及一种声纹识别方法及声纹识别系统。

背景技术：

1、声纹识别，生物识别技术的一种，也称为说话人识别，包括说话人辨认和说话人确认。声纹识别就是把声信号转换成电信号，再用计算机进行识别。不同的任务和应用需要使用不同的声纹识别技术，不然就达不到想要的效果，比如将现有的声纹识别技术使用在声纹打卡上时，采用现有声纹识别技术的声纹设备有可能将别人的录音或远程电话语音识别为当前人员对声纹设备说话的声音，造成代打卡的情况，导致公司无法获取有效的考勤记录。

技术实现思路

1、为解决上述问题，本发明提供了一种声纹识别方法及声纹识别系统。本发明的具体技术方案如下：

2、一种声纹识别方法，该方法包括以下步骤：s1：声纹识别系统接收声纹设备获取的声纹文件，然后对接收的声纹文件进行分类并存储到存储模块中；s2：声纹识别系统的处理平台从存储模块存储的声纹文件中提取出相对应的声纹文件；s3：声纹识别系统对提取出的声纹文件进行处理，得到所述声纹文件的频谱；s4：声纹识别系统采用声纹识别模型来对所述声纹文件的频谱进行特征提取，得到所述声纹文件的声纹特征；s5：声纹识别系统比较得到的声纹特征和初始声纹特征，根据比较结果来确定需要识别的声音是否匹配。

3、进一步地，步骤s1中，声纹识别系统对声纹文件进行分类存储，包括以下步骤：声纹设备先构造一个audiorecord对象，然后初始化一个缓冲区，再通过音频硬件在设定时间内接收声音数据；其中，所述初始化的缓冲区的容量大于或等于audiorecord对象用于写入声音数据的缓冲区的容量；声纹设备创建一个数据流，从audiorecord中读取声音数据到初始化的缓冲区，然后将缓冲区中的数据输出，得到声纹文件；声纹设备将得到的声纹文件和自身的id号发送给处理平台，然后处理平台在接收到声纹设备传输的声纹文件和id号后，根据声纹设备的id号对声纹文件进行分类，并将声纹文件存储到存储模块中。

4、进一步地，步骤s2中，声纹识别系统的处理平台从存储模块存储的声纹文件中提取出相对应的声纹文件，包括以下步骤：声纹识别系统的处理平台在声纹识别系统接收到m个声纹文件后，根据获取声纹文件的声纹设备的id号从存储模块中提取出与id号相对应的最新上传的声纹文件；其中，m为大于或等于1的自然数。

5、进一步地，步骤s3中，所述声纹识别系统对提取出的声纹文件进行处理，包括以下步骤：声纹识别系统的处理平台先对声纹文件进行音频预处理，其中，所述音频预处理包括但不限于音频加载、加帧和加窗；声纹识别系统的处理平台对进行音频预处理后的声纹文件进行傅里叶变换，得到声纹文件的频谱。

6、进一步地，声纹识别系统训练声纹识别模型包括以下步骤：声纹识别系统获取音频数据集，其中，所述音频数据集包括两个或两个以上人员的语音样本；声纹识别系统将音频数据集中的语音样本统一为wav格式，然后将音频数据集划分为训练集、验证集和测试集；声纹识别系统对声纹识别模型的参数进行初始化处理，然后设置声纹识别模型的参数；声纹识别系统采用训练集对设置参数后的声纹识别模型进行迭代训练，然后采用验证集通过反向传播函数算法对声纹识别模型进行参数调整，使损失函数的值最小化；声纹识别系统使用测试集对声纹识别模型进行评估，来计算声纹识别模型的性能指标，其中，所述性能指标包括但不限于准确率、召回率和等错误率；声纹识别系统通过评估结果来对声纹识别模型进行调整，得到用于进行声纹识别的声纹识别系统，其中，所述调整包括但不限于模型架构调整、训练参数调整和数据增强调整。

7、进一步地，声纹识别系统采用声纹识别模型来对所述声纹文件的频谱进行特征提取前，将声纹识别模型的特征提取器的采用率配置为16khz和将梅尔滤波器的数量配置为80。

8、进一步地，步骤s4中，声纹识别系统采用声纹识别模型来对所述声纹文件的频谱进行特征提取，包括以下步骤：声纹识别系统先对声纹文件的频谱进行分帧，然后对每一帧频谱数据进行离散傅里叶变换，得到声纹文件的频谱信息；声纹识别系统利用梅尔滤波器将频谱信息转换为梅尔频率谱图；声纹识别系统对梅尔频率谱图进行离散余弦变换，然后将最靠前的n个系数作为声纹文件的声纹特征；其中，n为大于1的自然数。

9、进一步地，步骤s5，声纹识别系统比较得到的声纹特征和初始声纹特征，包括以下步骤：声纹识别系统将得到的声纹特征和初始声纹特征通过余弦距离函数进行计算，得到余弦距离；声纹识别系统采用1减去获得的余弦距离，得到余弦相似度；声纹识别系统将余弦相似度与设定值进行比较；若余弦相似度大于或等于设定值，则声纹识别系统判断声纹匹配；若余弦相似度小于设定值，则声纹识别系统判断声纹不匹配。

10、进一步地，声纹识别系统获取初始声纹特征，包括以下步骤：声纹识别系统在开始进行声纹识别前，先通过声纹设备录入目标声音，得到目标声纹文件；声纹识别系统对目标声纹文件进行音频预处理，其中，所述音频预处理包括但不限于音频加载、加帧和加窗；声纹识别系统的处理平台对进行音频预处理后的目标声纹文件进行傅里叶变换，得到目标声纹文件的频谱；声纹识别系统先对目标声纹文件的频谱进行分帧，然后对每一帧频谱数据进行离散傅里叶变换，得到目标声纹文件的频谱信息；声纹识别系统利用梅尔滤波器将频谱信息转换为梅尔频率谱图；声纹识别系统对梅尔频率谱图进行离散余弦变换，然后将最靠前的n个系数作为目标声纹文件的初始声纹特征；其中，n为大于1的自然数。

11、一种声纹识别系统，所述声纹识别系统通过上述的声纹识别方法来进行声纹识别，所述声纹识别系统包括处理平台、存储模块和若干声纹设备，所述处理平台用于对声纹文件进行处理和匹配，所述存储模块用于存储声纹文件，所述声纹设备用于将声音转换为声纹文件，所述声纹识别包括音频硬件，所述音频硬件用于采集声音。

12、现有的技术相比，本发明的有益效果在于：本申请所述的声纹识别系统在声纹识别系统获取到用户的声音后，先将获取的声音转化为声纹文件，然后存储到存储模块中，然后再从存储模块中提取出声纹文件，并通过声纹识别模型来从声纹文件中获取到声纹特征，然后通过比较声纹特征和初始声纹特征来确定声纹是否匹配，简化了声纹识别过程，提高声纹识别的效率；先将声音转化为声纹文件进行存储，然后再提取声纹文件来进行对比，该方式可以有效识别出用户是否通过录音或者电话语音来进行打卡，提高考勤记录的准确度。

技术特征：

1.一种声纹识别方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的声纹识别方法，其特征在于，步骤s1中，声纹识别系统对声纹文件进行分类存储，包括以下步骤：

3.根据权利要求2所述的声纹识别方法，其特征在于，步骤s2中，声纹识别系统的处理平台从存储模块存储的声纹文件中提取出相对应的声纹文件，包括以下步骤：

4.根据权利要求3所述的声纹识别方法，其特征在于，步骤s3中，所述声纹识别系统对提取出的声纹文件进行处理，包括以下步骤：

5.根据权利要求1所述的声纹识别方法，其特征在于，声纹识别系统训练声纹识别模型包括以下步骤：

6.根据权利要求5所述的声纹识别方法，其特征在于，声纹识别系统采用声纹识别模型来对所述声纹文件的频谱进行特征提取前，将声纹识别模型的特征提取器的采用率配置为16khz和将梅尔滤波器的数量配置为80。

7.根据权利要求4所述的声纹识别方法，其特征在于，步骤s4中，声纹识别系统采用声纹识别模型来对所述声纹文件的频谱进行特征提取，包括以下步骤：

8.根据权利要求7所述的声纹识别方法，其特征在于，步骤s5，声纹识别系统比较得到的声纹特征和初始声纹特征，包括以下步骤：

9.根据权利要求8所述的声纹识别方法，其特征在于，声纹识别系统获取初始声纹特征，包括以下步骤：

10.一种声纹识别系统，其特征在于，所述声纹识别系统通过权利要求1至9中任一项所述的声纹识别方法来进行声纹识别，所述声纹识别系统包括处理平台、存储模块和若干声纹设备，所述处理平台用于对声纹文件进行处理和匹配，所述存储模块用于存储声纹文件，所述声纹设备用于将声音转换为声纹文件，所述声纹识别包括音频硬件，所述音频硬件用于采集声音。

技术总结
本发明公开了一种声纹识别方法及声纹识别系统，包括：S1：声纹识别系统接收声纹设备获取的声纹文件，然后对接收的声纹文件进行分类并存储到存储模块中；S2：声纹识别系统的处理平台从存储模块存储的声纹文件中提取出相对应的声纹文件；S3：声纹识别系统对提取出的声纹文件进行处理，得到所述声纹文件的频谱；S4：声纹识别系统采用声纹识别模型来对所述声纹文件的频谱进行特征提取，得到所述声纹文件的声纹特征；S5：声纹识别系统比较得到的声纹特征和初始声纹特征，根据比较结果来确定需要识别的声音是否匹配，简化了声纹识别过程，提高声纹识别的效率。

技术研发人员：程东允,黄嘉勉,钟斌,程桂沅
受保护的技术使用者：辉航智慧科技（海南）有限公司
技术研发日：
技术公布日：2024/11/28

文档序号 : 【 40164356 】

技术研发人员：程东允,黄嘉勉,钟斌,程桂沅
技术所有人：辉航智慧科技（海南）有限公司

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

程东允丨黄嘉勉丨钟斌丨程桂沅丨辉航智慧科技（海南）有限公司

盘式电机转子及盘式电机的制作方法一种提高耦合容忍度的八线圈无线电能传输装置