一种联合声纹耳纹特征的轻量化身份识别方法

本发明涉及深度学习模型,尤其涉及一种联合声纹耳纹特征的轻量化身份识别方法。
背景技术:
1、随着如今人工智能等科技的快速发展,各种身份识别技术层出不穷,如虹膜识别、指纹识别、人脸识别、声纹识别等生物识别技术。声纹识别技术相对于其它生物识别技术准确率相对较低,这是由于语音数据的采集很容易受到环境等各种噪声干扰,因而降低了识别准确性。将声纹数据与耳纹数据结合,能减少环境噪声等干扰,提升身份识别的准确性。需要指出的是,本发明权利要求中所述耳纹特征,指人耳内耳道回声信号的特征,不是指类似指纹一样的人耳外观纹路特征。
2、早期专利给出了耳纹声学特征提取的方法(如[1]虞安波.一种适用于降噪耳机设计的耳纹声学特性在线识别方法及系统[p].北京市:cn201610842206.8,2017-08-22.),但并未涉及如何利用耳纹特征进行身份识别。
3、近年来,有专利给出了利用耳纹特征进行身份识别的方法(如专利[2]黄勤波,郭泉,李晶.基于耳纹的隐私识别方法及装置[p].广东:cn201610751856.1,2018-03-09;专利[3]j·p·莱索,w·e·舍伍德,p·巴德斯利,et al.生物识别过程、设备和机器可读介质[p].英国:cn202080013151.4,2021-09-17.)。如专利[2],利用人与人之间耳纹不同而具有的辨识性,通过待验证人耳纹是否与已知授权人耳纹的匹配,来识别待验证人是否为已知授权人。但此类专利并未涉及声纹与耳纹共同用于身份识别的方法。
4、进一步地,专利[4](戴祖华,张亦农.目标用户确认方法、装置、电子设备和可读存储介质[p].江苏省:cn202311661230.8,2024-03-26.)提出利用耳纹和其他生物特征(包括声纹)进行身份识别的方法,但该方法中耳纹和声纹特征分别通过第一和第二确认模型进行身份识别。与之不同,本发明将耳纹和声纹特征进行融合后,输入一个共用的身份识别模型,并重点说明该身份识别模型轻量化构成,以适应识别模型在耳机等小型智能设备中使用的需求。
5、蓝牙耳机等小型智能设备的参数存储和计算能力弱,而深度学习神经网络模型一般都具有较大的参数量和计算量,因此,若要使深度学习模型适用于存储和计算能力弱的小型设备,需要减小模型参数即模型轻量化。但模型轻量化面临的挑战是,如何平衡模型参数量减小与性能提升之间的矛盾,因为参数量减少会使模型性能下降。本发明提出的方法,相比于已有方法,实现了在较好的识别等错误率(eer)前提下,模型参数量大幅减少。
技术实现思路
1、本发明的目的是在蓝牙耳机等小型智能设备上,利用声纹和耳纹进行身份识别时,解决模型轻量化面临的平衡模型参数量减小与性能提升之间矛盾的问题,较于只有声纹数据进行身份识别的方法,本发明在降低等错误率(eer)的同时,大幅减小身份识别模型的参数量。
2、为达到上面所述目的,本发明提供了一种联合声纹耳纹特征的轻量化身份识别方法。本发明要解决的技术问题通过以下技术方案实现:
3、本发明实施例提供了一种联合声纹耳纹特征的轻量化身份识别方法,所述身份识别方法包括:
4、步骤1:获取已知注册人的语音和耳道回声信号;
5、步骤2:分别提取所述已知注册人语音和耳道回声信号的13维梅尔频率倒谱系数(mel-frequency cepstral coefficients,mfcc),并将两者的梅尔倒谱特征系数进行融合,即获得已知注册人声纹和耳纹融合特征;
6、步骤3:将所述步骤2获得的融合特征输入轻量化身份识别模型,输出128维嵌入特征向量;
7、步骤4:获取待验证人的语音和耳道回声信号;
8、步骤5:分别提取所述待验证人语音和耳道回声信号的13维梅尔频率倒谱系数,并将两者的梅尔倒谱特征系数进行融合,即获得待验证人声纹和耳纹融合特征;
9、步骤6:将所述步骤5获得的声纹和耳纹融合特征输入轻量化身份识别模型,输出128维嵌入特征向量;
10、步骤7:将所述步骤3和步骤6分别输出的128维嵌入特征向量,进行相似度比较,相似度大于阈值的,判定待验证人即为已知注册人,否则判定待验证人不是已知注册人;
11、所述轻量化身份识别模型用于逐层提取所述声纹和耳纹融合特征的高层抽象特征,获取信号帧级别的表示特征;所述轻量化身份识别模型包括多层神经网络和全连接结构,其中每层神经网络依次包括多个全连接层、激活函数、叠加层,全连接结构依次包括全连接层、激活函数、统计池化层、全连接输出层。
12、在一个发明实施例中,所述轻量化身份识别模型中多层神经网络包括:
13、叠加层:concat,用于叠加所述多个全连接层的输出特征,最终输出为64维特征。
14、在一个发明实施例中,所述轻量化身份识别模型中全连接结构包括:
15、统计池化层:128×256,128表示输入128维,256表示输出256维,用于对输入特征计算均值和标准差,以聚集帧特征:
16、全连接输出层:256×128dense,256表示输入256维,128表示输出128维嵌入特征。
17、在一个发明实施例中,所述步骤7中相似度计算,采用概率线性判别分析(plda)法计算待验证人员与已注册人员的嵌入层特征相似度。
18、在一个发明实施例中,所述轻量化身份识别模型需要经过预训练,预训练包括两个模型,一个是采用ecapa(emphasized channel attention,propagation andaggregation)的延时神经网络作为预训练模型1,另一个是所述轻量化身份识别模型作为预训练模型2,两个预训练模型的训练过程如下:
19、获取训练样本语音和耳道回声信号,并对所述训练样本语音和耳道回声信号进行标记,以形成带有标签的训练样本;
20、提取所述每一个带标签的语音和耳道回声信号13维梅尔频率倒谱系数,并将两者的梅尔倒谱特征系数进行融合,即获得声纹和耳纹融合特征;
21、将所述所有带标签的声纹和耳纹融合特征,分别输入预训练模型1和预训练模型2;
22、设定预训练模型1和预训练模型2的总损失函数如下:
23、
24、其中分别是预训练模型1和预训练模型2输出的特征向量,score1和score2分别为预训练模型1和预训练模型2输出特征的类别概率分值;n表示样本数,m表示类别总数;yk是符号函数,如果样本i的真实类别等于c则取1,否则取0;是样本i属于类别c的预测概率值,α(0<α<1)是权重,用于平衡两个损失函数。
25、预训练模型训练好后,保存预训练模型2的参数,即得到训练好的轻量化身份识别模型。
26、与现有技术相比,本发明的有益效果:
27、(1)本发明针对语音信号易受干扰而使声纹身份识别准确率下降的问题,提出将声纹和耳纹数据特征融合的方法,提高身份识别模型的抗干扰性。
28、(2)本发明针对在蓝牙耳机等小型智能设备上无法部署大参数量身份识别模型的问题,构建轻量化身份识别模型。首先降低模型输入数据特征的维度,即仅输入声纹和耳纹数据的13维梅尔频率倒谱系数;其次,在减少模型参数量的同时,借助预训练过程,从大参数量的预训练模型中进行预先学习,以保证轻量化模型的识别准确率,进而有效平衡模型参数量与性能提升之间的矛盾。
29、(3)本发明较于只有声纹数据进行身份识别的方法,在降低等错误率(eer)的同时,大幅减小身份识别模型的参数量。
30、附图表说明
31、图1是本发明实施例提供的一种联合声纹耳纹特征的轻量化身份识别方法步骤流程图;
32、图2是本发明实施例提供的轻量化身份识别模型构成示意图。
技术研发人员:高远,余得水,汤一彬,王鑫,姚澄
技术所有人:河海大学
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
