基于视听融合的声乐演唱情感评价方法

2026-05-16 09:20:02 122次浏览

本发明属于声乐情感测评领域，涉及一种基于视听融合的声乐演唱情感评价方法。

背景技术：

1、在音乐教育领域中，相关研究通常仅针对演唱音频进行情感评价，忽略了面部表情对演唱情感评价的重要性。

2、现有传统评价方式，具有费时、场地受限、教师需求较大的特点，且存在效率低下、培训投入成本高的问题，近年来，我国高度重视美育教育的发展，多次发文提及利用人工智能手段改进评价过程和活化教学内容。

3、公开号为cn115579021a的现有技术提出了一种基于神经网络和视听融合的声乐表演评分方法及系统，利用不同的神经网络分别得到三个维度的专家评分数据，包括音频评分、情感评分与着装评分，然后将三个维度的评分输入到专家评分拟合神经网络，最后得到综合评分。其将面部特征和音高序列进行提取以进行情感打分，但是其仍存在以下问题：其没有考虑到演唱时面部嘴部动作幅度大小和持续时间长短；其没有考虑到肌肉和眼部动作快速持续时间长短；视觉和听觉的情感打分权重比不对等，如何综合得到两者更适合的权重；在传统教师音乐评价方式里，通常是需要将演唱情感评价结果进行分数量化而不是分类。因此，为了提高演唱情感评价的效率与准确性，亟需一种基于视听融合的声乐演唱情感评价方法来解决此问题。

技术实现思路

1、有鉴于此，本发明的目的在于提供一种基于视听融合的声乐演唱情感评价方法。

2、为达到上述目的，本发明提供如下技术方案：

3、一种基于视听融合的声乐演唱情感评价方法，其包括：

4、s1、构建演唱情感打分数据集，并对数据集进行预处理；

5、s2、采用视频特征提取网络的慢路径和快路径同时捕捉视频中的宏表情和微表情的动态信息，并将慢路径和快路径上提取的特征信息进行融合，得到视觉模态特征；

6、s3、采用wav2vec2.0-base模型来提取演唱音频的能够表征演唱者情感的听觉模态特征；

7、s4、采用双模态交叉注意力机制对视觉模态特征和听觉模态特征进行交互得到互补的视觉模态特征和听觉模态特征，并为其设置对应的能够自主学习的权重参数，再根据特征和权重得到打分结果；

8、s5、构建对应的损失函数，根据损失函数计算预测打分的误差。

9、进一步，在步骤s1中，包括：

10、s11、首先录制若干演唱者演唱歌曲的视频文件，并将录制的视频文件截取为预设长度的子视频文件；

11、s12、由声乐专家根据演唱者表情和发声情绪表现给予综合情感打分注释，并为子视频文件添加标签注释，其中，标签注释包含：视频文件序列号、演唱者性别、歌曲序号、情感打分注释、子视频文件序号；

12、s13、采用opencv库中的cv2.videocapture函数按帧读取视频，计算帧间隔，从子视频文件中提取帧图片；根据每秒钟提取的帧数将演唱者的面部表情分为宏表情和微表情；再对帧图片中的人脸面部区域进行分割并保存；

13、s14、将原始音频直接放入wav2vec2.0自带的processor模块对音频数据进行预处理，将音频数据转换为音频特征。

14、进一步，在步骤s2中，采用视频分支网络来捕捉视觉模态特征，其中，视频分支网络中包括用于提取宏表情特征的慢路径以及用于提取微表情特征的快路径；快路径和慢路径上均采用若干3dcnext网络作为特征提取的主干模块，并且将快路径上提取的视觉特征通过若干个时间步长卷积模块在时间维度上进行下采样后与慢路径上的特征进行融合，最终得到时空融合特征。

15、进一步，在步骤s2中，3dcnext包括主干网络和downsample部分，将2d卷积转化为3d卷积，其中，主干网络包括3个3d卷积层，步长均为1，第一个卷积层采用3d可分离卷积，卷积核大小为7*7*7，接着采用层归一化，第二个和第三个卷积层均采用1*1*1的点卷积，激活函数为gelu。

16、downsample部分采用一个卷积核大小为2*2*2，步长大小为2的3d卷积，用来对视觉特征进行下采样。

17、进一步，在步骤s3中，将wav2vec2.0-processor作为前端处理器将原始音频数据转换为wav2vec2.0-base模型能够理解的格式，wav2vec2.0-base模型将利用处理后的音频特征来执行情感特征提取，将提取的听觉情感特征输入到下游一维卷积网络中，最终得到高维的听觉模态特征。

18、进一步，在步骤s4中，包括：

19、s41、将特征提取网络输出的听觉模态特征和视觉模态特征表示为xa和xv，采用交叉注意力机制动态调整双模态间的信息流，得到交叉注意力特征；

20、s42、将交叉注意力特征与原特征相加进行信息互补，得到信息互补后的听觉模态特征和视觉模态特征[fa,fv]；

21、s43、为互补后的听觉模态特征和视觉模态特征[fa,fv]分别设置不同的权重参数[wa,wv]，通过反向传播和梯度下降来优化权重[wa,wv]，自主学习两种模态的权重后，计算出最终预测打分。

22、进一步，在步骤s41中，交叉注意力特征的计算过程为：

23、

24、其中，是学习的权重矩阵，dk是查询和键向量的维度。

25、进一步，在步骤s42中，互补后的听觉模态特征和视觉模态特征[fa,fv]的计算方式为：

26、fa＝xa+crossattention(xa,xv)

27、fv＝xv+crossattention(xv,xa)

28、互补后的听觉模态特征和视觉模态特征保留了原特征中的特征信息。

29、进一步，在步骤s43中，将不同权重与两种模态相乘，再进行特征相加，输入到两层的linear中，最终输出模型预测打分score：

30、f＝concat(wa·fa,wv·fv)

31、score＝linear2(linear1(f))

32、其中，f表示avcroatt融合后的特征。

33、进一步，使用smooth l1loss损失函数来计算预测打分与专家真实打分之间的误差，其表示为：

34、

35、其中：xn为预测打分，yn为专家打分，β为超参数，其用于控制l1损失和l2损失之间的过渡，n表示数据集中用于训练、验证或测试的样本的总数。

36、本发明的有益效果在于：

37、本发明引入了视觉信息，且根据演唱面部特点与现实场景的评价权重规则进行算法设计，填补了市面上仅根据演唱音频进行情感评价的空缺，并且显著提高了在声乐演唱情感智能测评领域的情感评分的准确性。且可将算法模型部署到移动端设备中，能够实现不受场地、时间、师资等条件的限制进行演唱情感打分，提高了音乐学习效率，同时响应了国家的美育政策。

38、本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

文档序号 : 【 40163909 】

技术研发人员：覃巍,李越,张雪婷,刘彦麟,鞠千禧,张利鹏
技术所有人：重庆邮电大学

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

覃巍丨李越丨张雪婷丨刘彦麟丨鞠千禧丨张利鹏丨重庆邮电大学

一种基于二维面形高度误差的确定性同步修形加工方法一种基于物联网的人体动作捕捉互动光影系统的制作方法