基于视听融合的声乐演唱情感评价方法

2026-05-16 09:20:02 124次浏览

技术特征：

1.一种基于视听融合的声乐演唱情感评价方法，其特征在于：其包括：

2.根据权利要求1所述的基于视听融合的声乐演唱情感评价方法，其特征在于：在步骤s1中，包括：

3.根据权利要求1所述的基于视听融合的声乐演唱情感评价方法，其特征在于：在步骤s2中，采用视频分支网络来捕捉视觉模态特征，其中，视频分支网络中包括用于提取宏表情特征的慢路径以及用于提取微表情特征的快路径；快路径和慢路径上均采用若干3dcnext网络作为特征提取的主干模块，并且将快路径上提取的视觉特征通过若干个时间步长卷积模块在时间维度上进行下采样后与慢路径上的特征进行融合，最终得到时空融合特征。

4.根据权利要求2所述的基于视听融合的声乐演唱情感评价方法，其特征在于：在步骤s2中，3dcnext的结构思想为将convnextv2的主干和downsample相结合，将其2d卷积转化为3d卷积，3dcnext分为主干网络和downsample部分，其中，

5.根据权利要求1所述的基于视听融合的声乐演唱情感评价方法，其特征在于：在步骤s3中，将wav2vec2.0-processor作为前端处理器将原始音频数据转换为wav2vec2.0-base模型能够理解的格式，wav2vec2.0-base模型将利用处理后的音频特征来执行情感特征提取，将提取的听觉情感特征输入到下游一维卷积网络中，最终得到高维的听觉模态特征。

6.根据权利要求1所述的基于视听融合的声乐演唱情感评价方法，其特征在于：在步骤s4中，包括：

7.根据权利要求6所述的基于视听融合的声乐演唱情感评价方法，其特征在于：在步骤s41中，交叉注意力特征的计算过程为：

8.根据权利要求7所述的基于视听融合的声乐演唱情感评价方法，其特征在于：在步骤s42中，互补后的听觉模态特征和视觉模态特征[fa，fv]的计算方式为：

9.根据权利要求8所述的基于视听融合的声乐演唱情感评价方法，其特征在于：在步骤s43中，将不同权重与两种模态相乘，再进行特征相加，输入到两层的linear中，最终输出模型预测打分score：

10.根据权利要求1所述的基于视听融合的声乐演唱情感评价方法，其特征在于：使用smooth l1loss损失函数来计算预测打分与专家真实打分之间的误差，其表示为：

技术总结
本发明涉及一种基于视听融合的声乐演唱情感评价方法，属于声乐情感测评领域，其包括：构建演唱情感打分数据集，并对数据集进行预处理；采用视频特征提取网络的慢路径和快路径同时捕捉视频中的宏表情和微表情的动态信息，并将慢路径和快路径上提取的特征信息进行融合，得到视觉模态特征；提取演唱音频的能够表征演唱者情感的听觉模态特征；采用双模态交叉注意力机制对视觉模态特征和听觉模态特征进行交互得到互补的视觉模态特征和听觉模态特征，并为其设置对应的能够自主学习的权重参数，再根据特征和权重得到打分结果；构建对应的损失函数，根据损失函数计算预测打分的误差。本发明显著提高了在声乐演唱情感智能测评领域的情感评分的准确性。

技术研发人员：覃巍,李越,张雪婷,刘彦麟,鞠千禧,张利鹏
受保护的技术使用者：重庆邮电大学
技术研发日：
技术公布日：2024/11/28

文档序号 : 【 40163909 】

技术研发人员：覃巍,李越,张雪婷,刘彦麟,鞠千禧,张利鹏
技术所有人：重庆邮电大学

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

覃巍丨李越丨张雪婷丨刘彦麟丨鞠千禧丨张利鹏丨重庆邮电大学

一种基于二维面形高度误差的确定性同步修形加工方法一种基于物联网的人体动作捕捉互动光影系统的制作方法