一种乐器演奏的手部运动生成方法、装置及介质

本申请涉及人工智能与计算机视觉,特别是涉及乐器演奏的手部运动生成方法、装置及介质。
背景技术:
1、人工智能在技能学习方面有着显著的潜力,尤其在乐器学习领域。对于钢琴,演奏者需要深刻理解乐谱与肢体动作之间的关联,通过反复练习才能熟练掌握钢琴的指法和手部运动技巧。为了提供更直观的钢琴学习指导,ai钢琴指导系统应运而生,能够依据音乐生成钢琴演奏时对应的3d手部运动图像,帮助人们更好地学习钢琴。
2、然而,目前的钢琴指导方式过于专注于连续音符的局部指法约束,忽略长距离指法关系,导致得到的手势的准确性比较低,不太符合现实演奏的手势要求。
技术实现思路
1、本申请提供了乐器演奏的手部运动生成方法、装置及存储介质,能够提高手部运动图生成的准确性。
2、第一方面,本申请提供一种乐器演奏的手部运动生成方法,基本模型包括音频细节提取器、手部位置预测器和手势生成器;方法包括:
3、获取目标音频片段;
4、将目标音频片段输入基本模型,利用音频细节提取器对目标音频片段进行提取,得到音频特征;
5、利用手部位置预测器对音频特征进行手部位置预测,得到手部预测位置序列;
6、将目标音频片段和手部预测位置序列输入手势生成器进行多步逆扩散处理,得到基本模型输出的手部运动图。
7、其进一步的技术方案为,得到音频特征之后,方法还包括:
8、利用音频细节提取器对音频特征进行编码,得到编码后的音频特征;
9、利用手部位置预测器对音频特征进行手部位置预测,得到手部预测位置序列,包括:
10、利用手部位置预测器对编码后的音频特征进行手部位置预测,得到手部预测位置序列;
11、将目标音频片段和手部预测位置序列输入手势生成器,得到基本模型输出的手部运动图,包括:
12、将编码后的音频特征和手部预测位置序列输入手势生成器,得到基本模型输出的手部运动图。
13、其进一步的技术方案为,手部位置预测器包括手部位置解码器和线性映射层,利用手部位置预测器对编码后的音频特征进行手部位置预测,得到手部预测位置序列,包括:
14、将编码后的音频特征输入手部位置解码器,利用手部位置解码器对编码后的音频特征进行解码,得到潜在特征;
15、利用线性映射层将潜在特征映射到输出位置,得到手部预测位置序列。
16、其进一步的技术方案为,手势生成器包括时间嵌入层和手势解码器,将编码后的音频特征和手部预测位置序列输入手势生成器,得到基本模型输出的手部运动图,包括:
17、将编码后的音频特征输入手势解码器,得到所述手势解码器输出的手势特征;
18、将预设扩散时间步数输入时间嵌入层,得到所述时间嵌入层输出的时间步嵌入信息;
19、将时间步嵌入信息,手势特征和手部预测位置序列输入已训练的去噪模型,得到去噪手势特征;
20、基于手部预测位置序列和去噪手势特征,得到基本模型输出的手部运动图。
21、其进一步的技术方案为,预设噪声样本采用以下方式得到:
22、获取待训练的原始样本;
23、利用前向扩散过程构建马尔科夫链,在预设时间步长内,对待训练的原始样本逐步添加噪声,得到预设噪声样本。
24、其进一步的技术方案为,基本模型的网络训练方式包括:
25、将编码后的音频特征输入手部位置预测器;
26、利用手势解码器对编码后的音频特征进行解码,得到潜在特征;
27、利用线性映射层将潜在特征映射到输出位置,得到手部预测位置序列;
28、基于手部预测位置序列和手部真实位置,确定位置损失值和速度损失值;
29、利用位置损失值和速度损失值对位置预测器进行训练。
30、其进一步的技术方案为,基于手部预测位置序列和手部真实位置,确定位置损失值和速度损失值,包括:
31、利用曼哈顿损失函数计算手部预测位置序列和手部真实位置之间的曼哈顿距离,得到位置损失值;
32、利用欧几里得损失函数计算手部预测位置序列和手部真实位置之间的欧几里得距离,得到速度损失值。
33、其进一步的技术方案为,基本模型的网络训练方式还包括:
34、利用已训练的手部位置预测器指导手势生成器进行速度预测训练。
35、第二方面,本申请提供了一种乐器演奏手部运动的生成装置,其特征在于,乐器演奏手部运动的生成装置包括用于执行如上述任一项方法的单元。
36、第三方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质用于存储计算机程序,计算机程序在被处理器执行时,用于实现如上述任一项方法的步骤。
37、本申请的有益效果是:区别于现有技术的情况,本申请通过音频细节提取器,能够深入分析目标音频片段中的节奏、音高、强度等细微特征,以精确捕捉音乐与手部运动之间复杂的非线性关系,将音乐中的微妙变化反映到手部运动的微调上,提高手部动作生成的真实感,并利用位置预测器估计出的手部预测位置序列指导手势生成器,使手势生成器生成连贯流畅的手部运动路径。
38、此外,由于手势生成器采用多步逆扩散处理技术,结合目标音频片段、预测出的手部位置以及特定的噪声样本,逐步细化并优化手部运动图,进而提高手部运动图生成的准确性,使得最终生成的手部运动图更加细腻、自然,能够展现连续且富有表现力的手势变化,从而更加符合现实演奏的手势要求。
技术特征:
1.一种乐器演奏的手部运动生成方法,其特征在于,基本模型包括音频细节提取器、手部位置预测器和手势生成器;所述方法包括:
2.根据权利要求1所述的乐器演奏的手部运动生成方法,其特征在于,所述得到音频特征之后,所述方法还包括:
3.根据权利要求2所述的乐器演奏的手部运动生成方法,其特征在于,所述手部位置预测器包括手部位置解码器和线性映射层,所述利用所述手部位置预测器对所述编码后的音频特征进行手部位置预测,得到手部预测位置序列,包括:
4.根据权利要求2所述的乐器演奏的手部运动生成方法,其特征在于,所述手势生成器包括时间嵌入层和手势解码器,所述将所述编码后的音频特征和所述手部预测位置序列输入所述手势生成器,得到所述基本模型输出的手部运动图,包括:
5.根据权利要求4所述的乐器演奏的手部运动生成方法,其特征在于,所述已训练的去噪模型采用以下方式进行训练:
6.根据权利要求4所述的乐器演奏的手部运动生成方法,其特征在于,所述基本模型的网络训练方式包括:
7.根据权利要求6所述的乐器演奏的手部运动生成方法,其特征在于,所述基于所述手部预测位置序列和手部真实位置,确定位置损失值和速度损失值,包括:
8.根据权利要求6所述的乐器演奏的手部运动生成方法,其特征在于,所述基本模型的网络训练方式还包括:
9.一种乐器演奏手部运动的生成装置,其特征在于,所述乐器演奏手部运动的生成装置包括用于执行如权利要求1-8任一项所述方法的单元。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序数据,所述程序数据在被处理器执行时,用于实现如权利要求1-8任一项所述的乐器演奏的手部运动生成方法。
技术总结
本申请公开一种乐器演奏的手部运动生成方法、装置及介质,方法包括:获取目标音频片段;将目标音频片段输入基本模型,利用音频细节提取器对目标音频片段进行提取,得到音频特征;利用手部位置预测器对音频特征进行手部位置预测,得到手部预测位置序列;将目标音频片段和手部预测位置序列输入手势生成器进行多步逆扩散处理,得到去噪手势特征,基于手部预测位置序列和所述去噪手势特征,得到基本模型输出的手部运动图。本申请能够提高手部运动图生成的准确性。
技术研发人员:张茜,庞彦,董长宇,李达文,黄琳婷
受保护的技术使用者:广州大学
技术研发日:
技术公布日:2024/12/10
技术研发人员:张茜,庞彦,董长宇,李达文,黄琳婷
技术所有人:广州大学
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
