一种数字人模型的训练方法、装置以及设备与流程

本发明涉及人工智能,尤其涉及一种数字人模型的训练方法、装置以及设备。
背景技术:
1、在现有视频数字人生成技术中,尽管通过分别处理音频信息和参考人像信息,并利用音频编码网络和视频编码网络进行特征编码,然后将两者拼接后送入解码网络生成与音频对齐的说话口型,已经成为一种普遍的工作范式,但该方法在保持唇齿特征与原人物高度一致性和统一性方面仍面临显著挑战。然而,现有技术主要通过建立唇齿部分的损失函数来重建嘴型特征,以试图确保生成的唇齿图像与当前帧的唇齿尽量一致,但这种方法存在一个根本性的缺陷:它无法有效处理当前参考帧与需要被音频驱动的帧之间唇齿状态的显著差异。特别是在参考帧中唇齿状态(如闭嘴)与音频所需驱动的唇齿状态差异较大时,模型由于缺乏有效的参考信息,往往会根据自身的经验来生成唇齿图像,导致生成的牙齿与真实人物的牙齿在大小、形状、颗粒数等方面存在不一致性。这种不一致性在连续的图像帧中尤为明显,因为模型可能会根据每一帧的音频信息独立生成牙齿图像,而不是基于原人物牙齿的固有特征进行连贯性生成。这不仅影响了数字人模型的逼真度,也破坏了唇齿运动的自然性和统一性。
技术实现思路
1、有鉴于此,本发明的目的在于提出一种数字人模型的训练方法、装置以及设备,旨在解决如何确保在连续图像帧中生成的唇齿特征与原人物始终保持高度一致性和统一性,以生成自然、连贯且逼真的唇齿动作的数字人视频。
2、为实现上述目的,本发明提供一种数字人模型的训练方法,所述方法包括:
3、获取人像视频文件,利用预设的牙齿关键帧模型确定所述人像视频文件的关键帧作为牙齿参考图像;
4、提取所述人像视频文件中的每一图像帧并进行处理,得到训练图像,以及提取所述人像视频文件的音频并进行处理,得到音频数据;
5、将调整后的所述牙齿参考图像、所述训练图像、以及所述音频数据分别输入第一视频编码网络、第二视频编码网络以及音频编码网络进行特征提取,得到第一特征向量、第二特征向量以及音频特征向量;
6、将所述第一特征向量、所述第二特征向量以及所述音频特征向量进行拼接后输入解码网络进行模型训练,得到用于生成人像与音频对齐的数字人视频的数字人模型。
7、优选的,所述利用预设的牙齿关键帧模型确定所述人像视频文件的关键帧作为牙齿参考图像,包括:
8、逐帧读取所述人像视频文件中的图像帧并输入所述牙齿关键帧模型中进行打分,得到对应每一图像帧的得分,其中,所述牙齿关键帧模型根据所划分的类别确定每一图像帧的所属类别,每一类别对应一个分数;
9、根据得分对所有帧进行从高到低排序,取得分最高的前n个图像帧作为关键帧,得到所述牙齿参考图像。
10、优选的,所述牙齿关键帧模型的训练过程包括:
11、通过获取牙齿图片数据集,并按照牙齿暴露程度对所述牙齿图片数据集进行类别划分并标注,得到多分类训练数据;
12、将所述多分类训练数据输入基于resnext101_32x32d的模型架构上进行训练,得到所述牙齿关键帧模型。
13、优选的,所述提取所述人像视频文件中的每一图像帧并进行处理,得到训练图像,包括:
14、利用人脸检测网络识别每一图像帧的人脸框和人脸关键点信息,根据人脸框和人脸关键点信息计算人脸眉心到下巴的第一距离,并以嘴部中心点位置往外扩展第一距离的预设倍数后进行裁剪,得到多个人脸信息图像,对每一所述人脸信息图像进行调整至预设大小,得到人脸输入图像;
15、从所述人脸输入图像中随机抽取同一人脸的图像帧以及待生成帧,并对所述待生成帧进行嘴部区域的掩码操作,得到所述训练图像。
16、优选的,所述提取所述人像视频文件的音频并进行处理,得到音频数据,包括:
17、利用梅尔图谱对音频进行编码表示,得到按照每80*16个图谱数值表示连续5帧音频信息的所述音频数据。
18、优选的,所述调整后的所述牙齿参考图像为通过分割模型将所述牙齿参考图像中的唇部区域进行分割后得到的。
19、优选的,所述数字人模型的训练过程包括利用唇音同步鉴别器损失、l1损失、图像质量鉴别损失以及vgg感受损失对模型进行优化。
20、为实现上述目的,本发明还提供一种数字人模型的训练装置,所述装置包括:
21、关键帧确定单元,用于获取人像视频文件,利用预设的牙齿关键帧模型确定所述人像视频文件的关键帧作为牙齿参考图像;
22、数据处理单元,用于提取所述人像视频文件中的每一图像帧并进行处理,得到训练图像,以及提取所述人像视频文件的音频并进行处理,得到音频数据;
23、特征提取单元,用于将调整后的所述牙齿参考图像、所述训练图像、以及所述音频数据分别输入第一视频编码网络、第二视频编码网络以及音频编码网络进行特征提取,得到第一特征向量、第二特征向量以及音频特征向量;
24、模型训练单元,用于将所述第一特征向量、所述第二特征向量以及所述音频特征向量进行拼接后输入解码网络进行模型训练,得到用于生成人像与音频对齐的数字人视频的数字人模型。
25、为了实现上述目的,本发明还提出一种数字人模型的训练设备,包括处理器、存储器以及存储在所述存储器内的计算机程序,所述计算机程序被所述处理器执行以实现如上述实施例所述的一种数字人模型的训练方法的步骤。
26、为了实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现如上述实施例所述的一种数字人模型的训练方法的步骤。
27、为了实现上述目的,本发明还提出一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如上述实施例所述的一种数字人模型的训练方法的步骤。
28、有益效果:
29、以上方案,通过利用预设的牙齿关键帧模型确定人像视频中的关键帧作为牙齿参考图像,能够精准地捕捉到牙齿的动态变化,能够在处理音频信息与参考人像信息时,更有效地利用原人物牙齿的固有特征,这对于生成自然流畅的口型动作至关重要。其确保了数字人模型在讲话时,口型与音频内容的高度一致性,从而提升了模型的逼真度和表现力,以生成自然、连贯且逼真的唇齿动作的数字人视频。
30、以上方案,通过牙齿关键帧模型进行逐帧打分并排序选取最高得分的图像帧作为关键帧,有效地减少了冗余数据的处理,提高了训练数据的质量,进而提升了模型训练的效率和准确性。同时,牙齿关键帧模型基于resnext101_32x32d的模型架构进行训练,该架构具有较强的特征提取能力,能够更准确地识别牙齿暴露程度,为后续的特征提取和模型训练提供了有力支持。
31、以上方案,通过将牙齿参考图像、训练图像以及音频数据分别输入不同的编码网络进行特征提取,并将这些特征向量拼接后输入解码网络进行模型训练,实现了音频与视频的精准对齐,使得数字人模型在讲话时,口型动作与音频内容能够完全同步,增强了用户体验的真实感。
32、以上方案,在模型训练过程中,采用了唇音同步鉴别器损失、l1损失、图像质量鉴别损失以及vgg感受损失等多种损失函数对模型进行优化,这些损失函数分别从不同角度对模型进行评估和调整,确保了模型在训练过程中能够逐步优化各项性能指标,最终生成高质量的数字人模型。
技术研发人员:周以军,杨洪进,严生
技术所有人:厦门蝉镜科技有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
