一种数字人模型的训练方法、装置以及设备与流程

2026-02-18 16:40:01 549次浏览

技术特征：

1.一种数字人模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种数字人模型的训练方法，其特征在于，所述利用预设的牙齿关键帧模型确定所述人像视频文件的关键帧作为牙齿参考图像，包括：

3.根据权利要求1所述的一种数字人模型的训练方法，其特征在于，所述牙齿关键帧模型的训练过程包括：

4.根据权利要求1所述的一种数字人模型的训练方法，其特征在于，所述提取所述人像视频文件中的每一图像帧并进行处理，得到训练图像，包括：

5.根据权利要求1所述的一种数字人模型的训练方法，其特征在于，所述提取所述人像视频文件的音频并进行处理，得到音频数据，包括：

6.根据权利要求1所述的一种数字人模型的训练方法，其特征在于，所述调整后的所述牙齿参考图像为通过分割模型将所述牙齿参考图像中的唇部区域进行分割后得到的。

7.根据权利要求1所述的一种数字人模型的训练方法，其特征在于，所述数字人模型的训练过程包括利用唇音同步鉴别器损失、l1损失、图像质量鉴别损失以及vgg感受损失对模型进行优化。

8.一种数字人模型的训练装置，其特征在于，所述装置包括：

9.一种数字人模型的训练设备，其特征在于，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序被所述处理器执行以实现如权利要求1至7任意一项所述的一种数字人模型的训练方法的步骤。

10.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被所述处理器执行以实现如权利要求1至7任意一项所述的一种数字人模型的训练方法的步骤。

技术总结
本发明公开了一种数字人模型的训练方法，其包括：获取人像视频文件，利用预设的牙齿关键帧模型确定所述人像视频文件的关键帧作为牙齿参考图像；提取所述人像视频文件中的每一图像帧并进行处理，得到训练图像，以及提取所述人像视频文件的音频并进行处理，得到音频数据；将调整后的所述牙齿参考图像、所述训练图像、以及所述音频数据分别输入第一视频编码网络、第二视频编码网络以及音频编码网络进行特征提取，得到第一特征向量、第二特征向量以及音频特征向量；将所述第一特征向量、所述第二特征向量以及所述音频特征向量进行拼接后输入解码网络进行模型训练，得到数字人模型。能够提升模型的逼真度，以生成自然、连贯且逼真的唇齿动作的数字人视频。

技术研发人员：周以军,杨洪进,严生
受保护的技术使用者：厦门蝉镜科技有限公司
技术研发日：
技术公布日：2024/11/28

文档序号 : 【 40164101 】

技术研发人员：周以军,杨洪进,严生
技术所有人：厦门蝉镜科技有限公司

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

周以军丨杨洪进丨严生丨厦门蝉镜科技有限公司