一种文本驱动的人脸图像编辑方法

2026-02-25 13:20:01 198次浏览

技术特征：

1.一种文本驱动的人脸图像编辑方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种文本驱动的人脸图像编辑方法，其特征在于：在步骤s2中，通过公式，得到中间潜在空间隐向量；其中，为一种用于stylegan的图像逆映射框架，为高清人脸图像；

3.根据权利要求1所述的一种文本驱动的人脸图像编辑方法，其特征在于：在步骤s3中，所述人脸属性编码器是由两个clip编码器和admm凸优化模块组成的；

4.根据权利要求1所述的一种文本驱动的人脸图像编辑方法，其特征在于：在步骤s4中，分别采用两个独立的映射模块学习人脸特征隐向量差值和样式空间隐向量s1的粗、中、细三个语义层特征，得到()和()；

5.根据权利要求4所述的一种文本驱动的人脸图像编辑方法，其特征在于：采用最小化预测样式空间隐向量差值与样式空间隐向量差值之间的距离作为损失，包括：

6.根据权利要求1所述的一种文本驱动的人脸图像编辑方法，其特征在于：使用基于stylegan的图像逆映射编码器将待编辑的人脸图像进行编码，得到对应的样式空间隐向量；

技术总结
本发明公开了一种文本驱动的人脸图像编辑方法，属于AIGC技术领域。文本驱动的人脸编辑方法的实施包括：构建人脸属性概念字典；生成StyleGAN样式空间隐向量；利用CLIP编码器对人脸数据和属性字典进行编码，得到图像和文本隐向量特征及其均值；基于隐向量特征均值，通过凸优化算法构建人脸属性编码器；使用人脸属性编码器对输入图像进行编码，获得图像特征隐向量；构建损失函数，最小化随机成对图像间的隐向量差值和样式空间隐向量差值的距离，训练映射网络；利用训练好的映射网络对输入文本进行推理，得到样式空间编辑方向。本发明有效解决了文本驱动人脸编辑中人脸身份信息不一致的问题。该技术在AIGC时代展现出大语言模型驱动人脸图像编辑的广阔应用前景。

技术研发人员：赵玉良,周至诚
受保护的技术使用者：东北大学秦皇岛分校
技术研发日：
技术公布日：2024/11/26

文档序号 : 【 40124440 】

技术研发人员：赵玉良,周至诚
技术所有人：东北大学秦皇岛分校

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

赵玉良丨周至诚丨东北大学秦皇岛分校

有限元边界荷载模型的设计方法、系统与流程一种纸浆纤维悬浮液防絮聚抄造装置及其工艺的制作方法