基于模块化自编码的可控生成网络的训练方法和装置与流程
背景技术:
::1、目前,可控图像生成技术可以按照基于的控制条件不同分为三类:基于文本的图像生成如dall-e2、stable diffusion、midjoumey;基于图像的图像生成如stylegan、cyclegan、deepfill、controlnet等;基于其他模态信息的图像生成,如根据音频生成图像等。基于图像的可控生成往往能够更好的提供控制信息,生成符合要求的图像,因此在近两年研究较多。按照生成模型的类型主要分为:生成对抗网络(gan):通过生成器和判别器之间的对抗训练生成逼真的图像;扩散模型(diffusion model):通过学习数据分布的噪声过程生成高质量的图像;变分自编码器(vae):通过学习数据潜在表示生成具有特定特征的图像。现有的生成模型尤其是基于扩散模型的,能够生成高度逼真的图像,甚至可以媲美真实照片。并且可控性强,能够根据用户输入的文本描述、参考图像或其他信息控制生成图像的风格、内容、细节等。2、因此以图像作为控制条件的基于扩散模型的可控生成在近两年得到了大家的广泛关注,并取得了不错的效果如controlnet。但是目前的方法往往通过有监督的训练方式进行模型训练,比如使用语义分割图、边缘图、姿态图、深度图等作为控制条件,这在一方面需要人工定义控制条件,另一方面需要大量的标注图像作为训练样本。这增加了基于图像的可控生成的模型训练难度,同时限制了更加丰富的控制条件。技术实现思路1、为了解决现有技术中存在的问题,本发明提供了如下技术方案。2、本发明第一方面提供了一种基于模块化自编码的可控生成网络的训练方法,包括:3、获取训练数据,所述训练数据包括图像i以及图像i变换后得到的图像i′;4、基于所述训练数据,利用等变约束对卷积网络自编码器进行训练,得到训练好的自编码器;其中,等变约束lec采用如下公式进行计算:5、6、lequ=∑i||f′(i)-m(i)(δ)f(i)||2,i∈{0,1,...,k-1},7、8、lec=lrecon+λ1lequ+λ2lsym,9、f=i*w,10、f′=i′*w,11、其中,i′=lδ(i),lδ为某种变换且变换参数为δ;w为卷积网络自编码器的卷积核,且w=[w(0),w(1),...,w(k-1)],即卷积核分为k个模块;f为图像i经过卷积后得到的特征图像,且f=[f(0),f(1),...,f(k-1)];f′为图像i′经过卷积后得到的特征图像,f′=[f′(0),f′(1),...,f′(k-1)];*表示卷积操作,表示反卷积操作;f(i)为图像i经过卷积核的第i个模块卷积后得到的特征图;f′(i)为图像i′经过卷积核的第i个模块卷积后得到的特征图;m(i)(δ)为第i个模块参数为δ的预测矩阵,该预测矩阵通过随机初始化后经过模型训练优化得到;lrecon为重建损失,lequ为等变损失,lsym为对称损失,lec为等变约束;λ1和λ2分别为等变损失和对称损失的权重系数;l表示各个模块的维度数量;表示第i个模块只有第m维为1其余维度为0的特征图,表示第i个模块只有第n维为1其余维度为0的特征图;为从到的最优变换参数;为参数为δ预测矩阵m(i)(δ)的第m行第n列的值;为参数为δ′的预测矩阵m(i)(δ′)的第m行第n列的值;t为一个大于0的超参数;为变换参数为时的预测矩阵;δ′为积分变量,用来区分不同积分项下的变换参数δ;12、基于预训练的潜在扩散模型构建针对k个不同模块的k个适配器;13、将训练数据中的图像i输入至训练好的自编码器中获得第i个模块的特征图f(i),i=0,1,2,...,k-1;14、利用得到的特征图f(i)和如下所示的目标优化函数训练潜在扩散模型的第i个适配器:15、16、其中,z0是潜在扩散模型对于输入的图像i的潜在表征,zt是在时间步t的加噪潜在表征,ctxt是文本提示,∈是满足分布为n(0,1)的实际添加的随机噪声,n(0,1)为均值为0方差为1的正态分布,是通过优化参数θ预测的噪声,表示预测的噪声与实际添加的随机噪声∈的偏差的模的平方的期望,lmc(i)为针对第i个模块特征图f(i)的适配器的损失函数;17、将训练好的自编码器和适配器共同构成基于模块化自编码的可控生成网络。18、优选地,所述变换包括平移变换或平移旋转变换。19、本发明第二方面提供了一种基于模块化自编码的可控生成网络,采用如第一方面所述的方法训练得到。20、本发明第三方面提供了一种基于模块化自编码的可控生成网络的训练装置,包括:21、训练数据获取模块,用于获取训练数据,所述训练数据包括图像i以及图像i变换后得到的图像i′;22、自编码器训练模块,用于基于所述训练数据,利用等变约束对卷积网络自编码器进行训练,得到训练好的自编码器;其中,等变约束lec采用如下公式进行计算:23、24、lequ=∑i||f′(i)-m(i)(δ)f(i)||2,i∈{0,1,...,k-1},25、26、27、lec=lrecon+λ1lequ+λ2lsym,28、f=i*w,29、f′=i′*w,30、其中,i′=lδ(i),lδ为某种变换且变换参数为δ;w为卷积网络自编码器的卷积核,且w=[w(0),w(1),...,w(k-1)],即卷积核分为k个模块;f为图像i经过卷积后得到的特征图像,且f=[f(0),f(1),...,f(k-1)];f′为图像i′经过卷积后得到的特征图像,f′=[f′(0),f′(1),...,f′(k-1)];*表示卷积操作,表示反卷积操作;f(i)为图像i经过卷积核的第i个模块卷积后得到的特征图;f′(i)为图像i′经过卷积核的第i个模块卷积后得到的特征图;m(i)(δ)为第i个模块参数为δ的预测矩阵,该预测矩阵通过随机初始化后经过模型训练优化得到;lrecon为重建损失,lequ为等变损失,lsym为对称损失,lec为等变约束;λ1和λ2分别为等变损失和对称损失的权重系数;l表示各个模块的维度数量;表示第i个模块只有第m维为1其余维度为0的特征图,表示第i个模块只有第n维为1其余维度为0的特征图;为从到的最优变换参数;为参数为δ预测矩阵m(i)(δ)的第m行第n列的值;为参数为δ′的预测矩阵m(i)(δ′)的第m行第n列的值;t为一个大于0的超参数;为变换参数为时的预测矩阵;δ′为积分变量,用来区分不同积分项下的变换参数δ;31、适配器构建模块,用于基于预训练的潜在扩散模型构建针对k个不同模块的k个适配器;32、适配器训练模块,用于将训练数据中的图像i输入至训练好的自编码器中获得第i个模块的特征图f(i),i=0,1,2,...,k-1;利用得到的特征图f(i)和如下所示的目标优化函数训练潜在扩散模型的第i个适配器:33、34、其中,z0是潜在扩散模型对于输入的图像i的潜在表征,zt是在时间步t的加噪潜在表征,ctxt是文本提示,∈是满足分布为n(0,1)的实际添加的随机噪声,n(0,1)为均值为0方差为1的正态分布,是通过优化参数θ预测的噪声,表示预测的噪声与实际添加的随机噪声∈的偏差的模的平方的期望,lmc(i)为针对第i个模块特征图f(i)的适配器的损失函数;35、可控生成网络构成模块,用于将训练好的自编码器和适配器共同构成基于模块化自编码的可控生成网络。36、优选地,所述变换包括平移变换或平移旋转变换。37、本发明第四方面提供了一种存储器,存储有多条指令,所述指令用于实现如第一方面所述的基于模块化自编码的可控生成网络的训练方法。38、本发明第五方面提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如第一方面所述的基于模块化自编码的可控生成网络的训练方法。39、本发明的有益效果是:本发明提供的基于模块化自编码的可控生成网络的训练方法和装置,首先通过构建等变约束,并利用等变约束对模块化网络自编码器在同源图像对的训练数据上进行训练,得到训练好的自编码器,增强了自编码器模块内的关联性和模块间的独立性,促进了网络模块功能的特化。然后通过自动分化出来的模块化特征作为可控生成的控制条件训练可控生成网络。这种自监督的训练方式不需要人工设计控制条件,也不需要额外的人工标注,简化了可控生成网络的训练流程,同时提高了控制条件的丰富性。当前第1页12当前第1页12
文档序号 :
【 40163874 】
技术研发人员:陈智强,雷博,范国藩,陈雯婕,余山,黄铁军
技术所有人:北京智源人工智能研究院
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
技术研发人员:陈智强,雷博,范国藩,陈雯婕,余山,黄铁军
技术所有人:北京智源人工智能研究院
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
