一种基于全局引导条件扩散模型的高光谱影像超分方法

2026-04-08 16:20:01 411次浏览

本发明涉及光学遥感影像处理，尤其是涉及一种基于全局引导条件扩散模型的高光谱影像超分方法。

背景技术：

1、高光谱图像能够捕捉从可见光到红外波段的丰富光谱信息，因此在遥感、医疗诊断和食品安全等多个领域展现出广泛的应用潜力。然而，由于传感器技术在光谱成像过程中存在一定的限制，导致高光谱图像的空间分辨率相对较低。为了解决这一问题并实现同时具备高空间和高光谱分辨率的图像，研究者们开发了高光谱超分辨率技术，以突破传统成像技术的局限。

2、传统的图像超分辨率算法主要可分为插值方法和重构方法。插值方法通过利用当前像素周围的像素值进行插值，从而生成高分辨率图像，例如双三次插值和最邻近插值。然而，这些方法在细节恢复上往往效果有限，可能导致模糊或失真。重构方法则是基于降质退化模型，提取低分辨率图像中的关键信息，以提高重建效果。然而，重构方法通常对噪声和模糊敏感，且计算复杂度较高，限制了其在实时应用中的使用。这些传统方法在处理复杂场景时面临挑战，难以满足高质量图像恢复的需求。随着深度学习技术迅速发展，神经网络极大提升了超分辨率方法的性能。

3、近年来，深度学习技术受到了研究者的关注。基于深度卷积神经网络的超分辨率网络，避免了复杂的人工先验，效果明显优于传统算法。基于transformer能够捕捉图像中长程依赖关系，这对高光谱图像中复杂的光谱特征提取非常重要。但传统transformer可能无法有效生成细致的高光谱图像，尤其在处理复杂场景时，图像生成的真实感和细节可能不足。扩散模型在图像生成任务中表现优越，能够生成高质量和多样化的图像，适合用于超分辨率任务。diffusion transformer作为一种新兴的生成模型，结合了扩散模型和transformer的优点，能够更好地捕捉图像中的长距离依赖关系和复杂的特征结构。这使得模型在生成高质量图像时具有更强的表达能力和灵活性。但扩散模型通常需要较长的训练时间，且训练过程较为复杂。

技术实现思路

1、本发明的目的在于针对现有技术的不足，提出一种基于全局引导条件扩散模型的高光谱影像超分方法。本发明利用diffusion transformer扩散模型，利用预训练好的clip图像编码器，确保在重建过程中，图像的全局结构保持一致，避免局部细节的失真。通过动态调整注意力分布，增强模型处理复杂多样噪声模式的能力，确保在不同噪声水平下都能恢复出高质量图像，更好地保持细节和光谱一致性，同时实现更少的计算开销。

2、这种基于全局引导条件扩散模型的高光谱影像超分方法，具体包括如下步骤：

3、11）低分辨率高光谱影像的获取及预处理；

4、12）构建基于全局引导条件扩散模型的高光谱影像超分模型，该模型由四个部分组成：编码器、解码器、全局局部引导模块、条件去噪transformer模块；

5、13）训练基于全局引导条件扩散模型的高光谱影像超分模型，训练过程包括：前向扩散的执行：对低分辨率高光谱影像逐步添加高斯噪声直至完全变成高斯噪声图像；生成自适应注意力特征作为条件嵌入条件去噪transformer模块中；逆向去噪的执行：对高斯噪声图像不断去除噪声，直至恢复得到高分辨率高光谱影像；

6、14）高光谱影像超分辨率结果获取：将低分辨率高光谱影像输入到训练好的基于全局引导条件扩散模型的高光谱影像超分模型中，得到高分辨率高光谱影像。

7、进一步地，所述的一种基于全局引导条件扩散模型的高光谱影像超分方法，其特征在于，所述低分辨率高光谱影像的获取及预处理，包括以下步骤：

8、21）选择pavia university、urban公开高光谱影像数据作为参考图像，将pavia university和urban高光谱影像数据去除吸水带处理后，pavia university高光谱影像剩余103个波段，urban高光谱影像剩余162个波段，进一步用于训练集、测试集的划分；在参考图像中心区域裁剪出128×128的分块作为测试集，剩余区域用于训练，训练区域被随机裁剪为 128 × 128 的大小，以便在每次迭代中进行训练；对随机划分出的训练集与测试集重叠的部分，用0像素填充；

9、22）制作低分辨率高光谱影像：对参考图像进行窗口大小为9×9、0均值和标准差为2的高斯模糊核滤波和四次下采样得到用于训练的低空间分辨率高光谱影像。

10、进一步地，所述的一种基于全局引导条件扩散模型的高光谱影像超分方法，其特征在于，所述构建基于全局引导条件扩散模型的高光谱影像超分模型，包括以下步骤：

11、31）构建编码器，用于将高光谱图像映射到隐空间，其结构如下：

12、首先是一层带有leakyrelu单元和最大池化的3×3卷积块，接着依次是一层linear线性层、一层leakyrelu和一层linear线性层，在第一层linear线性层处接收来自编码器输入的残差连接；

13、32）构建解码器，负责将隐空间中的表示映射回高光谱图像的原始维度，其结构如下：

14、首先是一层linear线性层、一层leakyrelu和一层linear线性层，接着是一层3×3卷积块，最后是带有leakyrelu单元的1×1卷积块，并接收来自解码器输入的残差连接；

15、33）构建全局局部引导模块，该模块由clip图像编码器和自适应注意力特征生成部分构成，其中clip图像编码器是从开源clip项目中获取的预训练好的clip图像编码器；

16、331）首先利用预训练好的clip图像编码器从待处理的低分辨率高光谱影像中提取全局语义信息作为值v，可以表述为：

17、，

18、其中r表示得到的全局语义信息，表示双三次插值算法，表示预训练好的clip图像编码器；

19、332）自适应注意力特征生成的过程如下:

20、对于给定时间步t时特征的查询q、键值k、值v，用对它们进行缩放处理，其中d表示每个注意力头的特征维度，可以表述为：

21、,

22、，

23、其中，r表示全局语义信息，表示生成的自适应注意力特征，表示归一化指数函数softmax，是特征的线性投影值，分别代表查询、键和值投影，是随机初始化的可学习矩阵，t表示转置操作；

24、最后，将得到的自适应注意力特征与时间步t时刻的特征拼接在一起，作为条件嵌入到条件去噪transformer模块中；

25、34）构建条件去噪transformer模块，其由四个堆叠的条件恢复结构构成，在每个时间步长t，模型会根据当前的噪声水平注入不同强度的噪声，利用条件信息来精细地恢复高光谱图像细节，条件恢复结构包括：分块器、扩散transformer块、transformer解码器；

26、341）分块器将条件输入特征切分成小块，再经过线性嵌入转化为tokens，作为扩散transformer块的输入；

27、342）扩散transformer块由自适应归一化层、轴向多头自注意力、残差连接构成，从噪声时间步长和条件嵌入向量中回归缩放和移位；回归计算扩散transformer块内残差连接前应用的维度缩放参数；

28、3421）轴向多头自注意力由横向分解和纵向分解分支构成，对于输入特征x，查询q、键值k、值v首先是从x和获取的，在水平方向上取查询特征的平均值来实现水平挤压，在垂直方向上取查询特征的平均值来实现垂直挤压，得到和，经过多头注意力得到水平和垂直方向的注意力特征，接着将水平和垂直方向的特征相加，最后经过一层1×1卷积;

29、343）transformer解码器由标准线性解码器构成，将tokens的序列解码输出为噪声预测结果。

30、进一步地，所述一种基于全局引导条件扩散模型的高光谱影像超分方法，其特征在于，所述训练基于全局引导条件扩散模型的高光谱影像超分模型，包括以下步骤：

31、41）将输入的低分辨率高光谱影像经过编码器映射到隐空间后，逐步从时间步t=0到t=t添加高斯噪声，得到逐步噪声化的高光谱序列样本x，可以表述为：

32、，

33、，

34、其中表示所有噪声化的高光谱序列样本的概率分布，表示在第t次添加噪声之后的高光谱序列样本，表示在第t-1次添加噪声之后的高光谱序列样本，表示未添加噪声的高光谱序列样本，纯噪声服从高斯分布，单位矩阵i表示各个维度之间是独立的；

35、42）输入的低分辨率高光谱影像经过预训练好的clip图像编码器得到全局语义信息作为值v，将其与每个时间步t的噪声化的高光谱序列样本进行注意力计算，表述为：

36、，

37、，

38、，

39、其中r表示全局语义信息，表示双三次插值算法，表示预训练好的clip图像编码器，表示自适应注意力特征，表示归一化指数函数softmax，是特征的线性投影值，分别代表查询、键和值投影，是随机初始化的可学习矩阵，t表示转置操作；得到的自适应注意力特征作为条件嵌入到条件去噪transformer模块中；

40、43）将时间步t时的自适应注意力特征和噪声化后的高光谱序列样本拼接，作为条件输入条件去噪transformer模块中，根据反向去噪模型，预测随机噪声添加过程中添加的噪声，将所述噪声化的高光谱序列样本中的噪声相应去除，以完成去噪处理，得到目标高光谱序列，表述为：

41、，

42、，

43、，

44、其中，纯噪声服从高斯分布，单位矩阵i表示各个维度之间是独立的，且每个维度的方差都是1，分布用θ参数化，a表示自适应注意力特征；条件去噪transformer模块提供了噪声的预测，每个步骤细化表述为：

45、，

46、其中，和表示条件去噪transformer模块；

47、44）模型参数的训练与优化：模型加载低分辨率高光谱影像，根据平均绝对值误差项和梯度损失组成的训练损失函数，通过梯度反向传播优化算法更新网络参数，减少误差，使得高分辨率高光谱影像不断接近参考图像；

48、441）绝对值误差项损失，表述为：

49、，

50、其中，和是第n个重建的高分辨率高光谱影像和参考图像，n表示一个训练批次中的图像数量；

51、442）梯度损失，表述为：

52、，

53、其中，m计算沿着图像的水平、垂直和光谱维度的梯度值，和是第n个重建的高分辨率高光谱图像和参考图像，n表示一个训练批次中的图像数量；

54、443）整体的损失函数：整体的损失函数由平均绝对值误差项和梯度损失加权和组成，可以表述为，

55、，

56、其中表示平均绝对值误差项损失，表示梯度损失，是一个正则超参数，固定为0.1；

57、45）判断是否达到设定的训练时间步长，若是则完成基于全局引导条件扩散模型的高光谱影像超分模型，否则继续训练。

58、有益效果

59、本发明涉及一种基于全局引导条件扩散模型的高光谱影像超分方法，充分改进了现有融合方法的不足。针对现有方法在全局与局部信息建模不平衡，导致超分辨率结果无法表现出原始高光谱图像的细节和纹理的问题，设计全局-局部引导模块，利用预训练好的clip图像编码器和注意力机制，充分学习高光谱图像的全局语义特征和局部特征，增强特定区域或特征的影响力，提升重建结果的自然性和连贯性；针对扩散模型计算开销大的问题，设计更高效的编码器和解码器结构，通过将高维高光谱数据映射到低维潜在空间，显著减少了计算负担，潜在空间的引入可以减少噪声干扰，增强模型对局部细节的关注，从而提升生成图像的质量。

文档序号 : 【 40165338 】

技术研发人员：徐凯,陈咏夷,梁栋,贾兆红
技术所有人：安徽大学

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

徐凯丨陈咏夷丨梁栋丨贾兆红丨安徽大学