基于多模态多尺度的弱监督图像篡改检测定位方法和系统

2026-05-12 14:00:07 487次浏览

本发明涉及图像篡改检测与定位，尤其是涉及一种基于多模态多尺度的弱监督图像篡改检测定位方法和系统。

背景技术：

1、随着数字图像处理技术的不断发展，图像篡改技术日益成熟。常见的篡改类型有copy-move，splicing，removal等，photoshop等工具等广泛应用为图像的真实性和可信度带来了挑战。此外，基于深度学习的生成模型，如生成对抗网络(gans)，已经能够生成逼真的图像，甚至能够创造出不存在的场景和人物。这种技术的发展，虽然在艺术创作和娱乐领域带来了革命性的变化，但同样也给多媒体取证领域带来了新的挑战。生成的图像篡改在视觉上几乎无法区分真伪，这类篡改在多媒体取证领域也受到了广泛关注。

2、图像篡改检测和定位技术旨在检测图像是否被篡改，并找出篡改的区域。这对于维护信息的真实性、打击虚假信息传播、保护个人和企业权益等方面具有重大的意义。在司法、新闻、社交媒体等多个领域应用前景广阔。

3、当前的图像篡改检测和定位技术存在如下缺点：

4、(1)强监督学习方法依赖于大量像素级的精细标注，而这些标注既费时又费力。

5、(2)单一模态特征往往受限于特定的条件或干扰，进而影响检测和定位的准确性。

6、当前缺少一种图像篡改检测定位方法，以解决或部分解决前述问题。

技术实现思路

1、本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于多模态多尺度的弱监督图像篡改检测定位方法和系统，以解决或部分解决训练数据标注困难、受单一模态特征影响大的问题。

2、本发明的目的可以通过以下技术方案来实现：

3、本发明的一个方面，提供了一种基于多模态多尺度的弱监督图像篡改检测定位方法，将待检测的图像作为预先经过弱监督训练的检测定位模型的输入，预测得到篡改概率掩码信息，实现图像篡改检测定位，其中，所述检测定位模型的训练过程包括如下步骤：

4、步骤s1，针对训练图像，分别提取多类型的互补的噪声特征以及边缘增强特征，通过拼接和降维获取边缘增强噪声混合特征；

5、步骤s2，将所述训练图像和所述边缘增强噪声混合特征作为两个分支，针对每个分支依次进行编码和基于特征金字塔的多尺度特征融合处理，通过对两个分支处理后的特征进行跨模态矫正和特征融合，得到融合特征；

6、步骤s3，基于所述融合特征，生成多个候选区域并针对每个候选区域进行边界框回归，计算边界框损失，针对候选区域特征，通过构建正负样本的示例包进行数据增强，计算分割损失，结合所述边界框损失和所述分割损失实现对检测定位模型的训练。

7、作为优选的技术方案，所述的步骤s1包括：

8、步骤s101，针对训练图像，分别通过srm滤波、bayar卷积、nosieprint++提取多类型的互补的噪声特征；

9、步骤s102，针对训练图像，通过频域变换、高通滤波及频域反变换获取边缘增强特征；

10、步骤s103，将所述多类型的互补的噪声特征和所述边缘增强特征拼接，通过卷积降维得到边缘增强噪声混合特征。

11、作为优选的技术方案，所述的步骤s2包括：

12、步骤s201，分别针对所述训练图像和所述边缘增强噪声混合特征，利用各自分支的高分辨率网络提取多尺度特征；

13、步骤s202，基于多尺度特征，利用各自分支的特征金字塔网络进行多尺度特征融合处理；

14、步骤s203，分别针对两个分支经过多尺度特征融合得到的特征，进行通道矫正和空间矫正，得到两个分支矫正后的特征；

15、步骤s204，分别针对两个分支矫正后的特征计算注意力权重，将两个分支矫正后的特征融合得到最终的融合特征。

16、作为优选的技术方案，所述的通道矫正包括如下步骤：

17、分别针对两个分支经过多尺度特征融合得到的特征，进行平均池化、最大池化和拼接处理，利用多层感知机制对两个分支进行通道矫正。

18、作为优选的技术方案，所述的空间矫正包括如下步骤：

19、分别针对经过通道矫正的两个分支经过多尺度特征融合得到的特征，通过空间级注意力机制计算，实现空间矫正。

20、作为优选的技术方案，所述的步骤s3包括如下步骤：

21、步骤s301，基于所述融合特征，利用区域建议网络，生成多个候选区域，通过打分计算候选区域作为篡改区域的可能性，针对高分候选区域进行非极大值抑制处理，得到最终的候选区域；

22、步骤s302，将步骤s302得到候选区域映射到训练图像上，对每个候选区域进行特征提取，实现候选区域与训练图像上的特征对齐，对每个候选区域进行边界框回归，计算边界框损失；

23、步骤s303，将步骤s302得到候选区域进行像素级分割，通过构建正负样本的示例包进行数据增强，构建单张图像的正负示例包集合，计算分割损失；

24、步骤s304，结合所述边界框损失、所述分割损失以及二分类损失，计算总的损失函数值实现对检测定位模型的训练。

25、作为优选的技术方案，所述的损失函数值采用下式计算：

26、

27、其中，分别为二分类损失、边界框损失和分割损失，λcls、λreg、λseg为系数。

28、本发明的另一个方面，提供了一种基于多模态多尺度的弱监督图像篡改检测定位系统，包括：

29、多模态特征提取模块，用于针对输入图像，分别提取多类型的互补的噪声特征以及边缘增强特征，通过拼接和降维获取边缘增强噪声混合特征；

30、特征多尺度编码与双分支特征的融合对齐模块，用于将所述输入图像和所述边缘增强噪声混合特征作为两个分支，针对每个分支依次进行编码和基于特征金字塔的多尺度特征融合处理，通过对两个分支处理后的特征进行跨模态矫正和特征融合，得到融合特征；

31、多任务解码模块，在训练阶段中，用于基于所述融合特征，生成多个候选区域并针对每个候选区域进行边界框回归，计算边界框损失，针对候选区域特征，通过构建正负样本的示例包进行数据增强，计算分割损失，结合所述边界框损失和所述分割损失实现对检测定位模型的弱监督训练，在推理阶段，基于篡改概率掩码图信息，实现图像篡改定位，基于篡改分类预测分数，实现图像篡改检测。

32、本发明的另一个方面，提供了一种电子设备，包括：一个或多个处理器以及存储器，所述存储器内储存有一个或多个程序，所述一个或多个程序包括用于执行前述基于多模态多尺度的弱监督图像篡改检测定位方法的指令。

33、本发明的另一个方面，提供了一种计算机可读存储介质，包括供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行前述基于多模态多尺度的弱监督图像篡改检测定位方法的指令。

34、与现有技术相比，本发明至少具有以下有益效果之一：

35、(1)基于框标注的弱监督学习：针对传统的强监督学习方法依赖于大量像素级的精细标注，标注过程既费时又费力的问题，本发明采用弱监督学习的方式，仅需要框标注数据即可进行训练，极大地减少了标注工作量和成本，而且框标注比像素级标注简单，标注人员可以更快、更高效地完成数据标注工作，从而加速模型的训练和部署，并且，基于框标注的方法在实际应用中更具灵活性，规避了图像级标注方式准确率低，分割不精准的缺点，有利于在不同应用场景中推广和使用，可以降低数据标注成本。

36、(2)互补的多模态特征提取：针对以往篡改检测定位方法中，单一模态特征往往受限于特定的条件或干扰的问题，本发明通过较为全面的多模态特征提取，可以有效降低对某一种特征的依赖，提高在复杂场景下的检测性能。通过结合多种模态特征(如rgb特征、srm噪声特征、bayar卷积特征、noiseprint++特征和边缘增强特征)，本发明能够捕捉到图像中的不同信息，从而增强篡改检测的鲁棒性。不同模态特征互为补充，可以捕捉到不同类型的篡改痕迹，提升了整体检测的准确性和精度。

37、(3)模态特征融合对齐：不同于传统的方法通常采用其他模态的信息辅助rgb特征，本发明通过跨模态特征校正和特征融合，实现了对来自双分支的多模态特征的深度融合和对齐，确保不同模态特征的有效结合，提升了特征表达的完整性和一致性，本发明中的方法利用高分辨率和特征金字塔网络结构，能够有效提取和融合多尺度信息，使得检测系统在处理不同尺度的篡改区域时具有更高的准确性，然后通过跨模态特征校正，能够对不同模态特征进行细致校正，消除特征之间的干扰和不一致，进一步提高检测和定位的精度。

文档序号 : 【 40164011 】

技术研发人员：段淇瀚,易冉,马利庄
技术所有人：上海交通大学

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

段淇瀚丨易冉丨马利庄丨上海交通大学