基于大规模视觉语言模型的弱监督哈希图像检索方法及系统

2026-05-19 10:20:01 85次浏览

本发明属于弱监督哈希图像检索，具体地说，是一种基于大规模视觉语言模型的弱监督哈希图像检索方法及系统。

背景技术：

1、在当今信息爆炸的时代，图像作为信息传递的重要媒介，其检索效率和准确性受到了广泛关注。虽然有监督的哈希图像检索任务在使用大量的人工标注数据训练后可以取得良好的效果。然而，这些方法通常需要大量的标注数据来训练模型，这不仅增加了人力成本，也限制了模型的应用范围。对于一些无监督深度哈希方法，尽管解决了有监督深度哈希中需要耗时耗力标注海量数据的问题，但因为没有可见的标注数据进行哈希学习从而导致学习到的哈希码并不能很好的表示图像内容。

2、随着互联网的快速发展，许多社交网站上的图片都包含了用户提供的标签。这些用户提供的标签可以在一定程度上表示图像的语义信息，从而降低了对大量标注数据的依赖。但是，由于这些标签并不是为了训练有监督模型而标注的，它们通常包含与图片内容无关的信息，而且这些标签的类别呈现出明显的长尾问题。因此我们只能将这些用户提供的标签视作弱监督信息。

3、目前，许多针对弱监督哈希图像检索的方法已被提出。gattupalli等提出了wdht模型，通过使用平均聚合的word2vec标签向量作为弱监督输入；jin等提出的mgrn模型，通过训练图模型来预测随机掩码标签，以自监督的方式学习联合视觉语义表示；wang等提出的ewdh方法，据图像内容对用户提供的标签进行优化得到更加准确的弱监督信号。du等人提出的wshrca，通过哈希码重构图像向量来显式的更新哈希码，并通过跨模态注意力机制来进一步优化。

4、上述的模型虽然取得较好的效果，但还有不足之处，例如，wdht模型平等的使用每一个弱监督标签，不能解决标签中的噪音问题。mgrn模型只在原有的标签集中捕获图像与标签之间的关系，并没有优化标签集的组成。ewdh方法虽然进行了标签优化，但是使用的相似度计算并没有很好的跨模态理解能力。wshrca模型在计算注意力分数前并没有筛选与图片内容更相关的标签。同时，上述方法也均未关注长尾分布中尾部较难类别造成的性能下降。

技术实现思路

1、本发明公开了一种基于大规模视觉语言模型的弱监督哈希图像检索方法及系统，能够有效提升弱监督哈希图像检索性能。

2、实现本发明的技术解决方案为：一种基于大规模视觉语言模型的弱监督哈希图像检索方法，包括：

3、第一步：利用含有弱监督标签的训练集微调对比学习的语言图像预训练模型clip，训练集中包含不同类别的自然图片和与之对应的由用户提供的弱监督标签，并通过线性插值的方法将原始预训练权重和微调后的权重进行融合；

4、第二步：设计弱监督标签优化模块，用于将噪音标签替换成与图像内容相关性更高的标签；

5、第三步：采用预训练的卷积神经网络提取图像特征，然后训练哈希网络将图像特征分别映射为与哈希码和文本特征相同维度的特征向量；

6、第四步：使用多头自注意力机制将图像特征和文本特征进行交互，动态的调整注意力的分配；

7、第五步：设计一个平衡损失，用于进一步约束哈希网络中的参数更新；

8、第六步：通过训练好的哈希网络模型得到查询图片和数据库图片的哈希码，计算哈希码之间的汉明距离并进行排序，最后选取距离最小的图片集作为哈希图像检索结果。进一步地，第一步使用训练数据strain＝{(xi,ti)|i＝1,…,ntr}微调clip模型，其中xi∈rh×w×3代表训练集中的图像，ti代表图像xi对应的弱监督标签集，ntr表示训练集中图片的总数；使用训练集中的所有图片作为微调过程的视觉输入，对于图像xi使用提示模版a photoofti作为其对应的文本描述，其中ti标签集中的每一个标签都用空格来连接成一个字符串；微调过程中图像端和文本端均采用交叉熵损失进行参数的优化，微调后的权重记为θfinetune，原始权重记为θzeroshot；将原始模型权重与微调后的模型权重进行线性插值，得到一个新的模型权重记为θfinal：

9、θfinal＝(1-α)·θzeroshot+α·θfinetune

10、其中，插值系数α用于控制模型权重的贡献比例。

11、进一步地，第二步设计弱监督标签优化模块实现噪音标签的优化；

12、2.1在优化原始弱监督标签的过程中，首先使用欧几里得范数归一化后的由模型权重θfinal得到的图像特征和文本特征进行逐元素相乘，得到原始的跨模态交叉表征fo，计算如下：

13、

14、其中fi代表使用模型权重θfinal后clip图像编码器生成的图像特征，ft代表使用模型权重θfinal后clip文本编码器生成的文本特征；

15、然后使用类别标记特征fc和文本特征ft计算相似度分数s如下：

16、

17、使用各类别的相似度分数与均值分数的比值作为权重w计算如下：

18、

19、之后对每个特征做类别加权，然后在类别维度求均值作为冗余特征fr，采用公式描述为下列形式：

20、fr＝mean(fo☉expand(w))

21、通过对原始的跨模态交叉表征fo去除冗余特征fr，得到新的跨模态交叉表征fn计算如下：

22、fn＝fo-expand(fr)假设图像xi对应的弱监督标签集ti中的常见标签个数为α，那么取与图像内容相关性最高的前topα个标签作为优化后的标签，计算如下：

23、

24、2.2按2.1过程优化训练集strain中所有图片的弱监督标签，得到过滤掉噪音标签与减少冗余特征影响的优化标签集t*，使用模型权重θfinal后的clip文本编码器将t*中的标签转化成文本特征向量t。

25、进一步地，第三步采用预训练的卷积神经网络提取到图像特征；哈希网络中通过一个全连接层将图像特征的维度映射成对应哈希码比特数的维度，并使用sigmoid函数进行激活；这个过程采用量化损失l1进行参数优化，公式如下：

26、

27、其中，m表示最小批次的大小，b代表哈希码中的比特数量，hi表示哈希码，ι是与哈希码同维度的全1向量；之后将得到的哈希特征向量h再次通过一个全连接层，并使用leakyrelu函数进行激活，将h特征维度映射为与t相同维度的向量ν，实现之后的跨模态特征交互。

28、进一步地，第四步使用多头自注意力机制将第三步得到的图像特征ν和第二步得到的文本特征t进行交互；对于每个头有三个权重矩阵用于计算query、key和value，满足：使用缩放点积注意力机制计算注意力权重，公式如下：

29、

30、其中，dk代表每个头的维度，计算得到的注意力输出表示为：

31、

32、将所有头的输出拼接在一起，然后通过一个线性层，计算如下：

33、z＝concat(z1,z2,…,zh)wo

34、其中，wo是线性层的权重矩阵；之后使用一个前馈网络进一步处理和转换注意力层输出的特征，其包含两个全连接层，一个激活层和一个dropout层；第一个全连接层将特征维度从d变换为2×d，第二个全连接层将特征维度从2×d恢复成d，中间的激活层采用relu激活函数，计算如下：

35、ffn(z)＝w2max(0，w1z+b1)+b2

36、其中，w1,b1,w2,b2是两层全连接层的参数；使用多头注意力输出与前馈网络的输出进行残差连接得到最终的文本向量t*，计算如下：

37、t*＝z+ffn(z)

38、使用动态自适应的文本向量t*与对应的图像特征ν进行对齐，这个过程采用铰链损失l2进行参数优化，公式如下：

39、

40、其中，ε表示边界参数；使用两两相似损失l3实现哈希空间的汉明距离与余弦距离具有相似的分布，公式如下：

41、

42、进一步地，第五步设计了一个平衡损失，在量化损失l1、铰链损失l2和两两相似损失l3之后进一步约束哈希网络模型参数优化，平衡损失l4计算如下：

43、

44、其中，参数β是平衡因子，c是经过弱监督标签优化模块后生成的新标签集t*中的类别数，代表图片xi在t*中的独热编码，tc表示t*中第c个文本输入到使用θfinal权重的clip文本编码器后生成的文本向量，γ作为调节因子，用于调整对较难样本的关注程度；平衡损失l4通过动态调整分类权重，实现可以更好的学习相似度较低的标签样本。

45、进一步地，第六步通过训练好的网络模型得到查询图片和数据库图片的哈希码，计算哈希码之间的汉明距离并进行排序，最后选取距离最小的图片集作为哈希图像检索结果；其中，假设模型生成的查询图片的哈希码为hq，数据库图片的哈希码为hd；计算二者之间的汉明距离公式如下：

46、

47、其中，b表示哈希码的比特数，hq[k]和hd[k]分别是哈希码hq和hd的第k位；根据计算出的汉明距离对所有数据库图片进行排序，选取距离最小的前n张图片作为最后的弱监督哈希图像检索结果。

48、一种基于大规模视觉语言模型的弱监督哈希图像检索系统，包括：

49、微调模块，利用含有弱监督标签的训练集微调对比学习的语言图像预训练模型clip，并通过线性插值的方法将原始预训练权重和微调后的权重进行融合；

50、弱监督标签优化模块，用于将噪音标签替换成与图像内容相关性更高的标签；

51、特征提取模块，采用预训练的卷积神经网络提取图像特征，将图像特征分别映射为与哈希码和文本特征相同维度的特征向量；

52、特征交互模块，使用多头自注意力机制将图像特征和文本特征进行交互，动态的调整注意力的分配；

53、损失函数模块，用于进一步约束哈希网络中的参数更新；

54、哈希图像检索模块，通过训练好的哈希网络模型得到查询图片和数据库图片的哈希码，计算哈希码之间的汉明距离并进行排序，最后选取距离最小的图片集作为哈希图像检索结果。

55、本发明与现有技术相比，其显著特点在于：(1)设计了一个弱监督标签优化模块，利用大规模视觉语言模型clip良好的跨模态对齐能力优化噪音标签，并且解决微调过程受下游数据长尾分布的影响与推理阶段类与类之间相互影响的问题(2)设计一种新型平衡函数，使得模型在训练过程中可以更加关注尾部较难样本的学习。

文档序号 : 【 40163818 】

技术研发人员：李泽超,王浩骅,金露
技术所有人：南京理工大学

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

李泽超丨王浩骅丨金露丨南京理工大学