基于大规模视觉语言模型的弱监督哈希图像检索方法及系统
技术特征:
1.一种基于大规模视觉语言模型的弱监督哈希图像检索方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于大规模视觉语言模型的弱监督哈希图像检索方法,其特征在于:第一步使用训练数据strain={(xi,ti)|i=1,…,ntr}微调clip模型,其中xi∈rh×w×3代表训练集中的图像,ti代表图像xi对应的弱监督标签集,ntr表示训练集中图片的总数;使用训练集中的所有图片作为微调过程的视觉输入,对于图像xi使用提示模版a photo of ti作为其对应的文本描述,其中ti标签集中的每一个标签都用空格来连接成一个字符串;微调过程中图像端和文本端均采用交叉熵损失进行参数的优化,微调后的权重记为θfinetune,原始权重记为θzeroshot;将原始模型权重与微调后的模型权重进行线性插值,得到一个新的模型权重记为θfinal:
3.根据权利要求1所述的基于大规模视觉语言模型的弱监督哈希图像检索方法,其特征在于:第二步设计弱监督标签优化模块实现噪音标签的优化;
4.根据权利要求1所述的基于大规模视觉语言模型的弱监督哈希图像检索方法,其特征在于,第三步采用预训练的卷积神经网络提取到图像特征;哈希网络中通过一个全连接层将图像特征的维度映射成对应哈希码比特数的维度,并使用sigmoid函数进行激活;这个过程采用量化损失l1进行参数优化,公式如下:
5.根据权利要求1所述的基于大规模视觉语言模型的弱监督哈希图像检索方法,其特征在于:第四步使用多头自注意力机制将第三步得到的图像特征ν和第二步得到的文本特征t进行交互;对于每个头有三个权重矩阵用于计算query、key和value,满足:使用缩放点积注意力机制计算注意力权重,公式如下:
6.根据权利要求1所述的基于大规模视觉语言模型的弱监督哈希图像检索方法,其特征在于:第五步设计一个平衡损失,在量化损失l1、铰链损失l2和两两相似损失l3之后进一步约束哈希网络模型参数优化,平衡损失l4计算如下:
7.根据权利要求1所述的基于大规模视觉语言模型的弱监督哈希图像检索方法,其特征在于,第六步通过训练好的网络模型得到查询图片和数据库图片的哈希码,计算哈希码之间的汉明距离并进行排序,最后选取距离最小的图片集作为哈希图像检索结果;其中,假设模型生成的查询图片的哈希码为hq,数据库图片的哈希码为hd;计算二者之间的汉明距离公式如下:
8.一种基于大规模视觉语言模型的弱监督哈希图像检索系统,其特征在于:包括
技术总结
本发明公开了一种基于大规模视觉语言模型的弱监督哈希图像检索方法及系统。使用含有弱监督标签的训练集微调大规模视觉语言模型CLIP,将得到的微调权重和原始权重进行线性插值作为后续使用的模型权重;设计弱监督标签优化模块在推理阶段消除冗余特征;采用预训练的AlexNet网络提取图像的视觉特征,通过哈希层和重构层将图像特征分别映射成哈希码和与文本特征同维度的特征向量;通过多头自注意机制计算图片对应各标签的分数;设计了一个平衡损失使得模型在训练过程中更加关注较难的尾部类别。本发明能够有效缓解数据集中样本分布的长尾问题,更加精准地实现弱监督哈希图像检索。
技术研发人员:李泽超,王浩骅,金露
受保护的技术使用者:南京理工大学
技术研发日:
技术公布日:2024/11/28
技术研发人员:李泽超,王浩骅,金露
技术所有人:南京理工大学
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
