文本检索匹配方法、装置、存储介质和计算机程序产品与流程
技术特征:
1.一种文本检索匹配方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,提取所述第一搜索请求文本的主题词,包括:
3.根据权利要求1所述的方法,其特征在于,所述目标语言模型的训练过程包括:
4.根据权利要求3所述的方法,其特征在于,利用文本数据增强方法对预处理后的多组所述初始样本数据进行处理,得到多组目标样本数据,包括:
5.根据权利要求4中所述的方法,其特征在于,利用文本数据增强方法对预处理后的多组所述初始样本数据进行处理,得到多组目标样本数据,还包括:
6.根据权利要求3所述的方法,其特征在于,所述目标样本数据中包括目标搜索请求文本和目标嵌入式表征向量,其中,利用多组所述目标样本数据对所述初始语言模型进行迭代对抗训练,得到所述目标语言模型,包括:
7.根据权利要求6所述的方法,其特征在于,依据所述目标损失函数调整所述初始语言模型的模型参数,包括:
8.一种文本检索匹配装置,其特征在于,包括:
9.一种非易失性存储介质,其特征在于,所述非易失性存储介质中存储有计算机程序,其中,所述非易失性存储介质所在设备通过运行所述计算机程序执行权利要求1至7中任意一项所述的文本检索匹配方法。
10.一种计算机程序产品,其特征在于,包括:计算机程序,其中,所述计算机程序被处理器执行时实现权利要求1至7中任意一项所述的文本检索匹配方法。
技术总结
本申请公开了一种文本检索匹配方法、装置、存储介质和计算机程序产品。其中,该方法包括:获取第一搜索请求文本,并提取第一搜索请求文本的主题词;从预设的数据库内多个文本内获取与主题词相同的至少一个备选文本;利用预设的目标语言模型对第一搜索请求文本和各个备选文本进行特征提取,得到第一搜索请求文本对应的第一嵌入式表征向量和各个备选文本对应的第二嵌入式表征向量;确定第一嵌入式表征向量和各个第二嵌入式表征向量之间的向量相似度,并从至少一个备选文本内确定向量相似度不低于预设的向量相似度阈值的目标文本。本申请解决了采用人工标注的有标签数据所训练的模型在文本量较大的检索匹配场景下的性能较差的技术问题。
技术研发人员:马俊,储军梅
受保护的技术使用者:中国电信股份有限公司
技术研发日:
技术公布日:2024/11/14
文档序号 :
【 39999376 】
技术研发人员:马俊,储军梅
技术所有人:中国电信股份有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
技术研发人员:马俊,储军梅
技术所有人:中国电信股份有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
