文本检索匹配方法、装置、存储介质和计算机程序产品与流程

本技术涉及人工智能,具体而言,涉及一种文本检索匹配方法、装置、存储介质和计算机程序产品。
背景技术:
1、随着近些年人工智能技术的迅速发展,特别是自然语言处理的日益更新,文本检索匹配已成为自然语言处理中的核心任务,很多自然语言处理的任务都可以抽象成文本匹配问题,不论是在对话系统、推荐系统、搜索引擎中,文本检索匹配都是必不可少的。
2、目前,相关技术人员通常将深度学习的方法应用于文本检索匹配任务中,其中最常见的是使用有监督的学习,但这种方法需要大量的可用于训练的有标签数据,而有标签数据是通过人工标注得到的,因此,需要耗费大量的人工标注成本。此外,通过有监督的学习所得的模型往往只能学到一些特定知识,而无法学习到通用知识,导致最终所学习到的特征表示难以迁移到其他任务,导致检索速率较慢,匹配结果的有效性较低。
3、针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本技术实施例提供了一种文本检索匹配方法、装置、存储介质和计算机程序产品,以至少解决采用人工标注的有标签数据所训练的模型在文本量较大的检索匹配场景下的性能较差的技术问题。
2、根据本技术实施例的一个方面,提供了一种文本检索匹配方法,包括:获取第一搜索请求文本,并提取第一搜索请求文本的主题词;从预设的数据库内多个文本内获取与主题词相同的至少一个备选文本;利用预设的目标语言模型对第一搜索请求文本和各个备选文本进行特征提取,得到第一搜索请求文本对应的第一嵌入式表征向量和各个备选文本对应的第二嵌入式表征向量,其中,目标语言模型是利用数据增强后的多组目标样本数据进行迭代对抗训练所得,且每组目标样本数据内包括至少一个正样本和至少一个负样本;确定第一嵌入式表征向量和各个第二嵌入式表征向量之间的向量相似度,并从至少一个备选文本内确定向量相似度不低于预设的向量相似度阈值的目标文本。
3、可选地,提取第一搜索请求文本的主题词,包括:对第一搜索请求文本进行分词划分,得到多个第一分词;获取各个第一分词的词性,并根据词性从多个第一分词内确定至少一个关键分词;判断至少一个关键分词内是否存在重复的关键分词;若存在,确定对至少一个关键分词进行去重操作,得到主题词;若不存在,确定至少一个关键分词为主题词。
4、可选地,目标语言模型的训练过程包括:构建初始语言模型;获取多组初始样本数据,并对多组初始样本数据进行预处理,其中,初始样本数据内包括:第二搜索请求文本和对应的第三嵌入式表征向量;利用文本数据增强方法对预处理后的多组初始样本数据进行处理,得到多组目标样本数据;利用多组目标样本数据对初始语言模型进行迭代对抗训练,得到目标语言模型。
5、可选地,利用文本数据增强方法对预处理后的多组初始样本数据进行处理,得到多组目标样本数据,包括:对于预处理后的每组初始样本数据,将初始样本数据内的第二搜索请求文本分割成多个第二分词,并对至少一个第二分词进行洗牌,由洗牌后的各个第二分词组成第三搜索请求文本,确定各个第三搜索请求文本对应的第四嵌入式表征向量;由各个第二搜索请求文本及其对应的第三嵌入式表征向量、各个第三搜索请求文本及其对应的第四嵌入式表征向量组成正样本;并由各个第二搜索请求文本及第五嵌入式表征向量、各个第三搜索请求文本及第六嵌入式表征向量组成负样本,其中,第五嵌入式表征向量为与第二搜索请求文本对应的第三嵌入式表征向量之外的其他嵌入式表征向量,第六嵌入式表征向量为与第三搜索请求文本对应的第四嵌入式表征向量之外的其他嵌入式表征向量;由至少一个正样本和至少一个负样本组成多组目标样本数据。
6、可选地,利用文本数据增强方法对预处理后的多组初始样本数据进行处理,得到多组目标样本数据,还包括:对于预处理后的每组初始样本数据,按照预设概率分别对初始样本数据内的第二搜索请求文本和/或第三搜索请求文本进行分词删减,得到第四搜索请求文本和/或第五搜索请求文本,并确定各个第四搜索请求文本对应的第七嵌入式表征向量和/或各个第五搜索请求文本对应的第八嵌入式表征向量;由各个第四搜索请求文本及其对应的第七嵌入式表征向量和/或各个第五搜索请求文本及其对应的第八嵌入式表征向量组成正样本,并由各个第四搜索请求文本及第九嵌入式表征向量和/或各个第五搜索请求文本及第十嵌入式表征向量组成正样本,其中,第九嵌入式表征向量为与第四搜索请求文本对应的第七嵌入式表征子向量之外的其他嵌入式表征向量,第十嵌入式表征向量为与第五搜索请求文本对应的第八嵌入式表征子向量之外的其他嵌入式表征向量;由至少一个正样本和至少一个负样本组成多组目标样本数据。
7、可选地,目标样本数据中包括目标搜索请求文本和目标嵌入式表征向量,其中,利用多组目标样本数据对初始语言模型进行迭代对抗训练,得到目标语言模型,包括:对于迭代对抗训练过程中的每个训练批次,将训练批次的各组目标样本数据内的目标搜索请求文本输入至初始语言模型内,得到初始语言模型输出的预测嵌入式表征向量;利用各组目标文本数据的目标嵌入式表征向量和预测嵌入式表征向量构建目标损失函数;依据目标损失函数调整初始语言模型的模型参数。
8、可选地,依据目标损失函数调整初始语言模型的模型参数,包括:对于迭代过程中的每个训练批次,基于当前训练批次的多组目标样本数据,利用反向传播算法确定目标损失函数在当前迭代轮的模型参数上的第一梯度;利用预设的扰动参数、上一迭代轮的对抗扰动值以及第一梯度,计算当前迭代轮的当前对抗扰动值,其中,初始迭代轮的对抗扰动值为零;将当前对抗扰动值添加至目标样本数据对应的初始语言模型的模型参数上,更新目标损失函数;利用当前训练批次的多组目标样本数据,计算更新后的目标损失函数在模型参数上的第二梯度;基于第一梯度和第二梯度确定对抗梯度,并利用预设的梯度下降算法对对抗梯度进行处理,以调整初始语言模型的模型参数,其中,梯度下降算法包括以下至少之一:自适应学习率梯度下降算法、动量梯度下降算法。
9、根据本技术实施例的另一方面,还提供了一种文本检索匹配装置,包括:第一获取模块,用于获取第一搜索请求文本,并提取第一搜索请求文本的主题词;第二获取模块,用于从预设的数据库内多个文本内获取与主题词相同的至少一个备选文本;特征提取模块,用于利用预设的目标语言模型对第一搜索请求文本和各个备选文本进行特征提取,得到第一搜索请求文本对应的第一嵌入式表征向量和各个备选文本对应的第二嵌入式表征向量,其中,目标语言模型是利用数据增强后的多组目标样本数据进行迭代对抗训练所得,且每组目标样本数据内包括至少一个正样本和至少一个负样本;确定模块,用于确定第一嵌入式表征向量和各个第二嵌入式表征向量之间的向量相似度,并从至少一个备选文本内确定向量相似度不低于预设的向量相似度阈值的目标文本。
10、根据本技术实施例的另一方面,还提供了一种非易失性存储介质,该非易失性存储介质包括存储的计算机程序,其中,非易失性存储介质所在设备通过运行该计算机程序执行上述的文本检索匹配方法。
11、根据本技术实施例的另一方面,还提供了一种计算机程序产品,该计算机程序产品包括存储的计算机程序,其中,计算机程序被处理器执行时实现上述的文本检索匹配方法。
12、在本技术实施例中,获取第一搜索请求文本并提取其主题词,从预设的知识数据库内多个文本内初步筛选出与主题词相同的至少一个备选文本;利用目标语言模型对第一搜索请求文本和各个备选文本进行特征提取,得到第一搜索请求文本对应的第一嵌入式表征向量和各个备选文本对应的第二嵌入式表征向量;最后通过分析第一嵌入式表征向量和各个第二嵌入式表征向量的相似性,以从至少一个备选文本内准确地筛选出与第一搜索请求文本对应的目标文本。其中,利用数据增强技术生成自监督学习的正负样本对,基于所生成的这些正负样本对,在深度学习训练阶段加入对抗训练,增加与梯度方向变化一致的扰动,以提升最终模型的泛化能力。最后通过向量相似度计算方法检索到与第一搜索请求文本匹配的目标文本,达到了提高检索速度的目的,从而在无大量人工标注的有标签数据的情况下,可以有效地提高对文本检索匹配的准确性和效率,进而解决了采用人工标注的有标签数据所训练的模型在文本量较大的检索匹配场景下的性能较差技术问题。
技术研发人员:马俊,储军梅
技术所有人:中国电信股份有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除