一种预测模型的构建方法、系统、存储介质和设备与流程

本公开属于自然语言处理,尤其涉及一种预测模型的构建方法、系统、存储介质和设备。
背景技术:
1、在评标阶段,评审团队面临着在限制的时间内审查众多详细的投标文档的挑战。实际应用场景中,若发现投标文档间存在高度的一致性,这可能指示了投标者之间的不正当协作。考虑到每份投标文档通常包含大量页面,这将耗费评审人员大量的注意力和体力。
2、现有方法需要评审人员进行人工处理和分析,无法自动识别出不同投标文档之间相似的部分。
3、如何引入投标文件的文本相似度分析工具,以自动化地执行繁重的文本比较任务,能够自动识别出不同投标文档之间相似的部分,是待解决的技术问题。
技术实现思路
1、基于此,有必要针对现有的方法无法自动识别出不同投标文档之间相似的部分的缺陷,提供一种预测模型的构建方法、系统、存储介质和设备。
2、第一方面,本发明实施例提供了一种预测模型的构建方法,所述方法包括:
3、在预测模型的输入层对数据进行预处理,以将目标编码与目标词向量进行拼接处理,得到对应的目标综合特征表示,并将所述目标综合特征表示作为预测模型网络层的输入;
4、构建预测模型的网络层,所述预测模型的网络层包括三层,预测模型的网络层的第一层和第三层均为双层双向长短期记忆网络,预测模型的网络层的第二层为自注意力机制层,通过所述双向长短期记忆网络挖掘文本词汇的上下文关系,通过所述自注意力机制层对重点词汇进行突出标识处理;
5、在预测模型的输出层,通过交叉熵损失函数和余弦相似度训练预测模型的参数,并使用nadam优化器进行参数的调整和优化,直至调整及优化得到预测模型,所述预测模型为用于对目标标书文本和其他待预测标书文本之间的文本相似度进行预测的模型。
6、可选地,所述在预测模型的输入层对数据进行预处理,以将目标编码与目标词向量进行拼接处理,得到对应的目标综合特征表示,并将所述目标综合特征表示作为预测模型网络层的输入,包括:
7、通过cw2vec词向量模型,对目标标书的文本进行向量化处理,得到对应的目标词向量;
8、通过预设工具,对目标标书中的文本依次进行词性特征提取处理,得到对应的多个词性特征;
9、通过所述预设工具,对所述目标标书中的所述文本依次进行词语依存关系特征提取处理,得到对应的多个词语依存关系特征;
10、基于one-hot编码方式,将所述多个词性特征和所述多个词语依存关系特征转化为对应的目标编码;
11、将所述目标编码与所述目标词向量进行拼接处理,得到所述目标综合特征表示,并将所述目标综合特征表示作为所述预测模型网络层的输入。
12、可选地,所述方法还包括:
13、读取所述多个词性特征;
14、为所述多个词性特征中的任意一个词性特征依次配置对应的第一序号和对应的解释;
15、将所述多个词性特征中的任意一个词性特征作为当前词性特征;
16、对当前词性特征、当前词性特征所对应的当前第一序号、以及当前词性特征所对应的当前解释之间建立第一关联关系。
17、可选地,所述方法还包括:
18、读取所述多个词语依存关系特征;
19、为所述多个词语依存关系特征中的任意一个词语依存关系特征依次配置对应的第二序号、标签和对应的词语依存关系解释;
20、将所述词语依存关系特征中的任意一个词语依存关系特征作为当前词语依存关系特征;
21、对当前词语依存关系特征、当前词语依存关系特征所对应的当前第二序号、以及当前词语依存关系特征所对应的当前词语依存关系解释之间建立第二关联关系。
22、可选地,所述方法还包括:
23、获取第一层双向长短期记忆网络的第一输出结果;
24、获取第二层自注意力机制层的第二输出结果;
25、将所述第一输出结果和所述第二输出结果进行拼接处理,得到对应的拼接处理结果;
26、获取所述拼接处理结果,以将所述拼接处理结果作为第三层双向长短期记忆网络的输入。
27、可选地,所述方法还包括:
28、获取自注意力机制层的query向量、key向量与value向量;
29、将所述query向量和所述key向量进行相似度计算,得到对应的权值;
30、对所述权值进行归一化处理,得到对应的归一化处理结果;
31、将所述归一化处理结果和所述value向量进行加权求和,得到对应的加权求和结果。
32、第二方面,本发明实施例提供了一种预测模型的构建系统,所述系统包括:
33、预处理模块,在预测模型的输入层对数据进行预处理,以将目标编码与目标词向量进行拼接处理,得到对应的目标综合特征表示,并将所述目标综合特征表示作为预测模型网络层的输入;
34、网络层的构建模块,用于构建预测模型的网络层,所述预测模型的网络层包括三层,预测模型的网络层的第一层和第三层均为双层双向长短期记忆网络,预测模型的网络层的第二层为自注意力机制层,通过所述双向长短期记忆网络挖掘文本词汇的上下文关系,通过所述自注意力机制层对重点词汇进行突出标识处理;
35、训练模块,用于在预测模型的输出层,通过交叉熵损失函数和余弦相似度训练预测模型的参数,并使用nadam优化器进行参数的调整和优化,直至调整及优化得到预测模型,所述预测模型为用于对目标标书文本和其他待预测标书文本之间的文本相似度进行预测的模型。
36、第三方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于执行上述的方法步骤。
37、第四方面,本发明实施例提供一种电子设备,所述电子设备包括:
38、处理器;
39、用于存储所述处理器可执行指令的存储器;
40、所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述可执行指令以实现上述的方法步骤。
41、在本发明实施例中,在预测模型的输入层对数据进行预处理,以将目标编码与目标词向量进行拼接处理,得到对应的目标综合特征表示,并将目标综合特征表示作为预测模型网络层的输入;构建预测模型的网络层,预测模型的网络层包括三层,预测模型的网络层的第一层和第三层均为双层双向长短期记忆网络,预测模型的网络层的第二层为自注意力机制层,通过双向长短期记忆网络挖掘文本词汇的上下文关系,通过自注意力机制层对重点词汇进行突出标识处理;以及在预测模型的输出层,通过交叉熵损失函数和余弦相似度训练预测模型的参数,并使用nadam优化器进行参数的调整和优化,直至调整及优化得到预测模型。本发明实施例提供的预测模型的构建方法,预测模型的网络层包括三层,预测模型的网络层的第一层和第三层均为双层双向长短期记忆网络,预测模型的网络层的第二层为自注意力机制层。使用一个双向长短期记忆网络层来捕捉句子的初步特征,然后在两个双向长短期记忆网络层中间插入一个自注意力机制层,通过自注意力机制层对重点词汇进行突出标识处理,能够平衡句子中各个单词对整体意义的不同影响力,并保证模型对词序的敏感性;通过双向长短期记忆网络挖掘文本词汇的上下文关系,从而优化预测模型的表现;最终,构建的预测模型能够对目标标书文本和其他待预测标书文本之间的文本相似度进行自动识别和预测,从而大大地提升了评审人员评审标书的评审效率。
技术研发人员:金和平,侯建刚,罗惠恒,龚涛,姜鹏
技术所有人:中国长江三峡集团有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
