一种基于序列推荐的合作关系预测方法、装置及电子设备

本发明涉及数据预测领域,更具体地说,涉及一种基于序列推荐的合作关系预测方法、装置及电子设备。
背景技术:
1、随着科学研究在学术界的广泛开展,学者们创造出源源不断的科研成果。随着科研的深入,科研产出的成本越来越高,单一科研合作者必须通过联合其他科研人员一起合作以发现新的成果。若是能够进行学者合作的预测,则能够在后续输出科研成果时,减少寻找合作者的时间,减小科研的成本,提高科研的效率。
2、现有在进行合作关系预测时,是人工根据经验选择合适的合作者,此种方式容易受到主观因素的影响,使得合作关系预测的准确度较低。
技术实现思路
1、有鉴于此,本发明提供一种基于序列推荐的合作关系预测方法、装置及电子设备,以解决合作关系预测准确度较低的问题。
2、为解决上述技术问题,本发明采用了如下技术方案:
3、一种基于序列推荐的合作关系预测方法,包括:
4、获取待进行合作关系预测的目标作者;
5、计算所述目标作者发表的文本的时间嵌入以及内容嵌入;
6、确定所述目标作者的作者嵌入集合,所述作者嵌入集合包括所述目标作者的科研嵌入和高阶嵌入;所述高阶嵌入为,与所述目标作者具有直接或间接合作关系的合作作者的科研嵌入;
7、获取为所述目标作者配置的多个token,查询所述token对应的token嵌入;
8、基于所述时间嵌入、所述内容嵌入、所述作者嵌入集合及所述token嵌入,预测所述目标作者的合作者;所述合作者由多个token组成。
9、可选地,计算所述目标作者发表的文本的时间嵌入,包括:
10、确定所述文本的公开时间;
11、对所述公开时间进行标准化操作,得到中间时间;
12、确定所述中间时间对应的时间嵌入值,得到所述文本的时间嵌入。
13、可选地,计算所述目标作者发表的文本的内容嵌入,包括:
14、获取所述文本的关键信息;
15、计算所述关键信息的嵌入向量,作为所述文本的内容嵌入。
16、可选地,确定所述目标作者的作者嵌入集合,包括:
17、获取与所述目标作者合作的合作作者;所述合作包括直接合作或间接合作;
18、根据所述内容嵌入计算所述目标作者的科研嵌入;
19、计算所述合作作者的科研嵌入;
20、利用所述合作作者的科研嵌入以及作者合作关系图结构,计算所述目标作者的高阶嵌入;
21、将所述目标作者的科研嵌入和高阶嵌入组合得到作者嵌入集合。
22、可选地,根据所述内容嵌入计算所述目标作者的科研嵌入,包括:
23、计算所述内容嵌入按时间衰减的加权平均值,得到所述目标作者的科研嵌入。
24、可选地,获取为所述目标作者配置的多个token,查询所述token对应的token嵌入,包括:
25、获取预设拆分token数量;
26、对表征作者与文本关系的稀疏矩阵进行降维操作,得到基于量化精度以及预设拆分token数量构建的token字典,基于所述token字典,为所述目标作者配置多个token;
27、将每个token输入嵌入层中,得到所述token对应的token嵌入。
28、可选地,基于所述时间嵌入、所述内容嵌入、所述作者嵌入集合及所述token嵌入,预测所述目标作者的合作者,包括:
29、将所述时间嵌入、所述内容嵌入、所述作者嵌入集合及所述token嵌入进行组合,得到输入数据;
30、将所述输入数据顺序输入到基于序列推荐的合作关系预测模型中,得到所述目标作者的合作关系分值;
31、利用分类器对所述合作关系分值进行分类操作,得到合作者。
32、可选地,所述基于序列推荐的合作关系预测模型的生成过程包括:
33、获取训练样本,所述训练样本包括不同作者对应的时间嵌入、内容嵌入、作者嵌入集合及token嵌入的组合;
34、基于预设训练方法,使用所述训练样本对基于序列推荐的合作关系预测模型进行训练操作,直至满足训练停止条件时停止。
35、一种基于序列推荐的合作关系预测装置,包括:
36、作者获取模块,用于获取待进行合作关系预测的目标作者;
37、嵌入计算模块,用于计算所述目标作者发表的文本的时间嵌入以及内容嵌入;
38、集合确定模块,用于确定所述目标作者的作者嵌入集合,所述作者嵌入集合包括所述目标作者的科研嵌入和高阶嵌入;所述高阶嵌入为,与所述目标作者具有直接或间接合作关系的合作作者的科研嵌入;
39、嵌入获取模块,用于获取为所述目标作者配置的多个token,查询所述token对应的token嵌入;
40、作者预测模块,用于基于所述时间嵌入、所述内容嵌入、所述作者嵌入集合及所述token嵌入,预测所述目标作者的合作者;所述合作者由多个token组成。
41、一种电子设备,包括:存储器和处理器;
42、其中,所述存储器用于存储程序;
43、所述处理器调用程序并用于执行上述的基于序列推荐的合作关系预测方法。
44、相较于现有技术,本发明具有以下有益效果:
45、本发明提供一种基于序列推荐的合作关系预测方法、装置及电子设备,本发明中,在进行合作关系预测时,通过时间嵌入描述作者对应的文本随时间的动态变化情况,通过作者高阶嵌入考虑作者与合作者的历史合作关系,通过内容嵌入表征文本核心描述情况,进而基于所述时间嵌入、所述内容嵌入、所述作者嵌入集合及所述token嵌入,预测所述目标作者的合作者时,能够从多角度预测合作关系,提高预测的准确度。另外,本发明并未直接使用一个作者为一个序列token,而是为所述作者配置多个token,得到作者对应的多个token嵌入,能够在模型训练时,节省计算资源,也能够实现作者数量较大的场景下的合作关系预测,具有较高的准确性和可靠性,效率较高。
技术特征:
1.一种基于序列推荐的合作关系预测方法,其特征在于,包括:
2.根据权利要求1所述的基于序列推荐的合作关系预测方法,其特征在于,计算所述目标作者发表的文本的时间嵌入,包括:
3.根据权利要求1所述的基于序列推荐的合作关系预测方法,其特征在于,计算所述目标作者发表的文本的内容嵌入,包括:
4.根据权利要求1所述的基于序列推荐的合作关系预测方法,其特征在于,确定所述目标作者的作者嵌入集合,包括:
5.根据权利要求4所述的基于序列推荐的合作关系预测方法,其特征在于,根据所述内容嵌入计算所述目标作者的科研嵌入,包括:
6.根据权利要求1所述的基于序列推荐的合作关系预测方法,其特征在于,获取为所述目标作者配置的多个token,查询所述token对应的token嵌入,包括:
7.根据权利要求1所述的基于序列推荐的合作关系预测方法,其特征在于,基于所述时间嵌入、所述内容嵌入、所述作者嵌入集合及所述token嵌入,预测所述目标作者的合作者,包括:
8.根据权利要求7所述的基于序列推荐的合作关系预测方法,其特征在于,所述基于序列推荐的合作关系预测模型的生成过程包括:
9.一种基于序列推荐的合作关系预测装置,其特征在于,包括:
10.一种电子设备,其特征在于,包括:存储器和处理器;
技术总结
本发明提供一种基于序列推荐的合作关系预测方法、装置及电子设备,涉及数据预测领域。在进行合作关系预测时,通过时间嵌入描述作者对应的文本随时间的动态变化情况,通过作者高阶嵌入考虑作者与合作者的历史合作关系,通过内容嵌入表征文本核心描述情况,进而基于时间嵌入、内容嵌入、作者嵌入集合及Token嵌入,预测目标作者的合作者时,能够从多角度预测合作关系,提高预测准确度。另外,为作者配置多个Token,得到作者对应的多个Token嵌入,能够在模型训练时节省计算资源,也能够实现作者数量较大的场景下的合作关系预测,准确性、可靠性和效率较高。使用k‑best‑crf算法进行多Token分类预测,提高预测成功率。
技术研发人员:刘辉,张燕舞,范云满,王军辉,张玢,肖宇锋,方安,侯宇
受保护的技术使用者:中国医学科学院医学信息研究所
技术研发日:
技术公布日:2024/11/18
技术研发人员:刘辉,张燕舞,范云满,王军辉,张玢,肖宇锋,方安,侯宇
技术所有人:中国医学科学院医学信息研究所
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
