一种基于多关系深度检索文本匹配的人名消歧方法与流程
技术特征:
1.一种基于多关系深度检索文本匹配的人名消歧方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于多关系深度检索文本匹配的人名消歧方法,其特征在于,步骤s1中,具体处理流程为:
3.根据权利要求1所述的一种基于多关系深度检索文本匹配的人名消歧方法,其特征在于,步骤s2中,论文对匹配向量计算并训练同著分类器具体为:
4.根据权利要求3所述的一种基于多关系深度检索文本匹配的人名消歧方法,其特征在于,还包括:
5.根据权利要求1所述的一种基于多关系深度检索文本匹配的人名消歧方法,其特征在于,步骤s4中,在线上分配过程中,当一个新的论文集合批次到达时,首先会提取出它其中的科研人名实体以及对应的论文子集,然后,对于一个人名实体a以及它的论文子集中的每一篇论文d,end-mrnm的线上分配模块会将它分配到系统中对应人名a的现有作者档案集合c(a)中的一个,或者归属到全新的档案并更新
6.根据权利要求5所述的一种基于多关系深度检索文本匹配的人名消歧方法,其特征在于,步骤s4中,作者档案成员论文代表性计算:
7.根据权利要求6所述的一种基于多关系深度检索文本匹配的人名消歧方法,其特征在于:对于一篇论文d′对其所属档案c(其中c∈c(a))的代表性分数importance(c)(d′)定义如下:
8.根据权利要求7所述的一种基于多关系深度检索文本匹配的人名消歧方法,其特征在于:步骤s4中,还包括更新近邻论文和近邻作者关系图,新批次论文数据到达,包含的科研人名以及这些人名对应的以上各类关系图和同名作者档案也会不断地更新以满足线上论文分配的实时性和准确性要求。
9.根据权利要求8所述的一种基于多关系深度检索文本匹配的人名消歧方法,其特征在于,步骤s4中,还包括目标论文-作者档案匹配,当作者档案成员论文代表性计算以及近邻论文和近邻作者关系图更新后,只保留所有大型作者档案中前10%的代表性论文,再将这些保留的论文集合与小型档案下的论文集合合并,构造出该论文集合与目标论文构成的目标论文对集合;
技术总结
本发明公开了一种基于多关系深度检索文本匹配的人名消歧方法,涉及检索文本匹配领域,目的在于同时解决当前科研人名实体消歧方法中存在的主要问题。首先它提出了一个统一完整的消歧框架同时解决冷启动和增量阶段的科研人名消歧。此外,本发明通过深度检索技术尽可能地保留了文本或统计特征下的局部匹配信息,确保了作者对匹配的精度。本发明还考虑了除字符外的其它不同来源和粒度的匹配信息,包括著作顺序信息,作者间关系和论文间关系信息。考虑这些信息能极大地丰富作者对匹配的维度,从而提高匹配的准确性。
技术研发人员:金源,崔赫,张鹤,杨林,许若华
受保护的技术使用者:中图科信数智技术(北京)有限公司
技术研发日:
技术公布日:2024/11/18
技术研发人员:金源,崔赫,张鹤,杨林,许若华
技术所有人:中图科信数智技术(北京)有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
