一种基于知识图谱的结构化数据分类方法及装置与流程

本技术实施例涉及政务服务,尤其涉及一种基于知识图谱的结构化数据分类方法及装置。
背景技术:
1、公共数据资源的开放共享是大数据产业蓬勃发展的关键,健全的数据分类体系是公共数据开放共享的基础,目前,许多地区面临着公共数据分类体系不够完善,分类标准不统一,无法有效支撑数据共享。现有技术中,公共领域结构化库表数据的特点是标签数据少、数据交叉多,通传统文本分类模型和深度学习模型处理该类数据,则分类准确率十分低下。
技术实现思路
1、本技术实施例提供了一种基于知识图谱的结构化数据分类方法及装置,可以提高对公共领域构化库表数据的分类准确性。
2、本技术实施例第一方面提供了一种基于知识图谱的结构化数据分类方法,包括:
3、获取公共领域核心词汇库;
4、利用分词模型对所述公共领域核心词汇库进行实体信息抽取,得到多个实体和所述多个实体之间的关系信息;
5、根据所述多个实体和所述关系信息构建知识图谱;
6、将待分类数据输入所述分词模型,得到第一分词结果,所述待分类数据为结构化数据库表中的数据;
7、将所述第一分词结果输入所述知识图谱,得到主题词类别;
8、根据所述主题词类别确定分类模型;
9、将所述第一分词结果输入所述分类模型,得到分类结果。
10、可选的,所述主题词类别包括单主题、多主题和无主题。
11、可选的,所述根据所述主题词类别确定分类模型包括:
12、当所述主题词类别表征为无主题时,确定对应的分类模型为kg-bert模型;
13、当所述主题词类别表征为单主题时,确定对应的分类模型为kg-stopic模型;
14、当所述主题词类别表征为多主题时,确定对应的分类模型为tf-idf 模型。
15、可选的,所述根据所述主题词类别确定分类模型之前,所述方法还包括:
16、利用所述分词模型和所述知识图谱对原始数据集处理,得到第一数据集,所述第一数据集仅包括主题词类别表征为单主题的数据;
17、通过公共数据匹配规则修正所述第一数据集,得到第二数据集;
18、将所述知识图谱和lda模型对所述第一数据集进行数据扩充,得到第三数据集;
19、将所述第二数据集和所述第三数据集合并成第四数据集;
20、利用所述第四数据集对预训练的bert模型进行迭代训练,待达到训练完成条件时,获得kg-bert模型。
21、可选的,所述将所述知识图谱和lda模型对所述第一数据集进行数据扩充,得到第三数据集包括:
22、利用lda模型对所述第一数据集中的每条数据进行主题分布分析,提取具有最高概率的主题词;
23、将所提取的主题词输入所述知识图谱,匹配与所述主题词相关的实体和关联关系;
24、当所述主题词在所述知识图谱中存在关联关系时,基于所述关联关系中相关的实体对所述第一数据集进行词替换或补充,生成扩充后的数据;
25、重复执行上述步骤直至达到预设的扩展停止条件,得到扩充后的第三数据集。
26、可选的,若所述主题词类别表征为多主题,所述将所述第一分词结果输入所述分类模型,得到分类结果包括:
27、将所述第一分词结果输入所述分类模型的特征计算模块计算tf-idf向量;
28、对所述tf-idf向量执行奇异值分解,得到降维向量;
29、利用自注意力机制处理所述降维向量,得到全局向量;
30、对所述降维向量和所述全局向量进行加权融合,得到融合向量;
31、利用随机切片哈希分类器对所述融合向量处理,得到第一分类结果;
32、利用自组织映射分类器对所述融合向量处理,得到第二分类结果;
33、对所述第一分类结果和所述第二分类结果进行加权投票,得到分类结果。
34、可选的,所述利用随机切片哈希分类器对所述融合向量处理,得到第一分类结果包括:
35、通过随机切片哈希分类器的至少二个哈希表分别计算所述融合向量对应的哈希值;
36、根据预设的组合规则将所有的哈希值合并,得到组合哈希值;
37、根据所述组合哈希值确定第一分类结果。
38、本技术实施例第二方面提供了一种基于知识图谱的结构化数据分类装置,包括:
39、获取单元,用于获取公共领域核心词汇库;
40、抽取单元,用于利用分词模型对所述公共领域核心词汇库进行实体信息抽取,得到多个实体和所述多个实体之间的关系信息;
41、构建单元,用于根据所述多个实体和所述关系信息构建知识图谱;
42、第一输入单元,用于将待分类数据输入所述分词模型,得到第一分词结果,所述待分类数据为结构化数据库表中的数据;
43、第二输入单元,用于将所述第一分词结果输入所述知识图谱,得到主题词类别;
44、确定单元,用于根据所述主题词类别确定分类模型;
45、第三输入单元,用于将所述第一分词结果输入所述分类模型,得到分类结果。
46、可选的,所述确定单元具体用于:
47、当所述主题词类别表征为无主题时,确定对应的分类模型为kg-bert模型;
48、当所述主题词类别表征为单主题时,确定对应的分类模型为kg-stopic模型;
49、当所述主题词类别表征为多主题时,确定对应的分类模型为tf-idf 模型。
50、可选的,所述装置还包括:
51、处理单元,用于利用所述分词模型和所述知识图谱对原始数据集处理,得到第一数据集,所述第一数据集仅包括主题词类别表征为单主题的数据;
52、修正单元,用于通过公共数据匹配规则修正所述第一数据集,得到第二数据集;
53、扩充单元,用于将所述知识图谱和lda模型对所述第一数据集进行数据扩充,得到第三数据集;
54、合并单元,用于将所述第二数据集和所述第三数据集合并成第四数据集;
55、训练单元,用于利用所述第四数据集对预训练的bert模型进行迭代训练,待达到训练完成条件时,获得kg-bert模型。
56、可选的,所述扩充单元具体用于:
57、利用lda模型对所述第一数据集中的每条数据进行主题分布分析,提取具有最高概率的主题词;
58、将所提取的主题词输入所述知识图谱,匹配与所述主题词相关的实体和关联关系;
59、当所述主题词在所述知识图谱中存在关联关系时,基于所述关联关系中相关的实体对所述第一数据集进行词替换或补充,生成扩充后的数据;
60、重复执行上述步骤直至达到预设的扩展停止条件,得到扩充后的第三数据集。
61、可选的,所述第三输入单元包括:
62、计算模块,用于将所述第一分词结果输入所述分类模型的特征计算模块计算tf-idf向量;
63、分解模块,用于对所述tf-idf向量执行奇异值分解,得到降维向量;
64、处理模块,用于利用自注意力机制处理所述降维向量,得到全局向量;
65、融合模块,用于对所述降维向量和所述全局向量进行加权融合,得到融合向量;
66、第一分类模块,用于利用随机切片哈希分类器对所述融合向量处理,得到第一分类结果;
67、第二分类模块,用于利用自组织映射分类器对所述融合向量处理,得到第二分类结果;
68、投票模块,用于对所述第一分类结果和所述第二分类结果进行加权投票,得到分类结果。
69、可选的,所述第一分类模块具体用于:
70、通过随机切片哈希分类器的至少二个哈希表分别计算所述融合向量对应的哈希值;
71、根据预设的组合规则将所有的哈希值合并,得到组合哈希值;
72、根据所述组合哈希值确定第一分类结果。
73、本技术实施例第三方面提供了一种电子设备,包括:
74、处理器、存储器、输入输出单元以及总线;
75、所述处理器与所述存储器、所述输入输出单元以及所述总线相连;
76、所述存储器中保存有程序,所述处理器调用所述程序执行第一方面及第一方面任意一种可能的实施方式中的方法。
77、本技术实施例第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上保存有程序,所述程序在计算机上执行时使得所述计算机执行第一方面及第一方面任意一种可能的实施方式中的方法。
78、从以上技术方案可以看出,本技术实施例具有以下优点:
79、本技术实施例提供的方法,通过分词模型和知识图谱的结合,服务器能够从结构化数据中精确提取实体及其关系,构建出丰富的知识图谱,并将该知识图谱应用于数据分类。通过这个过程,服务器能够自动识别出数据的主题类别,并选择适合的分类模型,从而确保分类结果的准确性和效率。最终,基于知识图谱和分类模型的多重协作,系统能够有效处理复杂的公共数据,提升数据的组织、管理和利用能力,实现智能化的数据分类和推理。
技术研发人员:邹佳,丁洪鑫,朱文天,王胜漪,曹扬,李芳,邵勇波
技术所有人:中电科大数据研究院有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
