一种融合事件抽取技术的城市遗址知识图谱构建方法、文物数据管理系统及可读存储介质与流程
技术特征:
1.一种融合事件抽取技术的城市遗址知识图谱构建方法,其特征在于,包括如下步骤:
2.根据权利要求 1 所述的融合事件抽取技术的城市遗址知识图谱构建方法,其特征在于,所述 s1 收集并整理城市遗址考古发掘成果资料和历史文献,获取城市遗址文本数据的过程还包括数据扩充和数据清洗,数据扩充包括采取爬虫技术爬取百科数据,对所述城市遗址文本数据作进一步补充。
3.根据权利要求 1 所述的融合事件抽取技术的城市遗址知识图谱构建方法,其特征在于,所述 s2 中以细分领域词库为基础,所述细分领域词库关注出土文物名称、年代、材质、器型以及历史事件。
4.根据权利要求 1 所述的融合事件抽取技术的城市遗址知识图谱构建方法,其特征在于,所述 s31 预处理包括文本清洗和分词,第一步对文本进行清洗,去除无关字符和标点符号,第二步进行分词,将连续的文本字符串分割成独立的词或短语,对分割好的词和短语进行词性标注,对各所述词或短语分别分配一个词性标签,如动词、名词、形容词,为实体识别提供辅助信息,关于分词,使用 hanlp 分词工具进行分词,在分词前将所述步骤s2 构建好的所述文物和历史事件的种子词库输入至 hanlp 词典中,进行词库补充和完善,再将连续的文本字符串输入到 hanlp 中,分割成独立的词或短语。
5.根据权利要求 1 所述的融合事件抽取技术的城市遗址知识图谱构建方法,其特征在于,所述 s32 对经过预处理后的原始文本进行,明确需要识别的实体类型包括:采用bioes 标注法对文本进行标注,明确需要识别的实体类型,获得标注数据,其中“b” 表示实体的开始字符,“i”表示实体的内部字符,“o”表示非实体字符,“e”表示实体的结束字符,“s”表示单字实体。
6.根据权利要求 1 所述的融合事件抽取技术的城市遗址知识图谱构建方法,其特征在于,所述 s5 中采用 neo4j bloom 工具进行可视化展示。
7.一种文物数据管理系统,其特征在于,该文物数据管理系统运行时应用权利要求 1-6 任一项所述融合事件抽取技术的城市遗址知识图谱构建方法,包括相互连接的出土文物数据管理模块(1)、出土文物数据审核模块(2)、出土文物图片搜索模块(3)、出土文物图片标记模块(4)和系统管理模块(5):
8.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现权利要求 1-6 任一项所述融合事件抽取技术的城市遗址知识图谱构建方法。
技术总结
本发明提供了一种融合事件抽取技术的城市遗址知识图谱构建方法,包括:S1:收集并整理城市遗址考古发掘成果资料和历史文献,获取城市遗址文本数据,S2:文物和历史事件的种子词库构建;S3:命名实体识别;S4:采用大语言模型LLMs生成外部补充特征的事件抽取技术对经过命名实体识别后的原始文本进行事件信息抽取,并转化为结构化数据;S5:构建知识图谱并进行可视化展示,还发明了一种文物数据管理系统和计算机可读存储介质,采用RoBERTa‑BiLSTM‑CRF模型作为主要框架,引入大语言模型提取事件推理信息和实体信息,并构建外部补充特征,更深入地挖掘事件元素之间的关联,提高了事件抽取任务的准确性。
技术研发人员:王如梅,纪有,陈锦峰,万静,李哲
受保护的技术使用者:北京市科学技术研究院
技术研发日:
技术公布日:2024/11/26
技术研发人员:王如梅,纪有,陈锦峰,万静,李哲
技术所有人:北京市科学技术研究院
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
