基于图数据库和向量数据库的数据处理和存储方法及装置
技术特征:
1.一种基于图数据库和向量数据库的数据处理和存储方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的一种基于图数据库和向量数据库的数据处理和存储方法,其特征在于,步骤1中,通过构建布局检测模型,分析文档布局,构建步骤如下:
3.根据权利要求1所述的一种基于图数据库和向量数据库的数据处理和存储方法,其特征在于,步骤1中,通过构建表格转换模型,将表格转换为json格式,构建步骤如下:
4.根据权利要求2所述的一种基于图数据库和向量数据库的数据处理和存储方法,其特征在于, 将文档转换为文档图像后,使用布局检测模型分析文档图像的内容布局,将文档图像划分出文本、图像、表格3类区域,并用不同的颜色进行表示;布局检测模型输出所有区域框的四个边界值,表示区域在图像中的位置,每个检测到的区域会被分配一个类别标签; 提取文本、图像和表格区域的内容,将提取的数据保存为markdown格式。
5.根据权利要求1所述的一种基于图数据库和向量数据库的数据处理和存储方法,其特征在于,步骤3中,构建数据存储模块,将转换后的markdown格式的文档进行结构化划分,保存在图数据库neo4j和向量数据库elasticsearch中,构建步骤如下:
6.根据权利要求2所述的一种基于图数据库和向量数据库的数据处理和存储方法,其特征在于,所述布局检测模型使用文本-图像多模态transformer来学习跨模态特征,通过使用掩码语言建模mlm、掩码图像建模mim和词块对齐wpa三个模块实现对文本信息和图像信息的捕捉;其中掩码语言建模随机遮盖一部分的文本词向量,但保留对应的二维位置信息,任务目标是根据未被遮盖的图文和布局信息还原文本中被遮盖的词;掩码图像建模随机遮盖一部分的图像块,任务目标是根据未被遮盖的文本和图像的信息还原被遮盖的图像块经过离散化的id;词块对齐通过显式地预测一个文本词的对应图像块是否被掩盖来学习语言和视觉模态之间的细粒度对齐关系。
7.根据权利要求3所述的一种基于图数据库和向量数据库的数据处理和存储方法,其特征在于,所述表格转换模型叠加采用了一个12层的transformer,特别的,在输入表格内容前添加特殊符号“instruction:”,用于提示文本生成,并且在每层的多头注意力模块中添加可训练向量来预训练任务的提示;训练过程中,首先将表格压平成一个序列,以便直接输入到模型中;通过插入特殊的标记来表示表的边界。
8.根据权利要求5所述的一种基于图数据库和向量数据库的数据处理和存储方法,其特征在于,构建一个以“主题”为核心的图数据库,形成一个互联的信息网络,在这个网络中,“主题”节点占据中心地位,与多个“文件”节点相连,每个“文件”节点均是一个丰富的信息集合,包含“参考文件”、“es索引”、“附件”子节点;所有节点通过参考文件、附录的关系类型与其他节点相连,形成一个复杂的语义网络。
9.根据权利要求5所述的一种基于图数据库和向量数据库的数据处理和存储方法,其特征在于,将数据块以向量化表示,对于图像数据,在转为向量表示后,单独在elasticsearch中存储,具体的,使用bge-embedding向量化模型,向量化划分的数据块,在elasticsearch数据库中以文件作为索引,每个文件包括多个数据块,每个数据块有着独自的数据类型;特别的,同时在elasticsearch数据库保存文件数据块的原始版本,即未经过向量化的版本,以实现混合检索。
10.一种基于图数据库和向量数据库的数据处理和存储装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,其特征在于,所述处理器执行所述可执行代码时,实现如权利要求1-9中任一项所述的一种基于图数据库和向量数据库的数据处理和存储方法。
技术总结
本发明公开了一种基于图数据库和向量数据库的数据处理和存储方法及装置。基于图数据库和向量数据库,结合LayoutLMv3模型、Transformer模型与OCR技术,旨在高效地解析、存储和检索非结构化文档。本发明首先将文档转换为图像,使用布局分析模型LayoutLMv3模型识别图像中的文本、图像、表格几类区域,然后使用三类解析器分析包含数据的区域,特别的,由于表格数据结构的复杂性,使用表格分析模型将表格转为文本表示,最后,将所得到的所有数据进行结构化分割,分别保存在图数据库和向量数据库中,以实现对数据检索的高准确性和高效率性,为大数据分析和大语言模型应用提供了强大的支持。
技术研发人员:孙杰,祁亮,华璟,王勋,李晓宇,顾志伟,郑俊
受保护的技术使用者:浙江工商大学
技术研发日:
技术公布日:2024/11/18
技术研发人员:孙杰,祁亮,华璟,王勋,李晓宇,顾志伟,郑俊
技术所有人:浙江工商大学
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
