一种地震数据查询方法、装置、电子设备及介质与流程

2026-05-22 13:20:01 182次浏览

本发明涉及地震勘探领域，尤其涉及一种地震数据查询方法、装置、电子设备及介质。

背景技术：

1、地震数据处理是石油勘探行业中的重要技术，其作用是能够根据特定的处理算法对野外采集的地震数据进行处理和计算，从而得出地下地质结构的图像，用于指导后续的钻井、石油开采工作。随着新的勘探技术和高精度的采集技术在石油勘探中不断得到应用，从野外采集到的原始地震数据量增长迅速，目前单个数据体的规模已经超过pb级别，其地震道数可达千亿条。地震应用程序处理的对象是通常就是这样一个庞大的地震数据体，地震数据体在逻辑上类似于关系型数据库中的数据表，是按照行的顺序进行组织的，每一行记录称为一个地震道。地震道由两部分组成，道头和道体。其中道头中存储了与该地震道相关的属性信息，包括炮点坐标、检波点坐标、采样点数，炮号，道号等信息，每个属性称为一个道头关键字。道体是一个浮点数组，每一个浮点数称为一个采样点。由于地震数据体是高维度结构化的数据，每个地震道都拥有上百种属性信息，存放在不同的道头关键字中。

2、然而，大量的交互式地震应用程序在访问地震数据体时，通常只对该地震数据体的部分数据集感兴趣。因此，大量的地震数据访问会对部分属性的取值范围进行指定，以过滤筛选出特定的数据集，同时还可能会指定以某些属性的顺序来决定查询结果的排序方式。由于多维度范围查询是地震应用程序中最常见的数据查询模式，其查询速度对地震应用程序，尤其是交互式应用程序的性能以及用户使用体验至关重要。高效的索引查询是保证查询效率，降低地震数据查询延迟的基础。b+树索引作为一种为磁盘或者其他直接存取的辅助存储设备而设计的平衡搜索树，能够有效降低查询时的磁盘i/o操作数。并且由于b+树能够支持沿叶子节点的快速范围扫描，因此具有比较好的范围查询性能。

3、但是，传统的b+树构建方法是将每一条记录插入空树中，其过程会包含很多复杂的操作，如节点的分裂、旋转等。对于千亿道无序数据，这种传统构建方法的开销是巨大的，且很难进行多机并行化构建，在多线程环境下的加速比也比较有限。同时，如果将每一道数据都存入b+树中，最终树的规模也将是巨大的，查找时依然会面临效率低下的问题。此外，使用b+树仅能对单一关键字进行查找，在多关键字范围查找时，需要先查询符合第一关键字条件的全部数据，再对后续关键字进行筛选，这会导致查找效率大幅降低。因此，针对海量地震数据，需要设计一种不同于传统b+树结构的分布式索引构建方法，以提高索引构建效率、加速比、可扩展性以及查询效率。

技术实现思路

1、有鉴于此，有必要针对以上技术问题，提供一种地震数据查询方法、装置、电子设备及介质。

2、根据本发明的第一方面，提供了一种地震数据查询方法，所述方法包括：

3、基于mapreduce框架与机器学习模型对地震数据进行数据抽样和数据分布式学习以生成节点分配模型；

4、基于mapreduce框架和所述节点分配模型对地震数据进行分布式分段排序以生成有序索引文件；

5、基于mapreduce框架、所述有序索引文件训练包括底层模型和非底层模型的学习型索引，并将所述学习型索引与所述节点分配模型进行组合以构建学习型索引结构；

6、获取待查询的关键字并输入至所述学习型索引结构以获取查询结果。

7、在一些实施例中，所述基于mapreduce框架与机器学习模型对地震数据进行数据抽样和数据分布式学习以生成节点分配模型的步骤，包括：

8、设定取样规模并设置reducer数量为1，使用mapreduce框架将取样规模平均分配给各节点；

9、在map阶段，各节点按照取样规模进行间隔性地震道读取，提取每个地震道中包含选定的关键字值的关键字信息，保证抽样读取的地震道数符合取样规模；

10、在reduce阶段，将读取到的关键字信息进行整合，把抽样结果作为整体数据扫描结果来生成后续各节点排序数据范围的分配表；

11、基于分配表将关键字值作为输入，为该值指定的节点序号作为输出，归一化处理后按照关键字值的道数占比传入机器学习模型中进行训练，拟合关键字的累积分布函数并进行保存生成节点分配模型。

12、在一些实施例中，所述基于mapreduce框架和所述节点分配模型对地震数据进行分布式分段排序以生成有序索引文件的步骤，包括：

13、在map阶段将道头数据平均分成多段，每个map任务负责一段数据的读取，然后将这些map任务平均分配给集群中各节点的map worker完成；

14、map worker在收到map任务后，开始对相应道头数据段进行处理，读取所有的道头，按顺序提取出每道中选定的关键字数据和该道道号作为索引项，并使用key/value对进行存储；

15、map worker通过调用节点分配模型获得每个索引项对应的节点编号，以此来将每个key/value分别发送给对应的reduce worker进行排序；

16、reduce worker收到map worker发来的全部key/value对后，按照关键字顺序对key/value对中所存的索引数据进行排序，最后将排序后的索引数据存入reduce worker所对应的文件中，统计每一关键字的信息写入对应的关键字信息文件中。

17、在一些实施例中，所述基于mapreduce框架、所述有序索引文件训练包括底层模型和非底层模型的学习型索引，并将所述学习型索引与所述节点分配模型进行组合以构建学习型索引结构的步骤，包括：

18、在map阶段，调用makemlindexinputformat类进行数据块划分，依据索引文件数量决定数据块个数，并放入inputsplit类中进行存储；

19、map worker收到任务后，使用makemlindexrecordreader类对每个数据块进行索引数据的读取，每读取一段固定数量的索引项就将其统计为学习型索引中一个底层模型的训练集，通过makeindexleafmodel函数生成学习型索引中一个底层模型进行训练并保存；

20、待全部叶子节点创建完成后，使用makeindexnodemodel函数自底向上完成学习型索引的非底层模型的生成、训练和保存；

21、使所述节点分配模型作为所述学习型索引的根节点模型以得到学习型索引结构，其中，所述学习型索引结构在查询时从根节点模型开始，每一层模型选择下一层模型，最后一层模型输出查询值在总体索引数据中的近似位置。

22、在一些实施例中，所述获取待查询的关键字并输入至所述学习型索引结构以获取查询结果的步骤，包括：

23、获取用户输入的待查询的关键字，并将关键字值输入学习型索引结构的根节点模型，获得该关键字所在的下层模型编号，并以此类推地向下查找直至底层模型；

24、通过底层模型预测该关键字在索引数据文件中的偏移量，根据预测偏移量读取索引文件；

25、若读取的索引项值不准确，可通过比较当前项与查找值的大小来确定向前或向后进行逐项查找，直至匹配正确值。

26、在一些实施例中，所述方法还包括：

27、查询后将查询条件和真实偏移量作为训练数据再次传入模型进行训练以更新所述学习型索引结构。

28、在一些实施例中，所述机器学习模型为多层感知机模型。

29、根据本发明的第二方面，提供了一种地震数据查询装置，所述装置包括：

30、抽样学习模块，配置用于基于mapreduce框架与机器学习模型对地震数据进行数据抽样和数据分布式学习以生成节点分配模型；

31、排序模块，配置用于基于mapreduce框架和所述节点分配模型对地震数据进行分布式分段排序以生成有序索引文件；

32、构建模块，配置用于基于mapreduce框架、所述有序索引文件训练包括底层模型和非底层模型的学习型索引，并将所述学习型索引与所述节点分配模型进行组合以构建学习型索引结构；

33、查询模块，配置用于获取待查询的关键字并输入至所述学习型索引结构以获取查询结果。

34、根据本发明的第三方面，还提供了一种电子设备，该电子设备包括：

35、至少一个处理器；以及

36、存储器，存储器存储有可在处理器上运行的计算机程序，处理器执行程序时执行前述的地震数据查询方法。

37、根据本发明的第四方面，还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时执行前述的地震数据查询方法。

38、上述一种地震数据查询方法具备以下有益技术效果：学习型索引结构用少量空间即可学习并存储数据的分布规律，显著减小索引结构存储空间，其将索引结构作为黑盒，单纯从输入输出数据的角度将索引结构视为一种模型，通过拟合输入数据的累积分布函数来预测其在有序数据体中的位置，使用机器学习模型对地震数据的分布规律进行学习和预测，从而实现索引功能，学习型索引可以进行一定程度上的复用，有效减少索引构建时间，提升了构建索引的效率。

39、此外，本发明还提供了一种地震数据查询装置、一种电子设备和一种计算机可读存储介质，同样能实现上述技术效果，这里不再赘述。

文档序号 : 【 40163674 】

技术研发人员：罗劭衡,赵长海,尚民强,杜吉国,王增波,孙孝萍
技术所有人：中国石油天然气集团有限公司

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

罗劭衡丨赵长海丨尚民强丨杜吉国丨王增波丨孙孝萍丨中国石油天然气集团有限公司