基于查询和元数据异常检测的数据湖仓聚簇方法与系统与流程

2025-05-02 11:20:01 811次浏览

技术特征：

1.基于查询和元数据异常检测的数据湖仓聚簇方法，其特征在于，包括：

2.根据权利要求1所述的基于查询和元数据异常检测的数据湖仓聚簇方法，其特征在于，采集历史查询任务的各项性能指标，筛选其中部分相关性能指标作为初始数据集，并对初始数据集进行预处理操作；包括：

3.根据权利要求1所述的基于查询和元数据异常检测的数据湖仓聚簇方法，其特征在于，通过基于经验累积分布函数和高斯核密度估计方法的ec-gkde算法，对预处理操作后的数据集进行训练，得到所有查询任务的异常分数，对异常查询任务进行初次判定；包括：

4.根据权利要求3所述的基于查询和元数据异常检测的数据湖仓聚簇方法，其特征在于，左尾部ecdf概率和右尾部ecdf概率的计算公式如式(i)(ii)所示：

5.根据权利要求3所述的基于查询和元数据异常检测的数据湖仓聚簇方法，其特征在于，高斯核函数k(x)如式(iii)所示：

6.根据权利要求3所述的基于查询和元数据异常检测的数据湖仓聚簇方法，其特征在于，在同一维度下通过高斯核函数，汇总所有数据点对当前目标点的贡献度，得到当前目标点的概率密度估计值，如式(iv)所示：

7.根据权利要求3所述的基于查询和元数据异常检测的数据湖仓聚簇方法，其特征在于，对于每个样本xi，聚合尾部概率以获得异常分数o(xi)；

8.根据权利要求1所述的基于查询和元数据异常检测的数据湖仓聚簇方法，其特征在于，获取异常查询任务的关联表，依据异常查询任务的关联表的表信息获取hive元数据服务中hdfs实际路径信息，并计算该hdfs实际路径下小文件所占比例，二次判定该异常查询任务的关联表是否为异常表；包括：

9.根据权利要求1-8任一所述的基于查询和元数据异常检测的数据湖仓聚簇方法，其特征在于，将异常表的信息作为同步聚簇操作的依据，提交聚簇任务，将小文件合并为大文件；包括：

10.基于查询和元数据异常检测的数据湖仓聚簇系统，其特征在于，包括：

技术总结
本发明涉及基于查询和元数据异常检测的数据湖仓聚簇方法与系统，属于大数据计算技术领域。包括：数据采集与预处理；EC‑GKDE算法异常判定：对预处理操作后的数据集进行训练，得到所有查询任务的异常分数，进行初次判定；元数据信息异常判定：获取异常查询任务的关联表，获取Hive元数据服务中HDFS实际路径信息，并计算该HDFS实际路径下小文件所占比例，二次判定该异常查询任务的关联表是否为异常表；聚簇优化：提交聚簇任务，将小文件合并为大文件。本发明减少存储资源的开销，大大降低了查询任务需要消耗的时间；本发明可以控制聚簇操作执行的次数，减轻聚簇机制带来的并发更新不支持、增量查询不友好和集群资源浪费的问题。

技术研发人员：杨美红,王玺,王英龙,郭莹,赵志浩,孙博文,孟旭东
受保护的技术使用者：山东省计算中心（国家超级计算济南中心）
技术研发日：
技术公布日：2024/11/14

文档序号 : 【 39999431 】

技术研发人员：杨美红,王玺,王英龙,郭莹,赵志浩,孙博文,孟旭东
技术所有人：山东省计算中心（国家超级计算济南中心）

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

杨美红丨王玺丨王英龙丨郭莹丨赵志浩丨孙博文丨孟旭东丨山东省计算中心（国家超级计算济南中心）