首页  专利技术  电子电路装置的制造及其应用技术

基于查询和元数据异常检测的数据湖仓聚簇方法与系统与流程

2025-05-02 11:20:01 388次浏览

技术特征:

1.基于查询和元数据异常检测的数据湖仓聚簇方法,其特征在于,包括:

2.根据权利要求1所述的基于查询和元数据异常检测的数据湖仓聚簇方法,其特征在于,采集历史查询任务的各项性能指标,筛选其中部分相关性能指标作为初始数据集,并对初始数据集进行预处理操作;包括:

3.根据权利要求1所述的基于查询和元数据异常检测的数据湖仓聚簇方法,其特征在于,通过基于经验累积分布函数和高斯核密度估计方法的ec-gkde算法,对预处理操作后的数据集进行训练,得到所有查询任务的异常分数,对异常查询任务进行初次判定;包括:

4.根据权利要求3所述的基于查询和元数据异常检测的数据湖仓聚簇方法,其特征在于,左尾部ecdf概率和右尾部ecdf概率的计算公式如式(i)(ii)所示:

5.根据权利要求3所述的基于查询和元数据异常检测的数据湖仓聚簇方法,其特征在于,高斯核函数k(x)如式(iii)所示:

6.根据权利要求3所述的基于查询和元数据异常检测的数据湖仓聚簇方法,其特征在于,在同一维度下通过高斯核函数,汇总所有数据点对当前目标点的贡献度,得到当前目标点的概率密度估计值,如式(iv)所示:

7.根据权利要求3所述的基于查询和元数据异常检测的数据湖仓聚簇方法,其特征在于,对于每个样本xi,聚合尾部概率以获得异常分数o(xi);

8.根据权利要求1所述的基于查询和元数据异常检测的数据湖仓聚簇方法,其特征在于,获取异常查询任务的关联表,依据异常查询任务的关联表的表信息获取hive元数据服务中hdfs实际路径信息,并计算该hdfs实际路径下小文件所占比例,二次判定该异常查询任务的关联表是否为异常表;包括:

9.根据权利要求1-8任一所述的基于查询和元数据异常检测的数据湖仓聚簇方法,其特征在于,将异常表的信息作为同步聚簇操作的依据,提交聚簇任务,将小文件合并为大文件;包括:

10.基于查询和元数据异常检测的数据湖仓聚簇系统,其特征在于,包括:


技术总结
本发明涉及基于查询和元数据异常检测的数据湖仓聚簇方法与系统,属于大数据计算技术领域。包括:数据采集与预处理;EC‑GKDE算法异常判定:对预处理操作后的数据集进行训练,得到所有查询任务的异常分数,进行初次判定;元数据信息异常判定:获取异常查询任务的关联表,获取Hive元数据服务中HDFS实际路径信息,并计算该HDFS实际路径下小文件所占比例,二次判定该异常查询任务的关联表是否为异常表;聚簇优化:提交聚簇任务,将小文件合并为大文件。本发明减少存储资源的开销,大大降低了查询任务需要消耗的时间;本发明可以控制聚簇操作执行的次数,减轻聚簇机制带来的并发更新不支持、增量查询不友好和集群资源浪费的问题。

技术研发人员:杨美红,王玺,王英龙,郭莹,赵志浩,孙博文,孟旭东
受保护的技术使用者:山东省计算中心(国家超级计算济南中心)
技术研发日:
技术公布日:2024/11/14
文档序号 : 【 39999431 】

技术研发人员:杨美红,王玺,王英龙,郭莹,赵志浩,孙博文,孟旭东
技术所有人:山东省计算中心(国家超级计算济南中心)

备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
杨美红王玺王英龙郭莹赵志浩孙博文孟旭东山东省计算中心(国家超级计算济南中心)
特征方向信息获取方法及装置、计算机程序产品与流程 一种全色锐化方法、存储介质、设备
相关内容