基于查询和元数据异常检测的数据湖仓聚簇方法与系统与流程
技术特征:
1.基于查询和元数据异常检测的数据湖仓聚簇方法,其特征在于,包括:
2.根据权利要求1所述的基于查询和元数据异常检测的数据湖仓聚簇方法,其特征在于,采集历史查询任务的各项性能指标,筛选其中部分相关性能指标作为初始数据集,并对初始数据集进行预处理操作;包括:
3.根据权利要求1所述的基于查询和元数据异常检测的数据湖仓聚簇方法,其特征在于,通过基于经验累积分布函数和高斯核密度估计方法的ec-gkde算法,对预处理操作后的数据集进行训练,得到所有查询任务的异常分数,对异常查询任务进行初次判定;包括:
4.根据权利要求3所述的基于查询和元数据异常检测的数据湖仓聚簇方法,其特征在于,左尾部ecdf概率和右尾部ecdf概率的计算公式如式(i)(ii)所示:
5.根据权利要求3所述的基于查询和元数据异常检测的数据湖仓聚簇方法,其特征在于,高斯核函数k(x)如式(iii)所示:
6.根据权利要求3所述的基于查询和元数据异常检测的数据湖仓聚簇方法,其特征在于,在同一维度下通过高斯核函数,汇总所有数据点对当前目标点的贡献度,得到当前目标点的概率密度估计值,如式(iv)所示:
7.根据权利要求3所述的基于查询和元数据异常检测的数据湖仓聚簇方法,其特征在于,对于每个样本xi,聚合尾部概率以获得异常分数o(xi);
8.根据权利要求1所述的基于查询和元数据异常检测的数据湖仓聚簇方法,其特征在于,获取异常查询任务的关联表,依据异常查询任务的关联表的表信息获取hive元数据服务中hdfs实际路径信息,并计算该hdfs实际路径下小文件所占比例,二次判定该异常查询任务的关联表是否为异常表;包括:
9.根据权利要求1-8任一所述的基于查询和元数据异常检测的数据湖仓聚簇方法,其特征在于,将异常表的信息作为同步聚簇操作的依据,提交聚簇任务,将小文件合并为大文件;包括:
10.基于查询和元数据异常检测的数据湖仓聚簇系统,其特征在于,包括:
技术总结
本发明涉及基于查询和元数据异常检测的数据湖仓聚簇方法与系统,属于大数据计算技术领域。包括:数据采集与预处理;EC‑GKDE算法异常判定:对预处理操作后的数据集进行训练,得到所有查询任务的异常分数,进行初次判定;元数据信息异常判定:获取异常查询任务的关联表,获取Hive元数据服务中HDFS实际路径信息,并计算该HDFS实际路径下小文件所占比例,二次判定该异常查询任务的关联表是否为异常表;聚簇优化:提交聚簇任务,将小文件合并为大文件。本发明减少存储资源的开销,大大降低了查询任务需要消耗的时间;本发明可以控制聚簇操作执行的次数,减轻聚簇机制带来的并发更新不支持、增量查询不友好和集群资源浪费的问题。
技术研发人员:杨美红,王玺,王英龙,郭莹,赵志浩,孙博文,孟旭东
受保护的技术使用者:山东省计算中心(国家超级计算济南中心)
技术研发日:
技术公布日:2024/11/14
技术研发人员:杨美红,王玺,王英龙,郭莹,赵志浩,孙博文,孟旭东
技术所有人:山东省计算中心(国家超级计算济南中心)
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除