DPU混合集群的监控方法、装置、设备及存储介质与流程

本公开实施例涉及计算机,尤其涉及一种dpu混合集群的监控方法、装置、设备及存储介质。
背景技术:
1、spark(即apache spark)是专为大规模数据处理而设计的快速通用计算引擎,使用与hadoop相似的开源集群计算环境。spark sql是spark的计算模块之一,专门用于处理结构化的数据。spark sql允许用户使用标准的sql语句来执行sql的查询和读写,也可以使用hive sql来执行对hive仓库的查询和读写。现在的spark sql基于spark框架,其全部的计算基于cpu进行,cpu除了需要维持整个计算的调度之外,还需要额外的算力进行数据密集计算。但是,cpu作为通用处理芯片,在大数据高密集型的数据计算上并无明显优势,这使得spark sql基于cpu运算时计算算力成为性能的主要瓶颈。然而,基于kpu架构的dpu作为专用的数据处理芯片,在处理复杂的数据计算时相比于cpu拥有极高的性能提升,因此将sparksql的数据计算由cpu卸载到dpu,可以极大的提升spark sql的性能,加速在大数据场景下spark sql的运算能力,使cpu专注于spark的运算调度,dpu专注于spark sql中的数据计算。
2、spark作为处理大数据的流行框架,通常是多节点部署,在进行运算的时候,由一个集群中的全部机器共同并行处理数据以达到加速的效果。因为spark的应用场景是集群作业,因此spark自身提供了完整的集群监控界面,叫做spark web ui。但是,该界面是为原生spark设计的,因此只能监控集群中的cpu,无法对dpu进行监控。
技术实现思路
1、为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种dpu混合集群的监控方法、装置、设备及存储介质。
2、本公开实施例的第一方面提供了一种dpu混合集群的监控方法,所述dpu混合集群包括至少一个cpu节点和至少一个dpu节点,所述方法包括对所述至少一个cpu节点进行监控,所述方法还包括对所述至少一个dpu节点进行监控,其中,所述对所述至少一个dpu节点进行监控,包括:
3、调用dpu节点的驱动获取所述dpu节点的资源使用信息;
4、获取所述dpu节点的dpu可执行计划树,其中,所述dpu可执行计划树由所述dpu节点根据其执行的sql语句转换得到;
5、输出所述资源使用信息和所述dpu可执行计划树。
6、本公开实施例的第二方面提供了一种dpu混合集群的监控装置,所述dpu混合集群包括至少一个cpu节点和至少一个dpu节点,所述装置包括第一监控模块,用于对所述至少一个cpu节点进行监控,所述装置还包括第二监控模块,用于对所述至少一个dpu节点进行监控,其中,所述第二监控模块包括:
7、第一获取模块,用于调用dpu节点的驱动获取所述dpu节点的资源使用信息;
8、第二获取模块,用于获取所述dpu节点的dpu可执行计划树,其中,所述dpu可执行计划树由所述dpu节点根据其执行的sql语句转换得到;
9、第一输出模块,用于输出所述资源使用信息和所述dpu可执行计划树。
10、本公开实施例的第三方面提供了一种电子设备,该服务器包括:处理器和存储器,其中,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,所述处理器执行上述第一方面的方法。
11、本公开实施例的第四方面提供了一种计算机可读存储介质,该存储介质中存储有计算机程序,当该计算机程序被处理器执行时,可以实现上述第一方面的方法。
12、本公开实施例提供的技术方案与现有技术相比具有如下优点:
13、本公开实施例中,dpu混合集群包括至少一个cpu节点和至少一个dpu节点,根据本公开实施例,不仅能够对至少一个cpu节点进行监控,还能够对至少一个dpu节点进行监控,具体地,能够调用dpu节点的驱动获取dpu节点的资源使用信息;获取dpu节点的dpu可执行计划树,其中,dpu可执行计划树由dpu节点根据其执行的sql语句转换得到;输出资源使用信息和dpu可执行计划树。可见,采用上述技术方案,能够对集群中的cpu节点和dpu节点均进行监控,并能够输出dpu节点的监控结果,使得用户能够及时了解dpu节点的运行状态和作业情况等信息,如此,可提高对dpu混合集群监控的全面性。
技术特征:
1.一种dpu混合集群的监控方法,所述dpu混合集群包括至少一个cpu节点和至少一个dpu节点,所述方法包括对所述至少一个cpu节点进行监控,其特征在于,所述方法还包括对所述至少一个dpu节点进行监控,其中,所述对所述至少一个dpu节点进行监控,包括:
2.根据权利要求1所述的方法,所述对所述至少一个cpu节点进行监控包括通过sparkweb ui对所述至少一个cpu节点进行监控,其特征在于,所述spark web ui中集成有sparkdpuinfo类;
3.根据权利要求1所述的方法,其特征在于,还包括:在原始数据对应的数据块被搬运到所述dpu时,根据所述资源使用信息,确定所述原始数据的数据处理进度信息;
4.根据权利要求3所述的方法,其特征在于,所述资源使用信息包括:dpu任务总量、dpu任务完成数量、dpu任务进度、dpu占用内存、dpu温度和/或dpu功耗;
5.根据权利要求1所述的方法,其特征在于,还包括:
6.根据权利要求5所述的方法,其特征在于,所述将所述dpu可执行计划树和与其对应的dpu可执行计划树进行对比,得到对比结果信息,包括:
7.根据权利要求1-6任一项所述的方法,所述至少一个cpu节点的监控结果显示在第一显示区域,所述至少一个dpu节点的监控结果显示在第二显示区域,其中,所述至少一个dpu节点的监控结果包括:资源使用信息和所述dpu可执行计划树包括所述资源使用信息、所述dpu可执行计划树、数据处理进度信息和对比结果信息。
8.一种dpu混合集群的监控装置,所述dpu混合集群包括至少一个cpu节点和至少一个dpu节点,所述装置包括第一监控模块,用于对所述至少一个cpu节点进行监控,其特征在于,所述装置还包括第二监控模块,用于对所述至少一个dpu节点进行监控,其中,所述第二监控模块包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1-7中任一项所述的方法。
技术总结
本公开实施例涉及一种DPU混合集群的监控方法、装置、设备及存储介质,该方法包括对至少一个CPU节点进行监控以及对至少一个DPU节点进行监控,具体地,调用DPU节点的驱动获取DPU节点的资源使用信息;获取DPU节点的DPU可执行计划树,其中,DPU可执行计划树由DPU节点根据其执行的SQL语句转换得到;输出资源使用信息和DPU可执行计划树。可见,根据本公开实施例,能够对集群中的CPU节点和DPU节点均进行监控,并能够输出DPU节点的监控结果,使得用户能够及时了解DPU节点的运行状态和作业情况等信息,如此,可提高对DPU混合集群监控的全面性。
技术研发人员:刘昱泽,陈岩,张宇
受保护的技术使用者:中科驭数(北京)科技有限公司
技术研发日:
技术公布日:2024/11/28
技术研发人员:刘昱泽,陈岩,张宇
技术所有人:中科驭数(北京)科技有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
