首页  专利技术  电子电路装置的制造及其应用技术

一种基于存算分离的数据湖文件按时清理系统及方法与流程

2025-09-03 16:40:02 440次浏览
一种基于存算分离的数据湖文件按时清理系统及方法与流程

本发明涉及文件清理,特别是指一种基于存算分离的数据湖文件按时清理系统及方法。


背景技术:

1、随着大数据时代的到来,数据湖作为一种存储和管理海量数据的解决方案,得到了广泛应用。然而,数据湖中的文件数量庞大,如果不及时清理将导致存储空间浪费和管理困难。因此,如何实现数据湖中文件按时清理成为当前亟待解决的问题。

2、中国专利申请公开号cn103886059a公开了一种文件的清理方法,包括:获得删除当前应用的请求;根据所述请求获得与所述当前应用对应的记录信息,其中,所述记录信息中包含与所述当前应用相关的文件和/或文件夹;以及根据所述记录信息删除与所述当前应用相关的文件和/或文件夹。

3、由此可见,当前的文件清理无法快速响应和处理需要清理的文件。


技术实现思路

1、为此,本发明的目的是提供一种基于存算分离的数据湖文件按时清理系统及方法,用于克服当前的文件清理无法快速响应和处理需要清理的文件的问题。

2、为实现上述目的,本发明一方面提供一种基于存算分离的数据湖文件按时清理系统,包括:

3、识别模块,用以对数据湖内各文件进行实时扫描,根据扫描结果依次识别目标文件、判断所述目标文件的清理类型以及记录所述目标文件的实际数量,并根据所述清理类型结合所述实际数量确定实际清理模式;

4、预处理模块,用以根据所述实际清理模式将扫描得到的各目标文件生成清理集,对所述清理集内的各待清理文件依次进行清理紧急度的评估,并根据评估结果对各待清理文件进行排序,以得到实际清理序列;

5、清理模块,用以根据所述实际清理序列进行清理,在清理过程中,获取实际清理参数,对所述实际清理参数进行分析,以判定清理过程的一致性,并根据判定结果确定相应的过程控制模式;

6、反馈修正模块,用以周期性获取清理结果,并根据所述清理结果对清理条件进行反馈调节。

7、进一步地,所述识别模块包括:扫描单元和判断单元;

8、所述扫描单元,其用以按照扫描标准对数据湖内各文件进行实时扫描,以得到实际扫描结果;

9、所述判断单元,其用以根据所述实际扫描结果结合预设的目标清理策略对各文件进行分析,以识别得到若干目标文件;

10、其中,所述扫描标准包括:时间标准、频率标准、容量标准、格式标准和引用标准;所述目标清理策略包括:标准期限策略、标准使用策略、标准容量策略和标准格式策略。

11、进一步地,所述识别模块还包括:标记单元和划分单元;

12、所述标记单元,其用以根据判断结果对各目标文件进行标记,以得到不同所述清理类型的孤立文件;

13、所述划分单元,其用以根据所述清理类型对各孤立文件进行划分,以得到若干待清理子集。

14、进一步地,所述识别模块还包括:计数单元和第一确定单元;

15、所述计数单元,其用以累计各待清理子集的标记实际数量;

16、所述第一确定单元,其用以根据各待清理子集的所述标记实际数量结合所述清理类型确定所述实际清理模式为阈值清理模式,或,周期清理模式。

17、进一步地,所述预处理模块包括:生成单元、计算单元和比较单元;

18、所述生成单元,其用以根据所述实际清理模式确定单次清理个数,并基于所述单次清理个数生成所述清理集;

19、所述计算单元,其用以根据标记结果结合所述标记实际数量计算各孤立文件的清理紧急度;

20、所述比较单元,其用以根据各孤立文件的所述清理紧急度的数值进行排序,以得到所述实际清理序列。

21、进一步地,所述清理模块包括:监测单元和第一判定单元;

22、所述监测单元,其用以实时监测清理过程,以获得所述实际清理参数;

23、所述第一判定单元,其用以判断实际清理过程数据和元数据是否同步,并基于不同步时,发出第一报警信号;

24、其中,所述实际清理参数包括:实际清理目标数据、实际清理操作结果和所述实际清理过程数据。

25、进一步地,所述清理模块还包括:第二判定单元和第三判定单元;

26、所述第二判定单元,其用以根据所述实际清理操作结果和所述目标清理策略确定单次清理成功率,并基于所述单次清理成功率不等于100%时,发出第二报警信号;

27、所述第三判定单元,其用以根据所述实际清理目标数据结合当前执行任务数据判定是否存在冲突数据,并基于存在所述冲突数据时,发出第三报警信号。

28、进一步地,所述清理模块还包括:第二确定单元;

29、所述第二确定单元能够根据所述第一报警信号确定所述过程控制模式为数据重新读取;

30、所述第二确定单元能够根据所述第二报警信号确定所述过程控制模式为数据回滚恢复;

31、所述第二确定单元能够根据所述第三报警信号确定所述过程控制模式为数据锁定机制。

32、进一步地,所述反馈修正模块包括:获取单元、评估单元和调节单元;

33、所述获取单元,其用以周期性获取所述清理结果;

34、所述评估单元,其用以根据第一差值绝对值结合预设的第一评价值确定清理等级;

35、所述调节单元,其用以根据所述清理等级确定反馈调节方式为单一反馈调节,或,整体反馈调节;

36、其中,所述第一差值绝对值为实际存储释放量和预设的标准存储释放量间的差值绝对值。

37、本发明另一方面还提供一种基于存算分离的数据湖文件按时清理方法,包括:

38、步骤s1,扫描所述数据湖内各文件,根据扫描结果确定需进行清理的文件,并进行标记,以得到若干孤立文件;

39、步骤s2,累计所述孤立文件以得到实际标记数量,根据所述实际标记数量或预设的初始清理周期对所述数据湖进行批次清理;

40、步骤s3,对于任一清理批次,将该批次清理对应的所述孤立文件生成清理集,对所述清理集内的各待清理文件进行清理顺序排列;

41、步骤s4,基于清理顺序排列结果进行清理时,实时监控清理过程,依次判定清理目标数据、清理过程数据和清理操作的一致性,并根据判定结果确定相应的所述过程控制模式;

42、步骤s5,周期性获取清理结果,根据所述清理结果对清理条件进行反馈调节;

43、其中,所述清理条件包括:所述初始清理周期、总标记阈值和子标记阈值。

44、与现有技术相比,本发明的有益效果在于,通过对数据湖内的文件进行实时扫描,确保及时发现目标文件;有助于快速响应和处理需要清理的文件,减少数据冗余和存储空间浪费;根据扫描结果和清理类型,结合实际数量确定实际清理模式,动态调整能力使得清理策略更具灵活性和针对性,能够适应不同的清理需求和情景;通过评估清理紧急度,对待清理文件进行排序,生成实际清理序列,确保了重要或紧急的文件优先被清理,优化了资源使用和处理效率;在清理过程中获取和分析实际清理参数,以判定清理过程的一致性,并根据判定结果确定相应的过程控制模式,有助于保证清理过程的稳定性和可靠性,减少错误和数据损失的风险;通过周期性获取清理结果,对清理条件进行反馈调节,闭环反馈机制使系统能够根据实际清理效果不断优化清理策略,提升清理效率和效果,减少了人工干预的需求,提高了管理效率和准确性;能够有效管理数据湖内的文件,保持数据湖的整洁和有序,提高存储和检索效率,延长数据湖的使用寿命。

45、尤其,通过时间、频率、容量、格式和引用多种标准对数据湖内的文件进行实时扫描,确保全面覆盖和精确识别,多维度扫描可以捕捉到各种可能需要清理的文件类型;结合预设的目标清理策略(如标准期限、使用、容量和格式策略)对扫描结果进行分析,准确识别出需要清理的目标文件,可以根据不同的管理需求,灵活调整清理策略,提高判断的准确性;根据判断结果对目标文件进行标记,明确区分不同清理类型的文件(如过期文件、不常用文件、大容量文件、不合规格式文件),分类标记有助于后续清理工作的有序进行;将标记后的孤立文件按照清理类型进行划分,形成若干待清理子集,细致划分使得清理工作更有条理,有利于针对不同类型文件采用不同的清理策略;对各待清理子集的标记实际数量进行累计统计,提供数据支持,有助于量化清理任务的工作量,便于资源分配和任务调度;根据待清理子集的实际数量和清理类型确定实际清理模式(阈值清理模式或周期清理模式),动态模式确定机制能够根据实际情况灵活调整清理策略,提升清理效率和效果;通过综合考虑时间、频率、容量、格式和引用标准,以及不同的清理策略,系统能够对文件进行全方位、多角度的分析和识别,从而提高识别的全面性和准确性;各单元协同工作,自动执行扫描、判断、标记、划分和计数等操作,减少了人工干预,提升了清理工作的自动化水平和处理效率;结合不同的清理类型和实际数量确定清理模式,使得系统能够灵活应对不同的清理需求,适应性强;通过精确识别和分类标记,系统能够有效减少数据冗余,优化数据湖的存储结构和管理效率,延长数据湖的使用寿命,提高整体数据管理水平,有助于提高数据湖文件清理的精确性、效率和灵活性。

46、尤其,通过使用时间、频率、容量、格式和引用多维度的扫描标准,结合具体的目标清理策略(如期限、使用频率、容量限制、格式要求),能够精确识别不同类型的目标文件,精细的条件设定确保了清理操作的准确性和针对性;根据文件的创建时间、使用频率、容量和格式等不同特征,结合各自的标准策略,判断文件是否符合清理标准,多维度的目标识别策略有效地覆盖了数据湖中各种可能需要清理的文件类型,提高了清理效率;根据判断单元的分析结果,对目标文件进行不同类型的标记(如过期、不常用、冷门、容量异常、格式不符),使得后续的清理工作能够有序进行,灵活的分类标记有助于优化清理流程和资源分配;将标记后的文件按照清理类型划分为不同的待清理子集,每个子集具有明确的清理目标和策略,精准的划分方式使得清理工作更加高效,能够针对不同类型的文件采取适当的清理措施;根据实际的标记数量和预设的清理周期,动态地确定清理模式(如阈值清理模式或周期清理模式),灵活的模式确定机制能够根据实际情况调整清理策略,确保清理效果最大化;通过设定总标记阈值和子标记阈值,并结合符合单一判定条件的个数,系统能够在达到一定条件时自动触发清理,减少了手动干预的需要,提升了清理决策的效率和及时性;综合考虑时间、频率、容量、格式和引用多方面因素,系统能够有效地管理数据湖中的文件,优化存储结构和管理效率,延长数据湖的使用寿命,从而提升整体数据管理水平和运营成本效益;实现了清理操作的高效和智能化,为数据湖的长期运营和管理提供了强有力的支持。

47、尤其,通过实际清理模式自动确定单次清理个数并生成清理集,减少了人工干预,提高了清理任务的自动化程度和效率;通过结合标记结果和标记实际数量,计算各孤立文件的清理紧急度,可以确保高紧急度的文件优先被清理,优化资源使用,确保清理工作的有效性和及时性;对各孤立文件的清理紧急度进行排序,生成实际清理序列,基于优先级的清理顺序确保了最需要清理的文件能够被优先处理,提升了清理工作的整体效率和效果;能够根据清理紧急度自动生成清理序列,为后续的清理操作提供明确的指引,减少了决策过程中的复杂性和不确定性;通过对清理紧急度的计算和排序,能够更好地利用系统资源,避免了低优先级文件占用过多资源,从而提高了系统的整体性能;依据实际清理模式动态调整单次清理个数,使得系统能够灵活应对不同的清理需求,适应性强;整个预处理模块基于数据(标记结果、标记实际数量、清理紧急度)进行决策,具有高度的数据驱动特性,确保决策的科学性和合理性;通过计算和排序清理紧急度,可以避免遗漏重要的清理目标,提高了清理工作的准确性和全面性;实现了高效、精准和智能化的清理任务调度,显著提升了数据湖管理的效率和效果。

48、尤其,通过实时监测清理过程,获得实际清理参数,包括清理目标数据、清理操作结果和清理过程数据,确保了清理过程的透明度和可追溯性,及时发现和处理问题,提高清理操作的可靠性;通过判断实际清理过程数据和元数据是否同步,当不同步时发出第一报警信号,保证了数据的一致性和完整性,避免了因数据不同步引起的错误和混乱;根据实际清理操作结果和目标清理策略确定单次清理成功率,并在成功率不等于100%时发出第二报警信号。此功能确保清理操作的有效性和准确性,及时识别和处理未成功的清理操作,提升整体清理效果;结合实际清理目标数据和当前执行任务数据,判断是否存在冲突数据,若存在则发出第三报警信号,可以有效预防和解决数据冲突问题,确保数据清理的顺利进行;根据不同的报警信号,确定相应的过程控制模式:第一报警信号触发数据重新读取,确保数据的正确性和一致性;第二报警信号触发数据回滚恢复,避免清理失败带来的数据损失;第三报警信号触发数据锁定机制,防止冲突数据影响后续操作;灵活的控制模式提高了系统的应变能力和操作稳定性;通过对不同类型的错误发出报警信号并采取相应的控制措施,系统能够迅速响应并处理各种异常情况,减少了清理过程中的故障时间,提高了清理操作的稳定性和可靠性;预警机制和相应的控制模式通过数据驱动,实现了智能化的决策支持,减少了人工干预,提高了操作效率和精确度;显著提升了清理操作的自动化、可靠性和智能化水平,确保了数据湖管理的高效性和稳定性。

49、尤其,通过周期性获取清理结果,确保及时获取清理操作的实际效果和数据释放量,周期性的获取功能保证了反馈修正模块能够基于最新数据进行评估和调整,提高了反馈的时效性和准确性;根据实际存储释放量与预设的标准存储释放量的差值绝对值(第一差值绝对值),结合预设的第一评价值,确定清理等级,智能化评估方式能够客观地判断清理效果的优劣,为后续调节提供科学依据;根据评估得到的清理等级确定反馈调节方式,可以选择单一反馈调节或整体反馈调节。这种灵活的反馈调节方式能够根据不同的清理情况和需求进行针对性调整,优化清理效果;通过周期性获取清理结果并根据评估单元的智能化判定,调节单元能够有效地优化存储资源的利用,确保在最小化影响数据湖正常运行的前提下,实现最大化的存储释放效果;通过智能化的评估和调节,确保了清理策略的科学性和实效性,为数据湖的长期管理提供了有力支持;实现了清理操作的优化和持续改进,为数据湖的管理和运营带来了显著的优势。

50、尤其,通过扫描,可以快速定位需要清理的文件,并进行标记,提高了清理工作的效率,避免了逐一检查文件的时间浪费;根据实际标记数量或初始清理周期进行批次清理,为管理员提供了灵活的清理策略,可以根据数据湖中文件的实际情况来调整清理的频率和规模;通过生成清理集并对文件进行顺序排列,确保了清理过程的有序进行,避免了文件清理时的混乱和冲突;通过实时监控和一致性判定,保证了清理过程的准确性和数据的安全性;通过实时监控和调整,可以确保清理操作按照既定规则执行,避免了误删或者漏删重要数据;根据清理结果反馈调节清理条件,可以使清理策略能够根据数据湖的实际使用情况进行自适应调整,保证清理工作的有效性和数据湖性能的最优化;通过定期和按需的清理,可以释放数据湖中不再需要的空间,从而提高数据湖的存储空间利用率;定期清理孤立和过时的文件,有助于保持数据湖的性能,避免因无效数据积累导致的性能下降。

文档序号 : 【 40048529 】

技术研发人员:高经郡,高海玲,谢晋
技术所有人:北京科杰科技有限公司

备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
高经郡高海玲谢晋北京科杰科技有限公司
一种红外辐射散热贴膜及其制备方法和应用与流程 铌铪锆铁酸钾钠锂铋铜无铅压电陶瓷材料及其制备方法,以及无铅压电陶瓷及其制备方法与流程
相关内容