一种基于检查点机制的数据集成任务断点续跑方法与流程
技术特征:
1.一种基于检查点机制的数据集成任务断点续跑方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于检查点机制的数据集成任务断点续跑方法,其特征在于,步骤s1中所述的检查点策略包括以下三种类型:
3.根据权利要求1所述的基于检查点机制的数据集成任务断点续跑方法,其特征在于,步骤s2中所述的集成任务的参数包括:源表、目标表、并行参数、检查点策略、以及定时参数;
4.根据权利要求1所述的基于检查点机制的数据集成任务断点续跑方法,其特征在于,步骤s3中将集成任务拆分成多个子任务,所有子任务除了数据抽取范围不同外,其他的配置参数完全相同。
5.根据权利要求1所述的基于检查点机制的数据集成任务断点续跑方法,其特征在于,步骤s4中生成的检查点数据包括:所在执行器ip、子任务数据抽取范围、已经成功抽取的数据范围和正在抽取的数据范围。
6.根据权利要求1所述的基于检查点机制的数据集成任务断点续跑方法,其特征在于,步骤s4中发送到redis中的检查点数据按照时间戳的大小顺序存储,系统定时清理已经恢复成功或者执行成功的任务的检查点数据。
7.根据权利要求1所述的基于检查点机制的数据集成任务断点续跑方法,其特征在于,步骤s5中包括:
8.一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述程序被处理器执行时实现权利要求1-7任一项所述的基于检查点机制的数据集成任务断点续跑方法的步骤。
9.一种基于检查点机制的数据集成任务断点续跑装置,其特征在于,所述装置运行时实现权利要求1-7任一项所述的基于检查点机制的数据集成任务断点续跑方法的步骤,所述装置包括:任务调度模块、数据集成模块、关系型数据库、数据仓库以及redis缓存模块,其中:
10.根据权利要求9所述的基于检查点机制的数据集成任务断点续跑装置,其特征在于,所述关系型数据库包括:mysql、oracle、postgresql。
技术总结
本发明涉及一种基于检查点机制的数据集成任务断点续跑方法。本方法包括:预先设置三种类型的检查点策略;创建集成任务,配置任务参数和数据抽取范围;触发集成任务,解析配置参数,根据数据抽取范围和并行参数将集成任务拆分成多个子任务;执行子任务,按照预设的检查点策略生成检查点数据,并将检查点数据发送到Redis进行存储;当子任务执行过程中发生异常中断时,读取Redis中距离任务中断点最近的检查点数据,然后根据该检查点数据对子任务进行重新构建和分发。本方法通过引入基于Redis的检查点机制,实现了数据集成任务的断点续跑,避免了从头开始重新执行整个任务的资源浪费和时间成本增加,且能够有效减少任务恢复时重复抽取和计算的数据量。
技术研发人员:周旺
受保护的技术使用者:中电云计算技术有限公司
技术研发日:
技术公布日:2024/11/18
技术研发人员:周旺
技术所有人:中电云计算技术有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
