一种面向大数据流式机器学习的吞吐率优化方法及系统与流程
技术特征:
1.一种面向大数据流式机器学习的吞吐率优化方法,其步骤包括:
2.根据权利要求1所述的方法,其特征在于,所述采样控制模块获取模型训练吞吐率t和数据源的流速s,计算出新的采样率r=t/s*alpha;然后向数据采样模块发送新的采样率r,所述数据采样模块根据新的采样率r对当前接收的数据源产生的每批流式数据进行采样;
3.根据权利要求2所述的方法,其特征在于,选取alpha=0.95。
4.根据权利要求1或2或3所述的方法,其特征在于,所述数据采样策略库中包含随机采样策略,其采样方法为:对于流式数据中的每一数据样本,生成一个在[0,1]间均匀分布的随机数n;如果随机数n小于设定的最大采样比例e,则选中该数据样本;如果随机数n大于或等于设定的最大采样比例e,则丢弃该数据样本。
5.根据权利要求1或2或3所述的方法,其特征在于,所述数据采样策略库中包含基于距离的核心集采样策略,其采样方法为:
6.根据权利要求1所述的方法,其特征在于,对所述数据采样策略库中的采样策略进行扩展,其方法为:生成新采样策略,包含采样逻辑和参数、采样模式、可接受数据类型;其中,采样逻辑为具体应用到数据上的采样策略,参数为采样逻辑中的具体控制参数,采样模式包含流式和微批式。
7.一种面向大数据流式机器学习的吞吐率优化系统,其特征在于,包括部署于计算节点上的数据采样策略库、流速监测模块和采样控制模块,以及部署于管理节点上的参数优化模块和数据采样模块;
技术总结
本发明公开了一种面向大数据流式机器学习的吞吐率优化方法及系统。本系统包括部署于计算节点上流速监测模块和采样控制模块,以及部署于管理节点上的参数优化模块和数据采样模块;参数优化模块用于获取流式数据的数据类型并选取一数据采样策略,将数据采样策略及其参数发送给数据采样模块;以及根据新的采样率、模型训练吞吐率优化当前数据采样策略的参数设置或选择新的数据采样策略并将处理结果发送给数据采样模块;采样控制模块用于根据流速及模型训练吞吐率计算出新的采样率并将其发送给参数优化模块;数据采样模块用于对流式数据进行采样供流式机器学习任务进行模型训练;流速监测模块用于监测数据源的流速和模型训练吞吐率。
技术研发人员:梁哲恒,崔磊,沈伍强,姚潮生,张金波,张小陆,曾纪钧,沈桂泉,梁盈威,龙震岳,李凯,周昉昉,伍江瑶,毕胜,陆宏治,王嘉延,张雨,赖单宏,李永健,刘均乐,张春梅,丁锋,唐震,吴铭钞
受保护的技术使用者:广东电网有限责任公司
技术研发日:
技术公布日:2024/11/26
文档序号 :
【 40123753 】
技术研发人员:梁哲恒,崔磊,沈伍强,姚潮生,张金波,张小陆,曾纪钧,沈桂泉,梁盈威,龙震岳,李凯,周昉昉,伍江瑶,毕胜,陆宏治,王嘉延,张雨,赖单宏,李永健,刘均乐,张春梅,丁锋,唐震,吴铭钞
技术所有人:广东电网有限责任公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
技术研发人员:梁哲恒,崔磊,沈伍强,姚潮生,张金波,张小陆,曾纪钧,沈桂泉,梁盈威,龙震岳,李凯,周昉昉,伍江瑶,毕胜,陆宏治,王嘉延,张雨,赖单宏,李永健,刘均乐,张春梅,丁锋,唐震,吴铭钞
技术所有人:广东电网有限责任公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
