一种大模型训练系统、大模型训练方法及相关服务器与流程
技术特征:
1.一种大模型训练系统,其特征在于,包括:多个服务器,所述服务器包括cpu芯片和gpu加速卡,所述cpu芯片上具有可信执行环境tee区域,所述tee区域内包含模型训练模块,所述gpu加速卡上具有算法执行模块,其中,所述模型训练模块通过安全加密通道与客户端相连,所述多个服务器的所述模型训练模块之间通过安全加密通道相连,所述多个服务器中包含各单机训练服务器和至少一个聚合训练服务器;
2.如权利要求1所述的系统,其特征在于,所述单机训练服务器的所述模型训练模块,具体用于对所述训练数据进行预处理,得到预处理后训练数据,并向所述单机训练服务器的所述算法执行模块发送所述预处理后训练数据;
3.如权利要求2所述的系统,其特征在于,所述单机训练服务器的所述模型训练模块,还用于在向所述单机训练服务器的所述算法执行模块发送所述预处理后训练数据之前,通过安全加密通道向所述单机训练服务器的所述算法执行模块发送数据混淆规则;
4.如权利要求1所述的系统,其特征在于,所述模型训练模块,包括:客户端接口模块、训练执行模块和特征互联模块,所述客户端接口模块通过安全加密通道与客户端相连,所述多个服务器的所述特征互联模块之间通过安全加密通道相连;
5.一种大模型训练方法,其特征在于,应用于模型训练系统中的单机训练服务器,所述模型训练系统包括多个服务器,所述多个服务器中包含各单机训练服务器和至少一个聚合训练服务器,所述服务器包括cpu芯片和gpu加速卡,所述cpu芯片上具有可信执行环境tee区域,所述tee区域内包含模型训练模块,所述gpu加速卡上具有算法执行模块,其中,所述模型训练模块通过安全加密通道与客户端相连,所述多个服务器的所述模型训练模块之间通过安全加密通道相连,所述方法,包括:
6.如权利要求5所述的方法,其特征在于,所述单机训练服务器的所述模型训练模块和所述算法执行模块基于所述训练数据,以及模型训练算法中各自需要执行的计算操作,通过数据交互进行模型训练,得到单机训练特征数据,包括:
7.如权利要求6所述的方法,其特征在于,在所述单机训练服务器的所述模型训练模块向所述单机训练服务器的所述算法执行模块发送所述预处理后训练数据之前,还包括:
8.一种大模型训练方法,其特征在于,应用于模型训练系统中的聚合训练服务器,所述模型训练系统包括多个服务器,所述多个服务器中包含各单机训练服务器和至少一个聚合训练服务器,所述服务器包括cpu芯片和gpu加速卡,所述cpu芯片上具有可信执行环境tee区域,所述tee区域内包含模型训练模块,所述gpu加速卡上具有算法执行模块,其中,所述模型训练模块通过安全加密通道与客户端相连,所述多个服务器的所述模型训练模块之间通过安全加密通道相连,所述方法,包括:
9.一种服务器,其特征在于,包括权利要求5-7任一所述方法中单机训练服务器的cpu芯片和gpu加速卡,或者,权利要求8所述方法中聚合训练服务器的cpu芯片和gpu加速卡。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求5-7任一所述的方法,或者,实现权利要求8所述的方法。
技术总结
本申请公开了一种大模型训练系统、大模型训练方法及相关服务器,涉及多方安全计算技术领域和大模型训练技术领域,大模型训练系统的服务器包括CPU芯片和GPU加速卡,CPU芯片上具有TEE区域,该TEE区域内包含模型训练模块,GPU加速卡上具有算法执行模块,模型训练模块通过安全加密通道与客户端相连,多个服务器的模型训练模块之间通过安全加密通道相连,大模型训练过程中,每个服务器可以通过安全加密通道与客户端交互数据,各服务器之间也可以通过安全加密通道交互数据,每个服务器的CPU芯片的模型训练模块位于TEE区域中,提高了大模型训练的数据安全性,CPU芯片和GPU加速卡完成各自更适合执行的计算操作,提高了大模型训练的训练效率。
技术研发人员:王雪强,陈璐,王学强,王国赛,高梦影
受保护的技术使用者:华控清交信息科技(北京)有限公司
技术研发日:
技术公布日:2024/11/26
技术研发人员:王雪强,陈璐,王学强,王国赛,高梦影
技术所有人:华控清交信息科技(北京)有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
