数据处理方法、模型训练方法、电子设备及计算机介质与流程

本申请涉及数据处理,特别是涉及数据处理方法、模型训练方法、电子设备及计算机介质。
背景技术:
1、随着神经网络的技术发展,新一代的人工智能逐渐发展为通过数十亿甚至万亿参数规模的机器学习模型进行学习和数据分析。由于大模型通常需要大规模的数据进行预训练,因此具备规模大、通用性强、涌现性好等特点。
2、随着技术的不断更新,模型训练对于数据的需求量越大。现有的训练数据普遍存在质量参差不齐、人工干预成本高、多样性不足等问题,降低了大模型的训练性能和应用效果。
技术实现思路
1、为解决上述技术问题,本申请提供了数据处理方法、模型训练方法、电子设备及计算机介质。
2、为解决上述问题,本申请提供了第一种技术方案:提供一种数据处理方法,包括:获取待处理的至少一个第一数据集,并对上述第一数据集进行数据清洗;对清洗后的上述第一数据集进行标注和过滤;对过滤后的上述第一数据集进行数据增强;将增强后的上述第一数据集输入至预训练模型,以获得上述预训练模型针对上述第一数据集的第一评估结果;在上述第一评估结果满足预设指标时,输出上述第一数据集。
3、可选地,上述对清洗后的上述第一数据集进行标注和过滤,包括:获取待处理的第一数据集,对上述第一数据集进行数据清洗,并对清洗后的上述第一数据集进行标注;对标注后的上述第一数据集进行质量评分,以获得上述第一数据集的评分信息;基于上述第一数据集的评分信息,对标注后的上述第一数据集进行过滤。
4、可选地,上述基于上述第一数据集的多个上述评分信息,对标注后的上述第一数据集进行过滤,包括:在上述评分信息指示上述第一数据集的数据不满足第一预设条件时,将对应的上述数据从上述第一数据集中滤除并添加至第二数据集;对上述第二数据集中的数据进行数据增强;对增强后的上述第二数据集进行质量评分;在上述第二数据集的评分信息满足上述第一预设条件时,将对应的上述数据添加至上述第一数据集,以获得过滤后的上述第一数据集。
5、可选地,上述对过滤后的上述第一数据集进行数据增强,包括:将过滤后的上述第一数据集输入至对抗网络的生成器,以获得上述生成器输出的增强样本;将上述增强样本输入至上述对抗网络的判别器,以获得上述判别器对上述增强样本评估后的第二评估结果;在上述第二评估结果满足第二预设条件时,将上述增强样本作为上述增强后的第一数据集输出。
6、可选地,上述对过滤后的上述第一数据集进行数据增强,包括:通过变分自编码器对过滤后的上述第一数据集进行数据增强,以获得增强后的上述第一数据集,或者,对过滤后的上述第一数据集的每个数据样本应用一个或多个数据增强操作,并将增强后的上述数据样本按照预设比例混合,以获得增强后的上述第一数据集。
7、可选地,上述对上述第一数据集进行数据清洗,包括:去除上述第一数据集中的预设字符,和/或,对上述第一数据集的数据进行语法纠正。
8、可选地,上述获取待处理的至少一个第一数据集,包括:从多个数据源中收集预设类型的上述第一数据集;上述将增强后的上述第一数据集输入至预训练模型,以获得上述预训练模型的第一评估结果的步骤之后,上述数据处理方法还包括:基于上述第一评估结果,获取上述数据源的更新信息;在上述更新信息指示上述数据源包括多个版本的数据时,获取上述数据源更新后的第三数据集;将上述第三数据集输入至上述预训练模型,以获得上述预训练模型针对上述第三数据集的第三评估结果。
9、为解决上述问题,本申请提供了第二种技术方案:提供一种模型训练方法,包括:通过如上的数据处理方法获取第一数据集;将上述第一数据集输入至待训练的应用模型中,以获得上述应用模型基于上述第一数据集输出的预测结果;基于上述预测结果对上述应用模型进行迭代更新。
10、为解决上述问题,本申请提供了第三种技术方案:提供一种电子设备,包括处理器、与上述处理器连接的存储器,其中,上述存储器存储有程序指令;上述处理器用于执行上述存储器存储的程序指令以实现如上的方法。
11、为解决上述问题,本申请提供了第四种技术方案:提供一种计算机可读存储介质,上述计算机可读存储介质存储有程序指令,上述程序指令能够被处理器执行以实现如上的方法。
12、区别于现有技术,本申请的数据处理方法通过获取待处理的至少一个第一数据集,并对第一数据集进行数据清洗;对清洗后的第一数据集进行标注和过滤;对过滤后的第一数据集进行数据增强;将增强后的第一数据集输入至预训练模型,以获得预训练模型针对第一数据集的第一评估结果;在第一评估结果满足预设指标时,输出第一数据集。通过上述方式,该数据处理方法可以对第一数据集进行多层次的数据处理和优化,以提高第一数据集的质量和多样性,减少数据处理过程中的人工干预、降低数据处理成本,并且,输出的第一数据集应用于大模型的训练时能够提高大模型的训练效果,进而提高大模型的应用效果和适用性。
技术特征:
1.一种数据处理方法,其特征在于,包括:
2.根据权利要求1所述的数据处理方法,其特征在于,所述对清洗后的所述第一数据集进行标注和过滤,包括:
3.根据权利要求2所述的数据处理方法,其特征在于,所述基于所述第一数据集的多个所述评分信息,对标注后的所述第一数据集进行过滤,包括:
4.根据权利要求1所述的数据处理方法,其特征在于,所述对过滤后的所述第一数据集进行数据增强,包括:
5.根据权利要求1所述的数据处理方法,其特征在于,所述对过滤后的所述第一数据集进行数据增强,包括:
6.根据权利要求1所述的数据处理方法,其特征在于,所述对所述第一数据集进行数据清洗,包括:
7.根据权利要求1所述的数据处理方法,其特征在于,所述获取待处理的至少一个第一数据集,包括:
8.一种模型训练方法,其特征在于,包括:
9.一种电子设备,其特征在于,包括处理器、与所述处理器连接的存储器,其中,
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序指令,所述程序指令能够被处理器执行以实现如权利要求1~8任一项所述的方法。
技术总结
本申请公开了数据处理方法、模型训练方法、电子设备及计算机介质,该数据处理方法通过获取待处理的至少一个第一数据集,并对第一数据集进行数据清洗;对清洗后的第一数据集进行标注和过滤;对过滤后的第一数据集进行数据增强;将增强后的第一数据集输入至预训练模型,以获得预训练模型针对第一数据集的第一评估结果;在第一评估结果满足预设指标时,输出第一数据集。通过上述方式,该数据处理方法可以对第一数据集进行多层次的数据处理和优化,以提高第一数据集的质量和多样性,减少数据处理过程中的人工干预、降低数据处理成本,并且,输出的第一数据集应用于大模型的训练时能够提高大模型的训练效果,进而提高大模型的应用效果和适用性。
技术研发人员:刘云峰,李雨洋,饶建波,胡军军
受保护的技术使用者:中科先进(深圳)集成技术有限公司
技术研发日:
技术公布日:2024/11/28
技术研发人员:刘云峰,李雨洋,饶建波,胡军军
技术所有人:中科先进(深圳)集成技术有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
