一种训练数据集版本管理方法及系统与流程
技术特征:
1.一种训练数据集版本管理方法,其特征是包括:
2.根据权利要求1所述的一种训练数据集版本管理方法,其特征是步骤1中还对数据集中文件对象进行分类管理,包括:根据当前数据集所包含文件的扩展名类型识别文件对象类型,文件对象类型包括图片、视频、音频和文本,并将文件对象类型与数据集中文件对象的保存路径作为元数据保存于数据库中。
3.根据权利要求1所述的一种训练数据集版本管理方法,其特征是步骤21中建立数据集版本包括两种方式,一种方式为基于数据集中原始文件对象内容捕捉数据的静态快照,建立数据集版本并发布;另一种方式为基于已发布的数据集版本,在已有的数据集版本的文件对象内容基础上变更文件对象内容,生成新的数据集版本并发布。
4.根据权利要求1所述的一种训练数据集版本管理方法,其特征是步骤25中校验数据集完整性,包括:
5.一种训练数据集版本管理系统,其特征是包括数据集管理模块、版本管理模块和完整性校验模块,
6.根据权利要求5所述的一种训练数据集版本管理系统,其特征是数据集管理模块还对数据集中文件对象进行分类管理,包括:根据当前数据集所包含文件的扩展名类型识别文件对象类型,文件对象类型包括图片、视频、音频和文本,并将文件对象类型与数据集中文件对象的保存路径作为元数据保存于数据库中。
7.根据权利要求5所述的一种训练数据集版本管理系统,其特征是版本管理模块建立数据集版本包括两种方式,一种方式为基于数据集中原始文件对象内容捕捉数据的静态快照,建立数据集版本并发布;另一种方式为基于已发布的数据集版本,在已有的数据集版本的文件对象内容基础上变更文件对象内容,生成新的数据集版本并发布。
8.根据权利要求5所述的一种训练数据集版本管理系统,其特征是完整性校验模块校验数据集完整性,包括:
技术总结
本发明公开一种训练数据集版本管理方法及系统,涉及数据管理技术领域;包括:步骤1:建立用于模型训练的数据集,为数据集生成唯一标识,步骤2:管理数据集版本:步骤21:建立数据集版本,步骤22:利用公式V=D+T+S,生成数据集版本标识,步骤23:根据数据集版本,创建所选数据集的静态快照;步骤24:根据静态快照,检查数据集中将发生内容变动的文件对象是否包含在静态快照中,是则将文件对象的当前版本拷贝到静态快照的对应存储中,并更新静态快照的元数据的对象索引,再进行数据集的变动操作,步骤25:校验数据集完整性;本发明降低数据管理复杂度,保障模型训练的质量和可靠性。
技术研发人员:宋喆,肖雪,玄德,张建伟,高传集
受保护的技术使用者:浪潮云信息技术股份公司
技术研发日:
技术公布日:2024/11/18
文档序号 :
【 40052023 】
技术研发人员:宋喆,肖雪,玄德,张建伟,高传集
技术所有人:浪潮云信息技术股份公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
技术研发人员:宋喆,肖雪,玄德,张建伟,高传集
技术所有人:浪潮云信息技术股份公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
