一种模型训练方法、系统及芯片

本发明涉及计算机,尤其涉及一种模型训练方法、系统及芯片。
背景技术:
1、神经形态计算领域,非易失性技术因其具有模拟生物突触功能的潜力而备受关注,其具备突触效能和突触可塑性。尽管神经形态计算的原位计算和突触学习前景广阔,但其计算的近似性可能会因设备、周期和过程相关效应引起的变化而带来误差,从而降低整体计算效率和准确性。晶体管或二极管等选择器的非理想性、对模数转换设备的要求以及有限的位精度要求,进一步增加了利用非传统突触设备设计可靠计算的整体复杂性。此外,写入非易失性器件的过程通常会消耗大量资源。此类器件固有的随机性也会导致不可靠的写入操作,从而需要昂贵的验证方案。对定制芯片架构的高需求也会带来巨大的成本。因此,如何简化芯片上的神经网络学习是一个亟待解决的技术问题。
技术实现思路
1、本发明提供了一种模型训练方法、系统及芯片,以解决芯片中模型训练难度高准确度低的技术问题,优化芯片内模型的训练方式,提高模型训练的准确度。
2、根据本发明的一方面,提供了一种模型训练方法,包括:
3、基于芯片获取模型训练数据,其中,所述模型训练数据为初始模型训练数据或某一迭代训练中的中间处理数据;
4、基于芯片中的第一神经网络模型对所述模型训练数据进行处理,得到模型处理数据;
5、基于外部处理器读取所述模型处理数据,并根据所述模型处理数据对所述外部处理器中的第一神经网络模型的模型参数进行调整,得到第二神经网络模型;
6、基于所述芯片根据所述第二神经网络模型的模型参数调整所述第一神经网络模型的模型参数;
7、循环执行上述操作,直到达到循环结束条件,得到训练后的第一神经网络模型。
8、可选的,在上述方案的基础上,所述第一神经网络模型包括多个神经层,所述基于芯片中的第一神经网络模型对所述模型训练数据进行处理,得到模型处理数据,包括:
9、基于所述第一神经网络模型对所述模型训练数据进行处理,得到每个神经层的处理数据作为所述模型处理数据。
10、可选的,在上述方案的基础上,所述基于外部处理器读取所述模型处理数据,并根据所述模型处理数据对所述外部处理器中的第一神经网络模型的模型参数进行调整,得到第二神经网络模型,包括:
11、基于所述外部处理器逐层通过所述芯片的读出引脚逐层读取所述第一神经网络模型中每个所述神经层的处理数据,基于各所述处理数据对所述第一神经网络模型进行训练,得到调整后的模型参数。
12、可选的,在上述方案的基础上,所述基于各所述处理数据对所述第一神经网络模型进行训练,包括:
13、通过时空反向传播stbp,反馈,脉冲时序依赖可塑性stdp中的至少一种方法基于各所述处理数据对所述第一神经网络模型进行训练。
14、可选的,在上述方案的基础上,所述循环结束条件包括所述第二神经网络模型的目标损失值满足设定阈值或循环次数达到设定循环次数。
15、可选的,在上述方案的基础上,还包括:
16、基于芯片响应于检测到的模型部署指令,根据待部署模型的模型结构将所述待部署模型进行部署,其中,所述待部署模型的每个神经层分别部署在所述芯片的不同皮质柱核心上。
17、可选的,在上述方案的基础上,所述第一神经网络模型用于脑机接口系统的行为解码,和/或,视觉相机目标识别。
18、可选的,在上述方案的基础上,所述第一神经网络模型为脉冲神经网络模型。
19、根据本发明的另一方面,提供了一种模型训练芯片,包括模型训练模块,用于:
20、获取模型训练数据;
21、基于第一神经网络模型对所述模型训练数据进行处理,得到模型处理数据;
22、获取外部处理器处理后的第二神经网络模型,基于所述第二神经网络模型对所述第一神经网络模型的模型参数进行调整;
23、循环执行上述操作,直到达到循环结束条件,得到训练后的第一神经网络模型。
24、根据本发明的另一方面,提供了一种模型训练系统,其特征在于,包括芯片和外部处理器,其中:
25、基于芯片获取模型训练数据,其中,所述模型训练数据为初始模型训练数据或某一迭代训练中的中间处理数据;
26、所述芯片,用于根据第一神经网络模型对所述模型训练数据进行处理,得到模型处理数据;
27、所述外部处理器,用于读取所述模型处理数据,并根据所述模型处理数据对所述外部处理器中的第一神经网络模型的模型参数进行调整,得到第二神经网络模型;
28、所述芯片,还用于根据所述第二神经网络模型的模型参数调整所述第一神经网络模型的模型参数。
29、本发明实施例的技术方案,通过基于芯片获取模型训练数据,其中,所述模型训练数据为初始模型训练数据或某一迭代训练中的中间处理数据;基于芯片中的第一神经网络模型对所述模型训练数据进行处理,得到模型处理数据;基于外部处理器读取所述模型处理数据,并根据所述模型处理数据对所述外部处理器中的第一神经网络模型的模型参数进行调整,得到第二神经网络模型;基于所述芯片根据所述第二神经网络模型的模型参数调整所述第一神经网络模型的模型参数;循环执行上述操作,直到达到循环结束条件,得到训练后的第一神经网络模型。在对芯片内的神经网络模型进行训练时,通过芯片和外部处理器协同配合的方式,实现片上-片下交互的模型训练,通过在芯片内进行模型训练数据的处理,实现了数据处理的准确性,在外部处理器基于模型训练数据进行模型参数的回调,降低了芯片的性能要求,避免了芯片单独进行模型训练时消耗大量资源,简化了芯片内模型训练的难度,避免了芯片的损耗,也提高了模型训练的准确性。
30、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
技术特征:
1.一种模型训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述第一神经网络模型包括多个神经层,所述基于芯片中的第一神经网络模型对所述模型训练数据进行处理,得到模型处理数据,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于外部处理器读取所述模型处理数据,并根据所述模型处理数据对所述外部处理器中的第一神经网络模型的模型参数进行调整,得到第二神经网络模型,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于各所述处理数据对所述第一神经网络模型进行训练,包括:
5.根据权利要求1所述的方法,其特征在于,所述循环结束条件包括所述第二神经网络模型的目标损失值满足设定阈值或循环次数达到设定循环次数。
6.根据权利要求1所述的方法,其特征在于,还包括:
7.根据权利要求1所述的方法,其特征在于,所述第一神经网络模型用于脑机接口系统的行为解码,和/或,视觉相机目标识别。
8.根据权利要求1所述的方法,其特征在于,所述芯片为类脑芯片,所述第一神经网络模型为脉冲神经网络模型。
9.一种芯片,其特征在于,包括模型训练模块,用于:
10.一种模型训练系统,其特征在于,包括芯片和外部处理器,其中:
技术总结
本发明公开了一种模型训练方法、系统及芯片,方法包括:基于芯片获取模型训练数据,其中,模型训练数据为初始模型训练数据或某一迭代训练中的中间处理数据;基于芯片中的第一神经网络模型对模型训练数据进行处理,得到模型处理数据;基于外部处理器读取模型处理数据,并根据模型处理数据对外部处理器中的第一神经网络模型的模型参数进行调整,得到第二神经网络模型;基于芯片根据第二神经网络模型的模型参数调整第一神经网络模型的模型参数;循环执行上述操作,直到达到循环结束条件,得到训练后的第一神经网络模型。降低了芯片的性能要求,简化了芯片内模型训练的难度,避免了芯片的损耗,提高了模型训练的准确性。
技术研发人员:张铁林,张新贺,宁子帆
受保护的技术使用者:中国科学院脑科学与智能技术卓越创新中心
技术研发日:
技术公布日:2024/11/28
技术研发人员:张铁林,张新贺,宁子帆
技术所有人:中国科学院脑科学与智能技术卓越创新中心
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
