一种可配置卷积累加处理装置及其方法与流程
技术特征:
1.一种可配置卷积累加处理装置,其特征在于,包括:
2.如权利要求1所述的一种可配置卷积累加处理装置,其特征在于,当所述卷积累加模式为直接卷积且输入数据精度为int16时,设置为模式1;当所述卷积累加模式为直接卷积且输入数据精度为int8时,设置为模式2;当所述卷积累加模式为winograd卷积且输入数据精度为int16时,设置为模式3;当所述卷积累加模式为winograd卷积且输入数据精度为int8时,设置为模式4。
3.如权利要求1所述的一种可配置卷积累加处理装置,其特征在于,所述卷积累加控制模块,根据卷积累加模式信息控制选择进行卷积累加运算的加法单元,同时选择卷积累加中间结果数据缓存单元以及卷积累加输出缓存单元;根据所述卷积累加预处理模块生成的卷积条带操作开始标志以及卷积条带操作结束标志,对条带间的部分和数据执行累加运算;根据卷积通道结束标志,输出卷积累加运算的累加最终结果数据至所述卷积累加精度转换模块。
4.如权利要求2所述的一种可配置卷积累加处理装置,其特征在于,当所述卷积累加模式为模式1时,对卷积条带操作内的每个卷积mac阵列输出的部分和数据,启用一个int16加法单元做累加运算,并启用卷积累加中间结果数据缓存单元中的m_sram0,用于存储卷积累加运算得到的中间累加结果;启用卷积累加输出缓存单元中的d_sram0,用于存储经过卷积累加精度转换模块处理之后的卷积累加结果数据;
5.如权利要求2所述的一种可配置卷积累加处理装置,其特征在于,当所述卷积累加模式为模式3时,对卷积条带操作内的每个卷积mac阵列输出的部分和数据,启用4个int16加法单元,并行做累加运算,并启用卷积累加中间数据结果缓存单元中的m_sram0~m_sram3,分别用于存储卷积累加运算得到的4个中间累加结果,启用卷积累加输出缓存单元中的d_sram0~d_sram3,存储经过卷积累加精度转换模块处理之后的4个卷积累加结果数据;
6.如权利要求1所述的一种可配置卷积累加处理装置,其特征在于,所述卷积累加加法阵列模块,包括对卷积mac阵列输出的部分和数据进行打包并拆分;即将所有卷积mac阵列输出的部分和数据打包成一个数据包,根据配置信息中的输入数据精度,拆分数据包,分别生成用于int16和int8加法单元做加法运算的操作数,完成条带间的卷积部分和数据的并行累加计算,对多路并行卷积累加运算的中间累加结果拼接,同一条带周期内串行输入的数据相互独立,不进行累加;当卷积通道结束标志为高时,将卷积累加运算的卷积累加结果数据发送至卷积累加精度转换模块;否则,将卷积累加结果数据发送至卷积累加中间结果数据缓存单元。
7.如权利要求1所述的一种可配置卷积累加处理装置,其特征在于,所述卷积累加精度转换模块,接收来自卷积累加加法阵列模块的累加最终结果数据,对数据进行饱和截断处理,防止处理的数据产生上溢出或下溢出,根据配置信息中的截断参数来确定截断长度,从而将实现精度转换后的卷积累加结果数据存入卷积累加输出缓存单元。
8.如权利要求1所述的一种可配置卷积累加处理装置,其特征在于,所述卷积累加缓存模块,根据卷积条带处理周期的最大长度设置sram的深度,根据并行多路卷积mac阵列的最大数目与累加结果的数据精度来设置sram的位宽,实现对多路并行累加结果以及多路串行条带数据的缓存。
9.一种可配置卷积累加处理方法,采用如权利要求1~8任一项所述的一种可配置卷积累加处理装置,其特征在于,包括如下步骤:
技术总结
本发明属于深度学习加速器集成电路技术领域,特别涉及一种可配置卷积累加处理装置及其方法。包括卷积累加预处理模块、卷积累加控制模块、卷积累加加法阵列模块、卷积累加精度转换模块和卷积累加缓存模块,其中卷积累加控制模块根据卷积累加模式,选择进行累加运算的加法单元以及存储卷积累加运算结果的缓存单元,卷积累加精度转换模块接收来自卷积累加加法阵列模块的累加结果数据,对数据进行饱和截断处理,将卷积累加运算的最终卷积结果存入卷积累加输出缓存单元。本发明支持不同的卷积模式,不同的数据精度,具有与硬件信息匹配可以灵活配置的累加运算,提高卷积神经网络加速计算的并行度,且可扩展性好。
技术研发人员:何清,王少华,杨亮,庞博
受保护的技术使用者:中电科申泰信息科技有限公司
技术研发日:
技术公布日:2024/11/28
技术研发人员:何清,王少华,杨亮,庞博
技术所有人:中电科申泰信息科技有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
