基于变形注意力BEV特征融合的三维检测方法及存储介质

本发明涉及计算机视觉,具体涉及基于变形注意力bev特征融合的三维检测方法及存储介质。
背景技术:
1、近年来,随着人工智能、机器学习和计算机视觉技术的飞速发展,自动驾驶汽车技术已经取得了显著进展。自动驾驶汽车依赖于高精度的环境感知能力,以实现安全有效的导航和决策制定。环境感知能力的关键在于从车辆周围环境中收集并解析大量数据,这通常涉及到多种感知模态,如雷达、激光雷达(lidar)和摄像头等。每种感知模态都有其独特的优势和局限性,例如,摄像头可以提供丰富的颜色和纹理信息,而激光雷达能够提供精确的深度信息。
2、在这种背景下,多模态融合技术应运而生,旨在通过综合处理和分析来自不同传感器的信息,以实现比单一模态更为准确和可靠的环境感知。特别是,bev(鸟瞰图)表示法为自动驾驶车辆提供了一个从顶部视角对周围环境的全面概览,这对于路径规划、障碍物检测和避让等任务至关重要。因此从鸟瞰图(bird's eyeview,bev)中学习强表示特征来完成感知任务正在成为工业界和学术界新的研究热点。自动驾驶算法的传统感知方法是在前视图或透视图中执行检测、分割、跟踪等。随着车辆上搭载的传感器变得越来越复杂,整合来自不同传感器的多源信息并在统一视图中表示特征变得至关重要。基于bev融合感知相较于传感器后融合感知更有利于保留语义特征信息和3d空间信息。
3、然让,现有的bev感知方法仍然存在一定的局限性,一方面,为了获得点云的bev特征,点云体素特征的z轴维度被压缩到通道维度,这可能会导致高度信息的丢失,这可能会阻碍涉及这些信息的下游任务的执行,例如需要预测边界框高度的3d对象检测。另一方面,从图像和点云导出的bev特征是独立获得的,而没有充分利用每种模态的互补优势。例如,将图像特征转换为bev特征的过程严重依赖于准确的深度预测。然而,单目深度预测是一个不适定的问题,在实现高精度带来了挑战。不准确的深度预测会导致视图变换错误。并且暴力拼接融合方法可能无法充分利用多模态特征之间的互补相互作用,从而影响检测性能。
4、因此,如何充分利用各模态特征,提高检测性能精度,成为了需要进一步研究和解决的问题。
技术实现思路
1、针对上述现有技术的不足,本发明提供了一种基于变形注意力bev特征融合的三维检测方法及存储介质,通过点云特征获取具有深度信息的bev空间,利用可变形注意力机制分别与bev空间进行融合,从而达到提高检测精度以及充分利用各模态的互补优势的目的。
2、为了解决上述技术问题,本发明采用了如下技术方案:
3、第一方面,本发明提供了一种基于变形注意力bev特征融合的三维检测方法,包括如下步骤:
4、s1、获取检测环境区域的图像数据及对应的点云数据;
5、s2、采用卷积神经网络对所述图像数据进行特征提取,获得二维图像特征;采用体素化特征提取网络对所述点云数据进行体素化处理,获得点体素特征;
6、s3、将所述二维图像特征和点体素特征输入至特征融合模块进行特征融合处理,得到检测环境区域的bev特征;
7、s4、将所述检测环境区域的bev特征与历史数据的bev特征通过时间融合模块进行时间融合处理,得到融合bev特征;
8、s5、基于所述融合bev特征,对检测环境区域进行三维目标检测。
9、上述基于变形注意力bev特征融合的三维检测方法中,作为优选方案,步骤s2中,所采用的卷积神经网络为resnet网络或vggnet网络;所采用的体素化特征提取网络为pointnet网络、pointnet++网络、voxelnet网络或pillar-based网络。
10、上述基于变形注意力bev特征融合的三维检测方法中,作为优选方案,步骤s3中,特征融合模块进行特征融合处理的具体方式为:
11、s301、初始化bev查询空间,将bev查询空间通过自注意力运算后,再与bev查询空间自身进行残差连接和归一化处理,得到bev查询注意力特征;
12、s302、将bev查询注意力特征与输入的点体素特征进行点交叉注意力计算后,再与所述bev查询注意力特征进行残差连接和归一化处理,得到深度融合bev注意力特征;
13、s303、将深度融合bev注意力特征与输入的二维图像特征进行图像交叉注意力计算后,再与所述深度融合bev注意力特征进行残差连接和归一化处理,得到视觉融合bev注意力特征;
14、s304、将视觉融合bev注意力特征与其自身经过前馈全连接层后的输出进行残差连接和归一化处理,得到融合输出的bev特征。
15、上述基于变形注意力bev特征融合的三维检测方法中,作为优选方案,所述步骤s301中,自注意力运算的表达式为:
16、sa(qp)=defattn(qp,p,q);
17、其中,qp为当前的查询向量,p为当前的查询向量或特征点对应的位置信息,q为查询集。
18、上述基于变形注意力bev特征融合的三维检测方法中,作为优选方案,所述步骤s302中,点交叉注意力运算的表达式为:
19、
20、其中,qp为当前的查询向量,p3d(p,i)为bev查询qp的第i个3d参考点在点体素特征空间中的投影,vpts为点体素特征空间的特征向量集合,nref为3d参考点的采样数。
21、上述基于变形注意力bev特征融合的三维检测方法中,作为优选方案,所述步骤s303中,图交叉注意力运算的表达式为:
22、
23、式中,qp为当前的查询向量,f为二维图像特征的特征集,p(p,i,j)为bev查询qp的第i个3d参考点(x,y,zi)在第j个摄像机的图像坐标系中的投影点,fj为为第j个摄像机视角的图像特征,vhit为有效的摄像机视角数量,nref为3d参考点采样数。
24、上述基于变形注意力bev特征融合的三维检测方法中,作为优选方案,所述步骤s4中,时间融合模块进行时间融合处理的具体方式为:
25、s401、将bev存储模块中的检测区域环境的bev特征与历史数据的bev特征进行时间交叉注意力计算后,再与检测区域的bev特征自身进行残差连接和归一化处理,得到时序融合bev注意力特征;
26、s402、将时序融合bev注意力特征与其自身经过前馈全连接层后的输出进行残差连接和归一化处理,得到融合输出的融合bev特征。
27、上述基于变形注意力bev特征融合的三维检测方法中,作为优选方案,所述步骤s401中,时间交叉注意力计算的表达式为:
28、
29、式中,p为qp的位置信息,b为历史数据的bev特征数据集,bt-i为t-i时刻的历史数据的bev特征,t为在计算中考虑的时间窗口大小。
30、上述基于变形注意力bev特征融合的三维检测方法中,作为优选方案,所述bev存储模块用于存储检测区域环境的bev特征和历史数据的bev特征。
31、第二方面,本发明还提供了一种包含计算机可执行程序的存储介质,所述计算机可执行程序在由计算机处理器执行时,用于执行上述的基于变形注意力bev特征融合的三维检测方法。
32、与现有技术相比,本发明具有以下技术效果:
33、(1)本发明通过图像数据经过深度学习卷积神经网络获取图像特征,用点云数据经过深度学习网络获取点云特征,实现了图像数据和点云数据的融合,充分利用不同传感器提供的信息,实现了信息的充分利用。
34、(2)本发明分别将点云特征与图像特征提取后,将点云特征先与初始化的bev查询空间进行融合,从而获取具有深度信息的bev查询空间,再将图像特征与bev查询空间进行融合,避免了单独将两种特征进行视角转换,充分利用各模态的优势进行互补。
35、(3)本发明通过可变形交叉注意力机制,分别与bev查询空间进行可变形注意力的计算,避免了传统多模态融合中常见的暴力拼接方法导致重要信息的丢失,提高检测精度。
技术研发人员:杨正益,牟镜吉,张毅,刘炼,刘轩,冯羽佳,张秋婧,王晓伟,刘旭
技术所有人:重庆大学
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
