一种融合多视角信息的纯稀疏3D目标检测方法

2025-08-14 11:40:07 316次浏览

本发明属于人工智能深度学习和智能驾驶感知领域，具体涉及一种融合多视角信息的纯稀疏3d目标检测方法。

背景技术：

1、激光雷达3d点云是指通过激光雷达扫描得到的，用来描述空间物体的结构和几何形状的一种3d数据。相比于二维的图像信息，3d点云可以提供更丰富的结构和几何信息，所以，基于激光雷达点云的深度学习算法在医疗、机器人、智能驾驶等领域有很广泛的应用。在智能驾驶领域，车载激光雷达扫描并发送周围环境的3d点云数据，然后3d目标检测算法检测出周围车辆或者障碍物，以便车辆做出合理的决策和路径规划。

2、激光雷达点云属于非结构化数据，具有无序性和稀疏性的特点，所以基于激光雷达点云的3d目标检测算法充满挑战。基于点云的3d目标检测算法是指通过对输入点云的处理和特征提取，并通过检测头输出预测目标的类别和位置信息。尽管一些工作已经致力于融合多视角的点云信息，但是这些方法是在密集的特征图上处理，所以计算量较高。

3、另外，基于激光雷达点云的主要任务可以分为点云分类、点云分割、3d目标检测这三个主要任务。对于3d目标检测任务，3d检测器通过3d骨干网络提取输入点云的特征，然后通过检测头输出检测物体的类别、位置和大小等信息。基于激光雷达点云的3d目标检测算法可以分为三种方法：point-based, voxel-based和pillar-based方法。具体来说，point-based方法是直接对输入的点云的每个点提取特征，通过pointnet等点级特征提取网络提取点级特征，并直接对每个点进行回归和分类，point-based方法的优点在于特征提取过程中的信息损失最小，缺点在于由于要对每个点进行处理，推理速度较低；pillar-based方法将点云空间划分为没有z轴分辨率的pillar，然后在这些柱状结构中对点云进行特征编码，然后提取pillar级的特征，并对pillar进行分类和回归，这种方法的优点在于推理速度快，缺点在于由于空间分辨率低导致精度不足。为了平衡推理速度和检测精度，目前广泛使用的激光雷达点云3d目标检测算法为voxel-based方法，这些方法将点云空间划分为高分辨率的方格并称之为voxel（体素），然后通过3d稀疏卷积提取体素的特征，并对体素进行分类和回归，这种方法的检测精度优于pillar-based方法，推理速度高于point-based方法，达到了精度和速度的平衡。但基于体素的激光雷达点云3d目标检测算法面临的挑战性在于点云的稀疏性，对于空间中划分好的体素，只有10%的体素为非空体素。

4、因此，在多视角下基于体素的3d目标检测算法研究显得颇为重要。

技术实现思路

1、为解决上述技术问题，本发明提供了一种融合多视角信息的纯稀疏3d目标检测方法。通过对稀疏特征图的单一方向聚合得到单个视角下的特征，通过融合多个视角的特征来增强提取到的体素特征，整个融合过程在稀疏体素特征图上完成，计算效率可观。

2、为实现上述目的，本发明采用的技术方案如下：

3、一种融合多视角信息的纯稀疏3d目标检测方法，所述方法包括如下步骤：

4、步骤1、输入激光雷达原始点云数据，设定点云数据的点的数目为n，特征维度为d，所述原始点云数据包含点云的x,y,z三维坐标信息和反射强度信息；

5、步骤2、通过点云坐标与划分好的空间体素坐标对点云进行体素化，并通过聚合每个体素内的点云信息来进行体素特征编码，得到体素输入特征；

6、步骤3、将空间体素坐标和对应的体素输入特征打包成一个稀疏张量输入到3d骨干网络中提取体素的深层特征；

7、步骤4、在得到体素的深层特征之后，通过体素的空间位置索引，按照同一方向将该方向上的体素的深层特征求和得到该方向视角下的2d稀疏特征，分别沿着x,y,z三个方向重复步骤4，分别得到x,y,z三个方向单一视角下的稀疏特征图，，

8、步骤5、将x,y,z三个方向单一视角下的稀疏特征图，，分别进行归一化后，通过交叉注意力机制融合多视角特征；

9、步骤6、将融合后的多视角特征输入稀疏的检测头对体素进行分类和回归的预测；

10、步骤7、输出检测框的属性，包括检测框的类别、位置、大小以及方向，得到目标的检测信息。

11、本发明的有益效果在于：

12、本发明通过稀疏的聚合操作得到三个单视角特征，并通过归一化和交叉注意力操作融合多视角特征，增强了提取到的体素特征，并提高了检测精度；直接在3d稀疏特征图上融合多视角信息，并采取纯稀疏结构，大大降低了计算量。

技术特征：

1.一种融合多视角信息的纯稀疏3d目标检测方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的一种融合多视角信息的纯稀疏3d目标检测方法，其特征在于，所述步骤5中对于单一视角下的特征进行归一化操作依据如下公式进行：

3.根据权利要求2所述的一种融合多视角信息的纯稀疏3d目标检测方法，其特征在于，所述步骤5中通过交叉注意力机制融合多视角特征包括：

技术总结
本发明公开了一种融合多视角信息的纯稀疏3D目标检测方法，涉及人工智能深度学习和智能驾驶感知领域。所述方法通过对稀疏特征图的单一方向聚合得到单个视角下的特征，通过融合多个视角的特征来增强提取到的体素特征，整个融合过程在稀疏体素特征图上完成。本发明通过稀疏的聚合操作得到三个单视角特征，并通过归一化和交叉注意力操作融合多视角特征，增强了提取到的体素特征，提高了检测精度，大大降低了计算量。

技术研发人员：凌强,侯宇森,方毅
受保护的技术使用者：中国科学技术大学
技术研发日：
技术公布日：2024/11/18

文档序号 : 【 40049231 】

技术研发人员：凌强,侯宇森,方毅
技术所有人：中国科学技术大学

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

凌强丨侯宇森丨方毅丨中国科学技术大学