一种基于特征增强的多视图三维重建方法

2026-01-12 16:40:07 324次浏览

本发明涉及三维重建领域，尤其涉及的是一种基于特征增强的多视图三维重建方法。

背景技术：

1、三维重建技术在现代科技应用中无处不在，随着计算机视觉和图形学技术的快速发展，三维重建已成为科学研究和工程应用中的热点课题。三维重建将二维图像数据转换成三维模型，其核心在于利用计算机视觉和图形学算法，从多视角二维图像中提取空间信息，构建出精准的三维模型。在医学领域通过影像实现精细的病理分析和手术规划；在考古学中复原历史遗迹和文物，助力文化遗产保护；在建筑与工程中生成精确的建筑模型，提高设计和施工效率；在影视制作中创建逼真的虚拟场景和角色；在机器人导航中提供环境感知，增强自主导航能力；在地理信息系统中构建详细的地形和城市模型，支持城市规划和环境监测。三维重建不仅提升了各领域的工作精度和效率，还推动了虚拟现实和增强现实技术的发展，成为现代科技创新的重要支撑。

2、传统的三维重建方法多依赖于昂贵的硬件设备，如激光扫描仪或结构光传感器，这些设备不仅成本高，且操作复杂。随着计算机视觉技术的快速发展，基于图像的三维重建方法逐渐成为研究热点。mvsnet(多视图立体匹配)网络的兴起使得多视图三维重建技术得到进一步的发展，通过融合多张从不同角度拍摄的图像信息，重建出目标物体的三维结构，具有成本低、灵活性高的优点。后来衍生出一系列多视图立体匹配的三维重建网络，但由于在代价体正则化阶段都使用三维卷积，对硬件要求较高。

技术实现思路

1、针对现有技术的不足，本文提出了一种基于特征增强的多视图三维重建方法，可以有效地减少对显存的消耗。

2、一种基于特征增强的的多视图三维重建方法，包括以下步骤：

3、s1、建立特征图提取网络，通过特征提取和特征融合网络来提取图像数据中的多尺度特征，输出三个尺度的特征图，分辨率分别为原图像的1/8、1/4、1/2，同时对参考图像提取多尺度上下文特征。

4、所述特征提取网络由两部分构成，第一部分是自底向上特征提取模块，第二部分是自顶向下多尺度特征聚合部分。

5、自底向上的特征提取模块，使用二维卷积层提取特征图和基于哈尔小波的下采样模块对特征图进行高保真缩小变换。首先使用卷积层将n张h×w大小的图像，提取出通道数为8、分辨率为原图像大小的特征图，然后将特征图分解成低频和细节高频两个部分，选择yh中的不同方向上的高频分量，再将低频分量yl与前面得到的高频分量拼接，实现特征的无损编码。最后通过一个卷积层、批处理归一化层和relu激活层，得到最终的特征图。经过下采样后的特征图高保真下采样为原来的一半，通道数增加一倍。重复上述步骤，其中卷积层的参数设置和输入输出有所变化，最终得到通道数分别为8、16、32，分辨率为原图像1/8、1/4、1/2的特征图。

6、自顶向下的特征聚合部分，主要由卷积层和像素注意力引导模块协作来完成特征融合。首先每一层的输出特征图要先经过一个1×1的卷积核，将每个特征图的通道数变为相同，图像分辨率不变，再通过像素注意力引导模块将不同层次的特征融合，首先计算其中上下两层次特征图对应像素特征向量的点积并经过激活函数得到一个可能性值σ，表示这两个像素可能属于同一对象的程度。如果σ较高，则认为高层次的特征图中提供的特征更具参考价值，反之亦然。最终输出的融合结果是根据σ权重系数动态融合两个特征图的像素特征。

7、s2、建立代价体生成网络，将源图像的特征图经过单应性变换，构建出特征体，再使用基于方差的代价度量，生成初级代价体。

8、首先建立深度假设平面，深度假设范围为dmin到dmax，对于阶段k和迭代t的每个像素p，在逆深度范围rk内统一采样dk个深度假设：

9、

10、其中，im表示最小深度假设平面间隔，为第k阶段第t迭代后p像素的深度值，dmin为最小深度值，dmax为最大深度值。

11、所述单应性变换是基于提取的特征图和相机参数，将源图像的特征图投影到参考图像下的若干个平行平面，特征图上坐标变换公式：

12、x′～hi(d)·x

13、其中，～表示投影等式，x表示源图像的原特征图上位于深度值d处的一点，x′表示x投影变换后的点，hi(d)表示在深度值d处源图像特征图与参考图像特征图的单应变换矩阵，公式如下：

14、

15、其中，n1为参考相机的主轴方向，d代表从预测深度范围内计算的均匀采样值，表示各视图对应的相机内参矩阵、旋转矩阵及平移向量。

16、所述基于方差的成本度量用于n视图间的相似性度量，可以适应任意数量的输入视图。代价度量定义了映射关系：

17、

18、其中，w、h、d、f分别为特征图的输入图像宽度、高度、深度样本数和通道数，为特征体的大小，c为得到的代价体。

19、s3、在深度维度引入加权网络，对深度层假设d的每个体素进行加权平均将权重图与代价体结合生成自适应代价体，具体公式如下：

20、

21、其中，c′表示自适应代价体，ωh,w表示权重，c表示初级代价体。

22、然后，使用两个二维卷积层从自适应代价体和深度图中提取几何特征和深度特征，将输出再与上下文特征串联，构建出最终的动态代价体。

23、s4、初始深度图生成。首先利用轻量级的3d cnn对代价体进行正则化，得到每个深度假设d对应的概率体pd，通过对概率体加权平均得到初始深度图dinit，公式如下：

24、

25、s5、基于gru(门控循环单元)的迭代优化器更新深度图，迭代处理动态代价体。在每次迭代t中，gru输入动态代价体ct-1以及潜在隐藏状态ht-1，使用包含两个卷积层和tanh激活函数的深度头模块预测残差深度δdt，使用公式dt＝dt-1+δdt更新输入深度图，并上采样至dt+1作为下一次迭代的输入。在每个阶段的最后一次迭代后，使用掩码上采样模块对更新的深度图上采样。此外，在每个阶段，初始隐藏状态h0由上下文特征网络初始化，动态代价体ct-1通过之前的深度图dt+1进行更新。

26、所述基于门控循环单元的深度图迭代器的损失如下：

27、在不同的迭代中从初始深度预测模块和基于gru的多级优化模块输出的深度图。使用相应分辨率的真实深度图计算输出深度图上的l0.5损失。最终损失是所有损失的加权和：

28、

29、其中，linit为初始深度预测模块得到的初始深度图的l0.5损失。tk为阶段k的优化迭代次数，为tk输出深度图和k阶段上采样深度图的损失，为相应的权值。

30、l0.5范数及其梯度公式可表示为：

31、

32、将此范数应用于光度一致性损失，将普通点变成准确点，减少对糟糕点的关注，l0.5光度一致性损失为：

33、

34、其中，pvalid为有效真实像素集，d(p)为像素p的真实深度值，为网络的深度估计。

35、总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

36、(1)本发明提供的一种基于特征增强的多视图三维重建方法，针对现有的高性能网络计算量过大问题，使用轻量化网络，降低了显存的消耗。

37、(2)本发明提供的一种基于特征增强的多视图三维重建方法，通过基于哈尔小波变换的下采样模块和像素注意力机制的特征融合模块，得到高保真度、高完整性的特征提取模块，在缩小图像尺寸的同时保证信息不丢失，并自适应地将特征有效融合，使得特征得到增强。

38、(3)本发明提供的一种基于特征增强的多视图三维重建方法，使用自适应代价体生成结构学习各视图的图像在多个匹配体里的影响，增强像素匹配更好的部分，抑制匹配失败的部分。

39、(4)本发明提供的一种基于特征增强的多视图三维重建方法，使用l0.5光度一致性损失使得模型在训练时更加关注准确点，提高重建的精确度。

文档序号 : 【 40126057 】

技术研发人员：沙晓鹏,李文静,吕晓永,孙文博,秦晔
技术所有人：东北大学秦皇岛分校

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

沙晓鹏丨李文静丨吕晓永丨孙文博丨秦晔丨东北大学秦皇岛分校