使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法及装置

2025-07-26 16:40:07 635次浏览

本技术涉及目标检测，特别是涉及使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法及装置。

背景技术：

1、自动驾驶汽车需要对周围环境有敏锐的感知，以促进路线规划和行为决策。目前提出的基于深度学习的物体检测模型，如yolo（you only look once）系列的模型，能够通过处理来自摄像头的视频片段来识别周围物体，从而有效地检测道路上的常见物体。

2、虽然目标检测模型在确定目标的训练数据集的检测方面取得了优异的性能，但是，车辆在现实道路上不可避免地会遇到复杂而罕见的场景，例如路面损坏造成的深坑，或者由于特殊事件而临时竖立的交通引导标志。这些罕见的物体或场景被称为边缘案例，虽然不常见，但当它们发生时，会对交通安全产生重大影响。

3、由于边缘案例的训练数据的稀缺性，若目标检测模型在零次或少次学习边缘案例的情况下，使目标检测模型的有效性和鲁棒性面临重大挑战，导致检测的准确率下降。

技术实现思路

1、本技术提供一种使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法及装置，以解决上述问题。

2、在本技术实施例第一方面提供一种使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法，所述方法包括：

3、构建边缘案例图像文本对数据集，所述边缘案例图像文本对数据集中的每个边缘案例图像文本对包括：边缘案例图像和边缘案例图像对应的文本描述，所述文本描述包括所述边缘案例图像中的目标的名称和对所述目标的位置的描述，所述目标所属的类别至少包括：交通设施、障碍物和不常见物体；

4、基于所述边缘案例图像文本对数据集中的第一边缘案例图像的文本描述，构建第一问题提示文本；

5、将所述第一边缘案例图像和所述第一问题提示文本输入多模态大语言模型，得到标记有目标的位置框和名称的第一边缘案例图像，以及，所述第一问题提示文本对应的答案文本，所述答案文本用于描述所述第一边缘案例图像中的各个目标的名称和位置；

6、基于所述第一边缘案例图像和所述边缘案例图像对应的文本描述、所述标记有目标的位置框和名称的第一边缘案例图像、以及所述第一问题提示文本对应的答案文本，对所述多模态大语言模型中的模态对齐层、预训练的大语言模型以及边界框解码器进行微调，得到训练完毕的多模态大语言模型，所述模态对齐层用于将所述第一边缘案例图像的特征映射至所述预训练的大语言模型能够处理的文本嵌入空间，所述边界框解码器用于从所述答案文本中获取所述第一边缘案例图像中的目标的位置信息；

7、将待检测图像输入所述训练完毕的多模态大语言模型，得到所述待检测图像的目标检测结果。

8、在本技术可选的一实施例中，将所述第一边缘案例图像和所述第一问题提示文本输入多模态大语言模型，得到所述第一问题提示文本对应的答案文本，包括：

9、将所述第一边缘案例图像输入所述多模态大语言模型的图像编码器中，得到图像编码结果，将所述图像编码结果输入所述多模态大语言模型的模态对齐层，得到对齐至文本模态的图像编码结果；

10、将所述第一问题提示文本以及所述对齐至文本模态的图像编码结果输入所述多模态大语言模型的文本编码器，得到多模态文本编码结果；

11、将所述多模态文本编码结果输入所述多模态大语言模型的预训练的大语言模型，得到目标检测结果文本表示，所述目标检测结果文本表示为一个包含目标的名称和位置信息的令牌序列；

12、将所述目标检测结果文本表示输入所述多模态大语言模型的文本解码器，得到所述第一问题提示文本对应的答案文本。

13、在本技术可选的一实施例中，将所述第一边缘案例图像和所述第一问题提示文本输入多模态大语言模型，得到标记有目标的位置框和名称的第一边缘案例图像，包括：

14、将所述第一问题提示文本对应的答案文本输入所述多模态大语言模型的边界框解码器，得到所述标记有目标的位置框和名称的第一边缘案例图像。

15、在本技术可选的一实施例中，构建边缘案例图像文本对数据集，包括：

16、获得边缘案例图像数据集，所述边缘案例图像数据集中的每个目标携带预先标记的边界框坐标和类别，所述类别为相应目标所属多个边缘案例的预定义类别中的一个类别，所述预定义类别至少包括：交通设施、障碍物和不常见物体；

17、对所述边缘案例图像数据集中的每个目标添加文本描述，得到所述边缘案例图像文本对数据集。

18、在本技术可选的一实施例中，所述多模态大语言模型是通过文本损失和位置损失对所述多模态大语言模型中的模态对齐层、预训练的大语言模型以及边界框解码器进行微调得到的，所述文本损失是通过所述第一问题提示文本对应的答案文本和所述第一边缘案例图像的文本描述计算得到的，所述位置损失是通过多模态大语言模型输出的标记有目标的位置框和名称的第一边缘案例图像中目标的位置框和所述第一边缘案例图像中目标的位置计算得到的；

19、所述多模态大语言模型在训练过程中使用的总损失函数的计算公式如下所示：

20、，

21、式中，为文本损失，为位置损失，为加权参数，用于平衡文本损失和位置损失的权重。

22、在本技术可选的一实施例中，所述第一问题提示文本包括问题文本、格式描述文本和命令文本；基于所述边缘案例图像文本对数据集中的第一边缘案例图像的文本描述，构建第一问题提示文本，包括：

23、基于所述第一边缘案例图像和所述边缘案例图像文本对数据集中的目标的名称，构建所述问题文本；

24、构建用于描述所述第一边缘案例图像中的目标的位置信息的格式描述文本，所述问题文本和所述格式描述文本用于触发所述多模态大语言模型输出所述第一问题提示文本对应的答案文本；

25、构建用于定位所述第一边缘案例图像中的目标以及对应的位置框的命令文本，所述命令文本用于触发所述多模态大语言模型输出所述标记有目标的位置框和名称的第一边缘案例图像。

26、在本技术实施例第二方面提供一种使用多模态大语言模型针对边缘案例的自动驾驶目标检测装置，所述装置包括：

27、数据集构建模块，用于构建边缘案例图像文本对数据集，所述边缘案例图像文本对数据集中的每个边缘案例图像文本对包括：边缘案例图像和边缘案例图像对应的文本描述，所述文本描述包括所述边缘案例图像中的目标的名称和对所述目标的位置的描述，所述目标所属的类别至少包括：交通设施、障碍物和不常见物体；

28、提示文本构建模块，用于基于所述边缘案例图像文本对数据集中的第一边缘案例图像的文本描述，构建第一问题提示文本；

29、输入模块，用于将所述第一边缘案例图像和所述第一问题提示文本输入多模态大语言模型，得到标记有目标的位置框和名称的第一边缘案例图像，以及，所述第一问题提示文本对应的答案文本，所述答案文本用于描述所述第一边缘案例图像中的各个目标的名称和位置；

30、微调模块，用于基于所述第一边缘案例图像和所述边缘案例图像对应的文本描述、所述标记有目标的位置框和名称的第一边缘案例图像、以及所述第一问题提示文本对应的答案文本，对所述多模态大语言模型中的模态对齐层、预训练的大语言模型以及边界框解码器进行微调，得到训练完毕的多模态大语言模型，所述模态对齐层用于将所述第一边缘案例图像的特征映射至所述预训练的大语言模型能够处理的文本嵌入空间，所述边界框解码器用于从所述答案文本中获取所述第一边缘案例图像中的目标的位置信息；

31、检测模块，用于将待检测图像输入所述训练完毕的多模态大语言模型，得到所述待检测图像的目标检测结果。

32、在本技术可选的一实施例中，所述输入模块包括：

33、图像编码子模块，用于将所述第一边缘案例图像输入所述多模态大语言模型的图像编码器中，得到图像编码结果，将所述图像编码结果输入所述多模态大语言模型的模态对齐层，得到对齐至文本模态的图像编码结果；

34、文本编码子模块，用于将所述第一问题提示文本以及所述对齐至文本模态的图像编码结果输入所述多模态大语言模型的文本编码器，得到多模态文本编码结果；

35、文本表示获取子模块，用于将所述多模态文本编码结果输入所述多模态大语言模型的预训练的大语言模型，得到目标检测结果文本表示，所述目标检测结果文本表示为一个包含目标的名称和位置信息的令牌序列；

36、文本解码子模块，用于将所述目标检测结果文本表示输入所述多模态大语言模型的文本解码器，得到所述第一问题提示文本对应的答案文本。

37、在本技术实施例第三方面提出一种电子设备，包括存储器、处理器及存储在所述存储器上的计算机程序，所述处理器执行所述计算机程序以实现上述第一方面中任一项所述的使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法。

38、在本技术实施例第四方面提出一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现上述第一方面中任一项所述的使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法。

39、本技术包括以下优点：在本技术实施例第一方面提出一种使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法及装置，构建边缘案例图像文本对数据集，所述边缘案例图像文本对数据集中的每个边缘案例图像文本对包括：边缘案例图像和边缘案例图像对应的文本描述，所述文本描述包括所述边缘案例图像中的目标的名称和对所述目标的位置的描述，所述目标所属的类别至少包括：交通设施、障碍物和不常见物体；基于所述边缘案例图像文本对数据集中的第一边缘案例图像的文本描述，构建第一问题提示文本；将所述第一边缘案例图像和所述第一问题提示文本输入多模态大语言模型，得到标记有目标的位置框和名称的第一边缘案例图像，以及，所述第一问题提示文本对应的答案文本，所述答案文本用于描述所述第一边缘案例图像中的各个目标的名称和位置；基于所述第一边缘案例图像和所述边缘案例图像对应的文本描述、所述标记有目标的位置框和名称的第一边缘案例图像、以及所述第一问题提示文本对应的答案文本，对所述多模态大语言模型中的模态对齐层、预训练的大语言模型以及边界框解码器进行微调，得到训练完毕的多模态大语言模型，所述模态对齐层用于将所述第一边缘案例图像的特征映射至所述预训练的大语言模型能够处理的文本嵌入空间，所述边界框解码器用于从所述答案文本中获取所述第一边缘案例图像中的目标的位置信息；将待检测图像输入所述训练完毕的多模态大语言模型，得到所述待检测图像的目标检测结果。通过充分利用大语言模型的先验知识和推理能力，并通过构建的边缘案例图像文本对数据集对多模态大语言模型进行微调，在对边缘案例进行目标检测的过程中显著提高其检测准确率，进一步增强自动驾驶系统的安全性和可靠性。

文档序号 : 【 40049842 】

技术研发人员：陶晓明,刘天启,秦艳君
技术所有人：清华大学

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

陶晓明丨刘天启丨秦艳君丨清华大学

基于聚类分析的飞机自动着陆仿真危险点搜索方法一种适用于三方交互的装修工程造价信息管理系统及方法与流程