首页  专利技术  电子电路装置的制造及其应用技术

使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法及装置

2025-07-26 16:40:07 540次浏览

技术特征:

1.一种使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法,其特征在于,将所述第一边缘案例图像和所述第一问题提示文本输入多模态大语言模型,得到所述第一问题提示文本对应的答案文本,包括:

3.根据权利要求2所述的使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法,其特征在于,将所述第一边缘案例图像和所述第一问题提示文本输入多模态大语言模型,得到标记有目标的位置框和名称的第一边缘案例图像,包括:

4.根据权利要求1所述的使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法,其特征在于,构建边缘案例图像文本对数据集,包括:

5.根据权利要求1所述的使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法,其特征在于,所述多模态大语言模型是通过文本损失和位置损失对所述多模态大语言模型中的模态对齐层、预训练的大语言模型以及边界框解码器进行微调得到的,所述文本损失是通过所述第一问题提示文本对应的答案文本和所述第一边缘案例图像的文本描述计算得到的,所述位置损失是通过多模态大语言模型输出的标记有目标的位置框和名称的第一边缘案例图像中目标的位置框和所述第一边缘案例图像中目标的位置计算得到的;

6.根据权利要求1所述的使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法,其特征在于,所述第一问题提示文本包括问题文本、格式描述文本和命令文本;基于所述边缘案例图像文本对数据集中的第一边缘案例图像的文本描述,构建第一问题提示文本,包括:

7.一种使用多模态大语言模型针对边缘案例的自动驾驶目标检测装置,其特征在于,所述装置包括:

8.根据权利要求7所述的使用多模态大语言模型针对边缘案例的自动驾驶目标检测装置,其特征在于,所述输入模块包括:

9.一种电子设备,包括存储器、处理器及存储在所述存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-6中任一项所述的使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法。

10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现权利要求1-6中任一项所述的使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法。


技术总结
本申请提供一种使用多模态大语言模型针对边缘案例的自动驾驶目标检测方法及装置,涉及目标检测技术领域,构建边缘案例图像文本对数据集,基于第一边缘案例图像的文本描述构建第一问题提示文本,将第一边缘案例图像和第一问题提示文本输入多模态大语言模型,得到标记目标位置和名称的图像和答案文本,基于第一边缘案例图像和边缘案例图像对应的文本描述和多模态大语言模型的输出结果,对多模态大语言模型进行微调,得到训练完毕的多模态大语言模型,将待检测图像输入训练完毕的多模态大语言模型,得到目标检测结果。通过构建的边缘案例图像文本对数据集对多模态大语言模型进行微调,在目标检测中显著提高其检测准确率。

技术研发人员:陶晓明,刘天启,秦艳君
受保护的技术使用者:清华大学
技术研发日:
技术公布日:2024/11/18
文档序号 : 【 40049842 】

技术研发人员:陶晓明,刘天启,秦艳君
技术所有人:清华大学

备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
陶晓明刘天启秦艳君清华大学
基于聚类分析的飞机自动着陆仿真危险点搜索方法 一种适用于三方交互的装修工程造价信息管理系统及方法与流程
相关内容