基于多模态信息融合的违规行为检测方法、装置及终端与流程

2025-08-09 12:00:06 678次浏览

本发明涉及金融科技，尤其涉及一种基于多模态信息融合的违规行为检测方法、装置及终端。

背景技术：

1、目前，大型多模态模型(large multimodal model,lmms)在处理图像和文本数据方面取得了显著进展，尤其在图像描述和视觉问答等任务中表现突出，引起了学术界的广泛关注。然而，在金融场景中应用这些技术时仍然存在一些显著的挑战和不足。

2、现有的解决方案包括使用预训练视觉模块以支持更大的输入分辨率，如llava1.5，并通过课程学习逐步增加训练过程中的分辨率，例如qwen-vl、pali-3和pali-x。尽管这些方法在一定程度上改善了模型的性能，但它们对训练资源的需求很高，并且在处理更大的图像尺寸时仍面临挑战。

3、特别是在金融领域，需要处理高分辨率图像并精确捕捉细微的视觉细节，以进行准确的质检和分析。现有技术在这些方面的表现仍未能完全满足金融行业的需求，缺乏高效处理多模态数据的系统和方法。因此，针对金融场景开发更为高效和精确的多模态训练推理方法成为当前的紧迫需求，以支持金融安全和风险管理等关键任务。

4、综上所述，尽管现有技术在多模态模型的发展和应用方面取得了一定进展，但在处理金融场景中，由于现有数据集中的图像描述通常不够详细，无法充分提升多模态模型对图像-文本关系的理解能力，限制了多模态模型在处理高要求的金融场景中的应用效果，违规行为检测准确率较低。

5、因此，现有技术还有待于改进和发展。

技术实现思路

1、鉴于上述现有技术的不足，本发明提供了一种基于多模态信息融合的违规行为检测方法、装置及终端，旨在解决现有技术中数据集中的图像描述通常不够详细，无法充分提升多模态模型对图像-文本关系的理解能力，限制了多模态模型在处理高要求的金融场景中的应用效果，违规行为检测准确率较低的问题。

2、本发明的技术方案如下：

3、本发明第一实施例提供了一种基于多模态信息融合的违规行为检测方法，所述方法包括：

4、采集客服与客户聊天过程的聊天数据，所述聊天数据为由客服发出的聊天内容，所述聊天内容包括聊天文字信息和聊天长图片；

5、基于滑动窗口对所述聊天长图片进行切片操作，得到图片切片数据；

6、基于所述聊天文字信息、所述聊天长图片及所述图片切片数据生成训练样本，基于所述训练样本对人工智能模型进行训练，得到多模态信息融合模型，所述人工智能模型包括多模态信息融合处理模块及输出模块；

7、获取待检测的客服聊天内容，将所述待检测的客服聊天内容输入所述多模态信息融合模型，获取所述多模态信息融合模型输出的违规行为检测结果。

8、进一步地，所述采集客服与客户聊天过程的聊天数据，包括：

9、采集客服与客户聊天过程中的客服发出的聊天内容，所述客服聊天内容包括正常的聊天内容及违规的聊天内容；

10、对所述客服聊天内容进行标注，得到标注后的客服聊天内容；

11、对所述标注后的客服聊天内容进行预处理，得到预处理后的客服聊天内容。

12、进一步地，所述基于滑动窗口对所述聊天长图片进行切片操作，得到图片切片数据，包括：

13、将所述聊天文字内容与所述聊天长图片进行一一对应，得到所述聊天文字内容与所述聊天长图片的对应信息；

14、基于滑动窗口对所述聊天长图片进行切片操作，得到图片切片；

15、基于所述对应信息，获取所述图片切片对应的聊天文字内容，将对应的聊天文字内容进行截断，得到截断文字内容；

16、基于所述图片切片及截断文本内容，得到图片切片数据。

17、进一步地，所述基于所述聊天文字信息、所述聊天长图片及所述图片切片数据生成训练样本，包括：

18、将所述聊天文字内容输入文本特征提取模块，得到聊天文本特征；

19、将所述聊天长图片输入图片特征提取模块，得到聊天长图片特征；

20、将所述图片切片数据输入图片切片数据提取模块，得到图片切片特征；

21、基于所述聊天文本特征、聊天长图片特征、图片切片文本特征得到训练样本。

22、进一步地，所述基于所述训练样本对人工智能模型进行训练，得到多模态信息融合模型，包括：

23、基于所述训练样本对人工智能模型进行训练，得到初始多模态信息融合模型；

24、采集用于测试的聊天样本数据，基于所述聊天样本数据对所述初始多模态信息融合模型进行测试；

25、若测试成功，则将初始多模态信息融合模型作为最终的多模态信息融合模型；

26、若测试失败，则对初始多模态信息融合模型的网络参数进行调整，直到初始多模态信息融合模型测试成功，将测试成功时的初始多模态信息融合模型作为多模态信息融合模型。

27、进一步地，所述获取待检测的客服聊天内容，将所述待检测的客服聊天内容输入所述多模态信息融合模型，包括：

28、获取待检测的客服聊天内容，对所述检测的客服聊天内容进行预处理，得到初始客服聊天内容；

29、对所述初始客服聊天内容进行特征提取，得到待检测的客服聊天特征；

30、将所述待检测的客服聊天特征输入所述多模态信息融合模型。

31、进一步地，所述获取所述多模态信息融合模型输出的违规行为结果，包括：

32、获取所述多模态信息融合模型输出的违规行为类型、违规行为分数及违规识别结果。

33、本发明的另一实施例提供了一种基于多模态信息融合的违规行为检测装置，装置包括：

34、数据采集模块，用于采集客服与客户聊天过程的聊天数据，所述聊天数据为由客服发出的聊天内容，所述聊天内容包括聊天文字信息和聊天长图片；

35、图片切片模块，用于基于滑动窗口对所述聊天长图片进行切片操作，得到图片切片数据；

36、模型训练模块，用于基于所述聊天文字信息、所述聊天长图片及所述图片切片数据生成训练样本，基于所述训练样本对人工智能模型进行训练，得到多模态信息融合模型，所述人工智能模型包括多模态信息融合处理模块及输出模块；

37、行为识别模块，用于获取待检测的客服聊天内容，将所述待检测的客服聊天内容输入所述多模态信息融合模型，获取所述多模态信息融合模型输出的违规行为检测结果。

38、本发明的另一实施例提供了一种终端，所述终端包括至少一个处理器；以及，

39、与所述至少一个处理器通信连接的存储器；其中，

40、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的基于多模态信息融合的违规行为检测方法。

41、本发明的另一实施例还提供了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行上述的基于多模态信息融合的违规行为检测方法。

42、有益效果：本发明实施例的基于多模态信息融合的违规行为检测方法，主要解决在金融领域中客服违规行为质检的长图文信息处理能力问题。技术框架包含文本、图片和切片图文数据特征提取模块、多模态信息融合处理模块，图片、文本、切片图文数据上训练，从而学习到多模态的特征表示。在推断阶段，通过大模型推断的违规行为类型和违规行为分数来检测违规行为情况。与以往基于大模型的违规行为检测方法不同，引入了大模型和多分辨和多切片图文信息融合，从特征空间入手融合了一种多级图文特征融合，提供丰富的信息。并且，由于大模型具有少次学习、上下文联系能力，以进一步获取判断违规行为的特征信息。能够有效解决金融领域客服违规行为检测的问题，并提高了客服违规行为检测的准确性。

文档序号 : 【 40049398 】

技术研发人员：洪振厚,王健宗,瞿晓阳
技术所有人：平安科技（深圳）有限公司

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

洪振厚丨王健宗丨瞿晓阳丨平安科技（深圳）有限公司