基于循环生成模态补全的短视频场景识别方法及系统与流程

本发明属于短视频场景识别,尤其涉及基于循环生成模态补全的短视频场景识别方法及系统。
背景技术:
1、随着互联网的迅速发展,短视频这种媒体形式应运而生。随着短视频越来越多的出现在大众视野,短视频分类对于视频的分组展示及为用户的个性化推荐发挥着越来越重要的作用。短视频场景识别是短视频内容分析与理解的重要任务,对于短视频理解具有重要的辅助作用,是短视频理解中重要的研究方向。具体来说,场景识别是观察者对视野内环境的理解,包括环境中所包含的对象及对象之间的关系等。场景识别的重要应用包括行为检测、目标识别、特定场景下的异常检测、行人识别、视频检索等。除此之外,场景识别还可以辅助商品推荐、文字解说、辅助侦察、自动驾驶等。
2、常规的视频场景分类中多模态学习大多基于各模态数据都是完整的前提。而现实的短视频中,用户上传的数据不一定具有规范性,存在部分数据缺失的问题。目前已有部分多模态学习的工作考虑到部分模态数据缺失的问题,但通常是在数据预处理阶段通过0值填充或者近邻填充技术把缺失数据补充完整。然而,发明人发现,这种数据填充技术虽然可能把缺失数据补充完整,但补充的数据缺失实际语义,对提升短视频场景识别的性能较为有限。
技术实现思路
1、为克服上述现有技术的不足,本发明提供了基于循环生成模态补全的短视频场景识别方法及系统,利用短视频多模态数据之间的语义一致性,在短视频场景识别的过程中生成具有丰富语义的补全数据,进而提升短视频场景识别的性能。
2、为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
3、本发明第一方面提供了基于循环生成模态补全的短视频场景识别方法。
4、基于循环生成模态补全的短视频场景识别方法,包括以下步骤:
5、获取短视频中的多模态原始数据,将每个模态的原始数据分别划分为模态完整数据和模态缺失数据;
6、基于多个模态完整数据,学习多模态的一致性表示,得到每个模态完整数据对应的一致性语义表示;并基于每个模态的原始数据,学习各个模态的特定表示;
7、将每个模态完整数据对应的一致性语义表示和对应模态的特定表示相融合,得到缺失数据补全后的各模态数据;
8、将缺失数据补全后的各模态数据补充到多模态原始数据中,再次学习多模态的一致性表示,更新模态完整数据对应的一致性语义表示,并通过分类网络得到场景分类结果,完成场景识别。
9、本发明第二方面提供了基于循环生成模态补全的短视频场景识别系统。
10、基于循环生成模态补全的短视频场景识别系统,包括:
11、原始数据获取和划分模块,被配置为:获取短视频中的多模态原始数据,将每个模态的原始数据分别划分为模态完整数据和模态缺失数据;
12、特征表示模块,被配置为:基于多个模态完整数据,学习多模态的一致性表示,得到每个模态完整数据对应的一致性语义表示;并基于每个模态的原始数据,学习各个模态的特定表示;
13、融合模块,被配置为:将每个模态完整数据对应的一致性语义表示和对应模态的特定表示相融合,得到缺失数据补全后的各模态数据;
14、更新和识别模块,被配置为:将缺失数据补全后的各模态数据补充到多模态原始数据中,再次学习多模态的一致性表示,更新模态完整数据对应的一致性语义表示,并通过分类网络得到场景分类结果,完成场景识别。
15、本发明第三方面提供了计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本发明第一方面所述的基于循环生成模态补全的短视频场景识别方法中的步骤。
16、本发明第四方面提供了电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第一方面所述的基于循环生成模态补全的短视频场景识别方法中的步骤。
17、以上一个或多个技术方案存在以下有益效果:
18、(1)本发明提供了一种基于循环生成模态补全的短视频场景识别方法及系统,将短视频场景识别与缺失数据补全结合在一起,采用循环生成模态补全技术在场景识别的整体框架中加入缺失数据的循环生成,利用了短视频多模态数据之间的语义一致性,可以在短视频场景识别的过程中生成具有丰富语义的补全数据,进而提升短视频场景识别的性能。
19、(2)本发明考虑数据不完整的情况,将每个模态的原始数据分别划分为模态完整数据和模态缺失数据,基于多个模态完整数据学习多模态的一致性表示,得到每个模态完整数据对应的一致性语义表示,充分利用现有模态数据学习多模态的一致性表示,构建短视频场景识别模型,进而提升短视频场景识别性能,避免了现有技术中,在数据预处理阶段通过0值填充或者近邻填充技术把缺失数据进行简单补充以及造成的语义缺失问题。
20、(3)本发明基于每个模态的原始数据,学习各个模态的特定表示,将每个模态完整数据对应的一致性语义表示和对应模态的特定表示相融合,得到缺失数据补全后的各模态数据,将缺失数据补全后的各模态数据补充到多模态原始数据中,再次学习多模态的一致性表示,更新模态完整数据对应的一致性语义表示,采用了上述循环生成的方式对短视频中各模态缺失的数据进行补全,可以充分利用现有的多模态数据,从而充分挖掘短视频中各模态的语义一致性。
21、(4)本发明在生成阶段充分利用短视频各模态的独特信息与公共子空间中的一致性信息,使得生成的数据更符合实际。
22、本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
技术特征:
1.基于循环生成模态补全的短视频场景识别方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于循环生成模态补全的短视频场景识别方法,其特征在于:
3.如权利要求2所述的基于循环生成模态补全的短视频场景识别方法,其特征在于,所述多模态原始数据包括视觉模态原始数据、声音模态原始数据和文本模态原始数据。
4.如权利要求3所述的基于循环生成模态补全的短视频场景识别方法,其特征在于:
5.如权利要求4所述的基于循环生成模态补全的短视频场景识别方法,其特征在于,将每个模态完整数据对应的一致性语义表示和对应模态的特定表示相融合,表示为:
6.如权利要求2所述的基于循环生成模态补全的短视频场景识别方法,其特征在于,通过分类网络得到分类结果,具体为:
7.如权利要求5所述的基于循环生成模态补全的短视频场景识别方法,其特征在于,所述分类网络的损失函数为:
8.基于循环生成模态补全的短视频场景识别系统,其特征在于,包括:
9.计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的基于循环生成模态补全的短视频场景识别方法中的步骤。
10.电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于循环生成模态补全的短视频场景识别方法中的步骤。
技术总结
本发明提出了基于循环生成模态补全的短视频场景识别方法及系统,涉及短视频场景识别技术领域。包括将每个模态的原始数据分别划分为模态完整数据和模态缺失数据;基于多个模态完整数据学习多模态的一致性表示,得到每个模态完整数据对应的一致性语义表示;并基于每个模态的原始数据学习各个模态的特定表示;将每个模态完整数据对应的一致性语义表示和对应模态的特定表示相融合,将缺失数据补全后的各模态数据补充到多模态原始数据中,再次学习多模态的一致性表示,并通过分类网络得到场景分类结果。本发明利用短视频多模态数据之间的语义一致性,在短视频场景识别的过程中生成具有丰富语义的补全数据,进而提升短视频场景识别的性能。
技术研发人员:王呈周,杨继欣,陈秀西,于强,张德斌,邢福梅
受保护的技术使用者:山东省凯麟环保设备股份有限公司
技术研发日:
技术公布日:2024/11/18
技术研发人员:王呈周,杨继欣,陈秀西,于强,张德斌,邢福梅
技术所有人:山东省凯麟环保设备股份有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
