首页  专利技术  电子电路装置的制造及其应用技术

一种基于视频问答的短视频标注方法与流程

2025-06-21 10:20:07 491次浏览

技术特征:

1.一种基于视频问答的短视频标注方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的一种基于视频问答的短视频标注方法,其特征在于:所述s1中短视频素材类型包括动作类、静态类、访谈类以及风景类和安全监控类视频,将上述不同类型视频时长划分为多个时间段,并根据视频类型设定基础帧提取频率,同时根据视频时长动态调整帧提取频率,随后计算每段时间的帧提取间隔。

3.根据权利要求2所述的一种基于视频问答的短视频标注方法,其特征在于:所述基础帧提取频率设定,根据视频类型设定帧提取频率:

4.根据权利要求2所述的一种基于视频问答的短视频标注方法,其特征在于:所述动态帧提取频率计算,结合基础帧提取频率和时长调整系数,计算动态帧提取频率:

5.根据权利要求2所述的一种基于视频问答的短视频标注方法,其特征在于:所述s2中:对于提取帧,采用fasterr-cnn对象检测模型对每个视频解码,并根据设定的帧提取频率提取帧序列,将视频帧输入模型,获取检测结果包括检测到的对象边界框和类别标签,帧对象检测配合卷积网络神经提取每个检测到的对象的高位特征表示,使用fasterr-cnn模型的骨干网络直接提取特征表示;

6.根据权利要求5所述的一种基于视频问答的短视频标注方法,其特征在于:所述多模态特征融合中,将视觉对象特征和场景文本特征组合成多模态特征向量,然后多模态特征向量序列化,作为输入数据供多模态变压器模型使用,其次通过多模态变压器处理,对输入的多模态特征向量序列进行位置编码,使用多模态变压器处理输入的多模态特征向量序列,提取不同模态之间的关联特征。

7.根据权利要求6所述的一种基于视频问答的短视频标注方法,其特征在于:所述视觉对象特征包括:使用fasterr-cnn模型从每个视频帧中提取视觉对象特征,具体步骤如下:

8.根据权利要求7所述的一种基于视频问答的短视频标注方法,其特征在于:所述特征序列化:将多模态特征向量进行序列化,形成多模态特征向量序列,作为输入到多模态变压器模型中进行处理,具体步骤如下:

9.根据权利要求8所述的一种基于视频问答的短视频标注方法,其特征在于:将其输入到多模态变压器模型中处理,按照以下步骤进行,主要分为两个部分:多模态特征向量序列化以及通过多模态变压器处理输入的多模态特征向量序列;

10.根据权利要求9所述的一种基于视频问答的短视频标注方法,其特征在于:所述根据视频时长和帧率提取视频帧,设定视频的总帧数为n,帧率为f,则第i帧的视频帧可以表示为:


技术总结
本发明涉及视频问答技术领域,具体为一种基于视频问答的短视频标注方法,包括如下步骤:S1、从多个短视频平台按照不同视频类型,收集短视频素材,针对不同类型视频结合每个视频的时长设定每个类型视频提取帧频率;S2、针对每个视频帧提取视觉对象和场景文本的高维特征表示,利用多模态变压器提取不同模态的特征向量序列;S3、通过预训练的深度学习模型,识别视频帧中的物体结合场景检测模型进一步识别视频中场景变化。本发明提供了一种基于视频问答的短视频标注方法,通过多模态数据采集、预处理、语义分析、多模态融合和桥段分割等步骤,实现了对影视内容的精准分割。该系统能够在复杂的影视内容中准确识别语义边界,具有广泛的应用前景。

技术研发人员:解小虎
受保护的技术使用者:北京官匠空间科技有限公司
技术研发日:
技术公布日:2024/11/18
文档序号 : 【 40051042 】

技术研发人员:解小虎
技术所有人:北京官匠空间科技有限公司

备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
解小虎北京官匠空间科技有限公司
一种感知闭环的自适应MTI对消处理方法与流程 一种基于LabVIEW的EPS测试系统及测试方法与流程
相关内容