视频分割方法、服务器、存储介质及程序产品与流程

本申请涉及计算机技术,尤其涉及一种视频分割方法、服务器、存储介质及程序产品。
背景技术:
1、近年来,数字视频内容的激增凸显了高效内容导航和理解的重要性。由于视频的非结构化性质对寻求快速掌握或参考特定主题的用户构成了重大挑战,因此,视频主题分割(video topics segmentation,简称vts)已成为满足这些需求的重要工具。通过将视频划分为连贯的非重叠主题的视频段,vts不仅有助于直观地理解视频内容,而且还能够快速定位和访问感兴趣的视频段。这对于进一步开展各种视频理解任务尤其重要。
2、目前,基于聚类算法视频主题分割方法,通过将学习到的各片段的视觉特征和文本特征输入到聚类算法得到各片段的所属类别。但聚类过程的效果很大程度上依赖于所选算法和相关参数配置。此外聚类可能对输入特征敏感,且难以处理重叠或模糊的主题边界。特别是在主题间过渡平滑或相互关联度高的情形下,聚类算法可能难以准确分辨不同的主题。因此,该视频主题分割方法存在主题边界识别不准确的问题,视频主题分割结果的精准度低、质量差。
技术实现思路
1、本申请提供一种视频分割方法、服务器、存储介质及程序产品,用以解决主题边界识别不准确的问题,视频主题分割结果的精准度低、质量差的问题。
2、第一方面,本申请提供一种视频分割方法,包括:将待分割的视频数据切分成多个数据片段,所述数据片段包括文本片段和视频片段;将所述多个数据片段输入视频主题分割模型,通过所述视频主题分割模型提取各所述数据片段的文本特征和视觉特征,将各数据片段的文本特征和视觉特征融合,得到各数据片段的多模态融合特征,并根据各所述数据片段的多模态融合特征,预测各所述数据片段是否为主题边界,得到所述视频数据的主题边界;根据所述视频数据的主题边界,将所述视频数据分割成多个视频段,其中相邻视频段对应不同的主题。
3、第二方面,本申请提供一种视频分割方法,包括:获取录制的会议视频;将会议视频切分成多个数据片段,所述数据片段包括文本片段和视频片段;将所述多个数据片段输入视频主题分割模型,通过所述视频主题分割模型提取各所述数据片段的文本特征和视觉特征,并根据各所述数据片段的文本特征和视觉特征,预测各所述数据片段是否为主题边界,得到所述会议视频的主题边界;根据所述会议视频的主题边界,将所述视频数据分割成多个视频段,其中相邻视频段对应不同的主题;输出所述会议视频的所述多个视频段的信息。
4、第三方面,本申请提供一种服务器,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述服务器执行如前述任一方面所提供的方法。
5、第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如前述任一方面所提供的方法。
6、第五方面,本申请提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如前述任一方面所提供的方法。
7、本申请提供的视频分割方法、服务器、存储介质及程序产品,通过将待分割的视频数据切分成多个数据片段,通过视频主题分割模型分别提取各数据片段的单一模态的特征,包括文本模态的文本特征和视觉模态的视觉特征,将各数据片段的文本特征和视觉特征融合,可以在中间表示级别进行多模态信息的融合,可以更好地捕捉不同模态之间的关系和交互,获得各数据片段的更高质量的多模态融合特征;进一步地,根据各所述数据片段的多模态融合特征,预测各所述数据片段是否为主题边界,可以精准地预测视频数据的主题边界,提升了主题边界识别的精准度,从而提升了视频主题分割结果的精准度和质量。
技术特征:
1.一种视频分割方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述将待分割的视频数据切分成多个数据片段,包括:
3.根据权利要求1所述的方法,其特征在于,所述视频主题分割模型包括:文本编码模块、视觉编码模块、多模态融合模块和分类预测模块;
4.根据权利要求3所述的方法,其特征在于,所述多模态融合模块包括注意力层和映射层,
5.根据权利要求3所述的方法,其特征在于,所述多模态融合模块包括注意力层和混合专家层,
6.根据权利要求5所述的方法,其特征在于,所述混合专家层包括:门控模块、合并模块和多个专家模块;
7.根据权利要求1-6中任一项所述的方法,其特征在于,还包括:
8.根据权利要求1-6中任一项所述的方法,其特征在于,所述视频主题分割模型的训练过程,包括:
9.根据权利要求8所述的方法,其特征在于,在预训练阶段,使用主题边界未知的视频样本,构建带有伪标注主题边界的视频样本,包括:
10.根据权利要求9所述的方法,其特征在于,所述将主题边界未知的视频样本切分成多个切分片段,包括:
11.根据权利要求9所述的方法,其特征在于,在预训练阶段和微调阶段,使用带有主题边界的视频样本,对待训练的视频主题分割模型进行训练,包括:
12.根据权利要求11所述的方法,其特征在于,所述将各样本片段的文本特征和视觉特征融合,得到各样本片段的多模态融合特征,包括:
13.根据权利要求12所述的方法,其特征在于,所述预训练阶段和所述微调阶段,还包括:
14.根据权利要求11所述的方法,其特征在于,所述微调阶段,还包括:
15.根据权利要求11所述的方法,其特征在于,所述视频主题分割模型的多模态融合模块包括注意力层和混合专家层,所述预训练阶段和所述微调阶段,还包括:
16.一种视频分割方法,其特征在于,包括:
17.一种服务器,其特征在于,包括:
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-16任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-16任一项所述的方法。
技术总结
本申请提供一种视频分割方法、服务器、存储介质及程序产品,本申请的方法,通过将待分割的视频数据切分成多个数据片段,通过视频主题分割模型分别提取各数据片段的单一模态的特征,包括文本模态的文本特征和视觉模态的视觉特征,将各数据片段的文本特征和视觉特征融合,可以在中间表示级别进行多模态信息的融合,可以更好地捕捉不同模态之间的关系和交互,获得各数据片段的更高质量的多模态融合特征;进一步地,根据各所述数据片段的多模态融合特征,预测各所述数据片段是否为主题边界,可以精准地预测视频数据的主题边界,提升了主题边界识别的精准度,从而提升了视频主题分割结果的精准度和质量。
技术研发人员:于海,邓憧,张庆林,刘嘉庆,陈谦,王雯
受保护的技术使用者:阿里巴巴(中国)有限公司
技术研发日:
技术公布日:2024/11/28
技术研发人员:于海,邓憧,张庆林,刘嘉庆,陈谦,王雯
技术所有人:阿里巴巴(中国)有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
