首页  专利技术  其他产品的制造及其应用技术

一种基于大模型的教学视频理解的方法与流程

2026-03-01 11:40:06 437次浏览
一种基于大模型的教学视频理解的方法与流程

本发明属于智慧教育和人工智能,具体一种涉及基于大模型的教学视频理解的方法。


背景技术:

1、目前有基于3d卷积的视频理解方法,通过使用多个3d卷积层,逐层提取并组合更复杂的时空特征,最后整合卷积层产生的特征,映射到视频内容的语义空间。另外有基于动态时空图的视频理解方法,将视频数据输送到已训练好的网络模型中,以输出视频理解结果等。这些方法对于视频中的场景、时序等有较好的识别效果,但针对教学视频无法理解详细的语言或文字内容。

2、同时,现阶段不存在将视频作为直接输入的多模态大模型,均需要经过人为提取视频帧图像后进行输入问答,但此方法丢失视频中的语音和时序信息,且理解程度无法达到语言或文字内容的级别,无法在教学视频理解中应用。并且,近年来随着教育的数字化转型,课堂内容的视频化已成为常态。为了确保有效的学习和教学管理,对这些教学视频的深入理解和分析变得尤为重要。然而,现有的课堂视频分析方法往往需要大量的手动操作,效率低下,并且难以实时响应。

3、为此,设计一种基于大模型的教学视频理解的方法,从而克服上述问题。


技术实现思路

1、本发明的目的在于克服现有技术存在的不足,而提供一种基于大模型的教学视频理解的方法。本发明的这种方法能够在复杂的真实教学场景中稳定工作,通过自动化的方式提升课堂视频的使用价值,增强教学质量的监控,并为教学和学习提供精准的辅助。

2、本发明是通过如下的技术方案予以实现的:一种基于大模型的教学视频理解的方法,所述方法包括如下步骤:

3、1)建立大模型,给大模型进行训练和微调;

4、2)采集视频中的信息,该信息包括图片信息和语音信息;

5、3)将语音信息和图片信息单独处理,语音和图片信息均转换成文字信息;

6、4)分段理解生成;

7、5)摘要生成;

8、6)应用输出结果。

9、作为优选:所述步骤1)中建立大模型,该大模型利用开源大模型或基于开源模型进一步微调,也可以根据具体教学环境的需要和数据集来训练一个定制的大模型,该大模型均为常规模型。

10、作为优选:所述步骤3)语音信息处理方法为:

11、a.语音分离与预处理:利用现有的标准库将视频中的语言进行分离,采样频率统一转换为16khz,通过算法模型将语音中存在的噪声和空白部分进行过滤;

12、b.语音转录模型:利用开源的语音转录算法模型进行转录,或采用开源算法,自行采集的课堂语音数据,标注完成后训练自己的模型;

13、c.转录文字处理:转录的文字以时间戳的排序保存,并将转录的文字进行清洗,如重复文字、错别字、口头禅等进行去除和优化。

14、作为优选:所述步骤3)文字信息处理方法为:

15、a.文字信息的提取

16、b. 转录文字处理:转录的文字以时间戳的排序保存,并将转录的文字进行清洗,如重复文字、错别字、口头禅等进行去除和优化。

17、作为优选:所述步骤4)中分段理解生成的具体方法为:将清洗后的文字按照时间戳的方式依次输入大模型,同时设置可以手动更换且多种语言的大模型提示词,大模型将根据定制化的提示词进行深度内容分析,并产出对应于视频内容的理解结果,将大模型输出的结果与时间戳相结合,确保理解的结果能够精准对应到视频的具体内容和时间节点。

18、作为优选:所述步骤5)中摘要生成具体方法为:在分段理解执行到大于2段后,将2段的理解结果输入给大模型,设置特定提示词,总结生成2段结果的简要理解;再将该理解内容与第3段内容共同输入大模型理解,以此类推,即可得到整体课堂视频内容的摘要。

19、作为优选:所述步骤6)中应用输出结果具体方法为:完成对课堂视频内容理解的所有步骤后,将大模型得到的理解结果以及其相关时间戳对课堂视频进行标注,支持教师和学生直观理解和复习课堂内容。

20、本发明所提供的基于大模型的教学视频理解的方法,与现有的视频理解技术相比,其有益效果如下:

21、1.结合定制的大模型进行教学内容的深度分析,能够准确抽象出教学视频中的关键知识点和内容。在对多样化教材和教学风格的实际视频测试中,系统理解全局内容和概括重点信息的准确度达到了90%及以上。

22、2.通过系统分析出的重点时刻标记,学生可以直接回放关键部分进行复习,极大提高了复习的针对性和效率。实际应用中,学生的课后复习效率提高了约50%。

23、3.凭借高准确率的内容理解和个性化反馈,本系统非常适合用于远程教育和自适应学习平台,它能够给在线学习带来更加互动和定制化的体验;同时满足听力障碍人士的快速匹配学习重点,有着广泛的推广和应用前景。



技术特征:

1.一种基于大模型的教学视频理解的方法,其特征在于:所述方法包括如下步骤:

2.根据权利要求1所述的基于大模型的教学视频理解的方法,其特征在于:所述步骤1)中建立大模型,该大模型利用开源大模型或基于开源模型进一步微调,也可以根据具体教学环境的需要和数据集来训练一个定制的大模型,该大模型均为常规模型。

3.根据权利要求1所述的基于大模型的教学视频理解的方法,其特征在于:所述步骤3)语音信息处理方法为:

4.根据权利要求1所述的基于大模型的教学视频理解的方法,其特征在于:所述步骤3)文字信息处理方法为:

5.根据权利要求1所述的基于大模型的教学视频理解的方法,其特征在于:所述步骤4)中分段理解生成的具体方法为:将清洗后的文字按照时间戳的方式依次输入大模型,同时设置可以手动更换且多种语言的大模型提示词,大模型将根据定制化的提示词进行深度内容分析,并产出对应于视频内容的理解结果,将大模型输出的结果与时间戳相结合,确保理解的结果能够精准对应到视频的具体内容和时间节点。

6.根据权利要求1所述的基于大模型的教学视频理解的方法,其特征在于:所述步骤5)中摘要生成具体方法为:在分段理解执行到大于2段后,将2段的理解结果输入给大模型,设置特定提示词,总结生成2段结果的简要理解;再将该理解内容与第3段内容共同输入大模型理解,以此类推,即可得到整体课堂视频内容的摘要。

7.根据权利要求1所述的基于大模型的教学视频理解的方法,其特征在于:所述步骤6)中应用输出结果具体方法为:完成对课堂视频内容理解的所有步骤后,将大模型得到的理解结果以及其相关时间戳对课堂视频进行标注,支持教师和学生直观理解和复习课堂内容。


技术总结
本发明为一种基于大模型的教学视频理解的方法,所述方法包括如下步骤:1)建立大模型,给大模型进行训练和微调;2)采集视频中的信息,该信息包括图片信息和语音信息;3)将语音信息和图片信息单独处理,语音和图片信息均转换成文字信息;4)分段理解生成;5)摘要生成;6)应用输出结果。本发明能够在复杂的真实教学场景中稳定工作,通过自动化的方式提升课堂视频的使用价值,增强教学质量的监控,并为教学和学习提供精准的辅助。

技术研发人员:李玮,李强,马亮,李向阳,沈华飞
受保护的技术使用者:德清阿尔法创新研究院
技术研发日:
技术公布日:2024/12/10
文档序号 : 【 40282270 】

技术研发人员:李玮,李强,马亮,李向阳,沈华飞
技术所有人:德清阿尔法创新研究院

备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
李玮李强马亮李向阳沈华飞德清阿尔法创新研究院
一种正火型超高温熔盐储罐用低合金容器钢板及其制造方法与流程 一株金耳菌株DZHSSJE001及其工厂化栽培方法与流程
相关内容