一种基于大模型的教学视频理解的方法与流程

2026-03-01 11:40:06 518次浏览

本发明属于智慧教育和人工智能，具体一种涉及基于大模型的教学视频理解的方法。

背景技术：

1、目前有基于3d卷积的视频理解方法，通过使用多个3d卷积层，逐层提取并组合更复杂的时空特征，最后整合卷积层产生的特征，映射到视频内容的语义空间。另外有基于动态时空图的视频理解方法，将视频数据输送到已训练好的网络模型中，以输出视频理解结果等。这些方法对于视频中的场景、时序等有较好的识别效果，但针对教学视频无法理解详细的语言或文字内容。

2、同时，现阶段不存在将视频作为直接输入的多模态大模型，均需要经过人为提取视频帧图像后进行输入问答，但此方法丢失视频中的语音和时序信息，且理解程度无法达到语言或文字内容的级别，无法在教学视频理解中应用。并且，近年来随着教育的数字化转型，课堂内容的视频化已成为常态。为了确保有效的学习和教学管理，对这些教学视频的深入理解和分析变得尤为重要。然而，现有的课堂视频分析方法往往需要大量的手动操作，效率低下，并且难以实时响应。

3、为此，设计一种基于大模型的教学视频理解的方法，从而克服上述问题。

技术实现思路

1、本发明的目的在于克服现有技术存在的不足，而提供一种基于大模型的教学视频理解的方法。本发明的这种方法能够在复杂的真实教学场景中稳定工作，通过自动化的方式提升课堂视频的使用价值，增强教学质量的监控，并为教学和学习提供精准的辅助。

2、本发明是通过如下的技术方案予以实现的：一种基于大模型的教学视频理解的方法，所述方法包括如下步骤：

3、1）建立大模型，给大模型进行训练和微调；

4、2）采集视频中的信息，该信息包括图片信息和语音信息；

5、3）将语音信息和图片信息单独处理，语音和图片信息均转换成文字信息；

6、4）分段理解生成；

7、5）摘要生成；

8、6）应用输出结果。

9、作为优选：所述步骤1）中建立大模型，该大模型利用开源大模型或基于开源模型进一步微调，也可以根据具体教学环境的需要和数据集来训练一个定制的大模型，该大模型均为常规模型。

10、作为优选：所述步骤3）语音信息处理方法为：

11、a.语音分离与预处理：利用现有的标准库将视频中的语言进行分离，采样频率统一转换为16khz，通过算法模型将语音中存在的噪声和空白部分进行过滤；

12、b．语音转录模型：利用开源的语音转录算法模型进行转录，或采用开源算法，自行采集的课堂语音数据，标注完成后训练自己的模型；

13、c．转录文字处理：转录的文字以时间戳的排序保存，并将转录的文字进行清洗，如重复文字、错别字、口头禅等进行去除和优化。

14、作为优选：所述步骤3）文字信息处理方法为：

15、a.文字信息的提取

16、b. 转录文字处理：转录的文字以时间戳的排序保存，并将转录的文字进行清洗，如重复文字、错别字、口头禅等进行去除和优化。

17、作为优选：所述步骤4）中分段理解生成的具体方法为：将清洗后的文字按照时间戳的方式依次输入大模型，同时设置可以手动更换且多种语言的大模型提示词，大模型将根据定制化的提示词进行深度内容分析，并产出对应于视频内容的理解结果，将大模型输出的结果与时间戳相结合，确保理解的结果能够精准对应到视频的具体内容和时间节点。

18、作为优选：所述步骤5）中摘要生成具体方法为：在分段理解执行到大于2段后，将2段的理解结果输入给大模型，设置特定提示词，总结生成2段结果的简要理解；再将该理解内容与第3段内容共同输入大模型理解，以此类推，即可得到整体课堂视频内容的摘要。

19、作为优选：所述步骤6）中应用输出结果具体方法为：完成对课堂视频内容理解的所有步骤后，将大模型得到的理解结果以及其相关时间戳对课堂视频进行标注，支持教师和学生直观理解和复习课堂内容。

20、本发明所提供的基于大模型的教学视频理解的方法，与现有的视频理解技术相比，其有益效果如下：

21、1.结合定制的大模型进行教学内容的深度分析，能够准确抽象出教学视频中的关键知识点和内容。在对多样化教材和教学风格的实际视频测试中，系统理解全局内容和概括重点信息的准确度达到了90%及以上。

22、2.通过系统分析出的重点时刻标记，学生可以直接回放关键部分进行复习，极大提高了复习的针对性和效率。实际应用中，学生的课后复习效率提高了约50%。

23、3.凭借高准确率的内容理解和个性化反馈，本系统非常适合用于远程教育和自适应学习平台，它能够给在线学习带来更加互动和定制化的体验；同时满足听力障碍人士的快速匹配学习重点，有着广泛的推广和应用前景。

技术特征：

1.一种基于大模型的教学视频理解的方法，其特征在于：所述方法包括如下步骤：

2.根据权利要求1所述的基于大模型的教学视频理解的方法，其特征在于：所述步骤1）中建立大模型，该大模型利用开源大模型或基于开源模型进一步微调，也可以根据具体教学环境的需要和数据集来训练一个定制的大模型，该大模型均为常规模型。

3.根据权利要求1所述的基于大模型的教学视频理解的方法，其特征在于：所述步骤3）语音信息处理方法为：

4.根据权利要求1所述的基于大模型的教学视频理解的方法，其特征在于：所述步骤3）文字信息处理方法为：

5.根据权利要求1所述的基于大模型的教学视频理解的方法，其特征在于：所述步骤4）中分段理解生成的具体方法为：将清洗后的文字按照时间戳的方式依次输入大模型，同时设置可以手动更换且多种语言的大模型提示词，大模型将根据定制化的提示词进行深度内容分析，并产出对应于视频内容的理解结果，将大模型输出的结果与时间戳相结合，确保理解的结果能够精准对应到视频的具体内容和时间节点。

6.根据权利要求1所述的基于大模型的教学视频理解的方法，其特征在于：所述步骤5）中摘要生成具体方法为：在分段理解执行到大于2段后，将2段的理解结果输入给大模型，设置特定提示词，总结生成2段结果的简要理解；再将该理解内容与第3段内容共同输入大模型理解，以此类推，即可得到整体课堂视频内容的摘要。

7.根据权利要求1所述的基于大模型的教学视频理解的方法，其特征在于：所述步骤6）中应用输出结果具体方法为：完成对课堂视频内容理解的所有步骤后，将大模型得到的理解结果以及其相关时间戳对课堂视频进行标注，支持教师和学生直观理解和复习课堂内容。

技术总结
本发明为一种基于大模型的教学视频理解的方法，所述方法包括如下步骤：1）建立大模型，给大模型进行训练和微调；2）采集视频中的信息，该信息包括图片信息和语音信息；3）将语音信息和图片信息单独处理，语音和图片信息均转换成文字信息；4）分段理解生成；5）摘要生成；6）应用输出结果。本发明能够在复杂的真实教学场景中稳定工作，通过自动化的方式提升课堂视频的使用价值，增强教学质量的监控，并为教学和学习提供精准的辅助。

技术研发人员：李玮,李强,马亮,李向阳,沈华飞
受保护的技术使用者：德清阿尔法创新研究院
技术研发日：
技术公布日：2024/12/10

文档序号 : 【 40282270 】

技术研发人员：李玮,李强,马亮,李向阳,沈华飞
技术所有人：德清阿尔法创新研究院

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

李玮丨李强丨马亮丨李向阳丨沈华飞丨德清阿尔法创新研究院

一种正火型超高温熔盐储罐用低合金容器钢板及其制造方法与流程一株金耳菌株DZHSSJE001及其工厂化栽培方法与流程