基于大语言模型的智能眼镜流式语音对话交互系统及方法与流程

本技术涉及大语言模型交互,具体是涉及一种基于大语言模型的智能眼镜流式语音对话交互系统及方法。
背景技术:
1、随着人工智能技术的快速发展,语音交互已经成为人机交互的重要方式之一。智能眼镜作为新兴的可穿戴设备,结合了 ar/vr 技术,为用户提供丰富的视觉信息展示能力。
2、然而,现有的智能眼镜在语音交互方面多存在识别率低、响应速度慢、对话不自然等问题,虽然部分智能眼镜在语言交互方面进行模型的优化,但仍然难以满足用户对于高效、准确、流畅交互的需求。因此,开发一种基于大语言模型的智能眼镜流式语音对话交互系统,实现高效、准确、流畅的语音交互体验具有重要意义。
技术实现思路
1、为了解决用户与智能眼镜语言交互过程中存在的识别率低、响应速度慢、对话不自然等问题,本技术提供一种基于大语言模型的智能眼镜流式语音对话交互系统及方法。
2、第一方面,本技术提供一种基于大语言模型的智能眼镜流式语音对话交互系统,包括:
3、数据采集模块,用于采集用户与智能眼镜语音对话的交互信息、用户与智能眼镜语音对话交互过程中智能眼镜资源状况信息;所述交互信息包括用户语音信息、智能眼镜播放语音信息、用户视觉信息以及智能眼镜展示视觉信息;
4、数据转换模块,用于采用实时流式处理技术对采集的交互信息进行处理,按照处理后的交互信息的类型自适应选择对应类型的交互信息识别模型,将识别到的内容转化为文本信息;
5、数据处理模块,用于接收文本信息并利用深度学习算法获取交互信息的对话内容类型,所述对话内容类型包括:常见知识交互型、专业知识交互型及复杂推理交互型,按照预设评分规则计算当前资源状况充裕程度和当前文本信息中对话内容复杂程度对应匹配评分的加权综合评分;所述预设评分规则包括:基于资源状况信息所处预设资源状况充裕程度范围匹配对应评分、基于识别的对话内容类型所属预设对话内容复杂程度匹配对应评分;根据获得的综合评分所在预设阈值范围对应匹配加载不同模型配置的内置于智能眼镜的大语言模型;所述不同模型配置的大语言模型为根据模型规模、参数数量及计算能力划分的不同量级配置的大语言模型;利用匹配的大语言模型对文本信息进行意图识别,并结合上下文生成回复文本;
6、数据交互模块,将生成的回复文本转化为语音输出;
7、数据反馈模块,用于接收反馈的用户交互满意度,判断用户交互满意度是否达到预设满意度的结果,当未达到用户满意度时,通过增量训练完成对交互信息识别模型或大语言模型的模型优化直至用户交互满意度达到预设满意度。
8、通过采用上述方案,采用实时流式处理技术与自适应交互信息识别技术,对用户的连续语音进行分段适应性的交互信息的识别,减少延迟并提高识别效率;结合实际交互的资源状况与用户需求,适应性的匹配加载相应模型配置的大语言模型,准确的进行意图解析,实现更为及时的响应;采集多模态交互信息,并利用大语言模型的记忆能力,结合上下文实现跨轮次的上下文理解,以生成自然的回复文本;利用用户反馈不断优化模型,提升对话的自然度,为用户提供更加丰富、直观的交互体验;
9、优选的,所述数据处理模块,还用于接收文本信息计算文本信息的数据量是否大于预设数据量,若大于预设数据量,则将部分文本内容传输至边缘设备,利用边缘设备的大语言模型生成回复文本并回传至智能眼镜。
10、通过采用上述方案,考虑到部分语音分段的数据量较大,单纯的应用内置的大模型响应的时间会过久,将部分交互信息传送至边缘设备,利用边缘计算辅助快速响应。
11、优选的,所述数据处理模块,还用于接收文本信息并计算文本信息的数据量大于预设数据量后,对接收的文本信息进行自然语言处理提取关键词,判断提取的关键词是否为敏感信息,根据判断结果将不涉及敏感信息的部分文本信息传输至边缘设备。
12、通过采用上述方案,考虑到传送至边缘计算可能会存在数据的安全隐患,进而对于文本信息进行敏感信息的判断,选择不涉及敏感信息的部分文本信息传输至边缘设备,保障用户数据安全。
13、优选的,所述数据处理模块,还用于统计自接收文本信息起至生成回复文本的时长,当统计的时长超出预设时长时,则切换量级配置更高的大语言模型,利用切换后的大语言模型生成回复文本。
14、通过采用上述方案,实时监测回复文本生成超时的情况,及时的切换配置更好的大语言模型以更好的生成回复文本,避免迟迟无法生成回复文本,提升用户交互体验。
15、优选的,所述数据交互模块,还用于获取用户习惯或用户需求的交互语调与语速并将其作为目标交互的语调与语速;利用语音合成技术按照目标交互的语调与语速将生成的回复文本转化为自然语音输出。
16、通过采用上述方案,考虑用户画像或用户需求,生成符合用户个性化需求的回复内容,提升用户交互体验。
17、优选的,所述数据交互模块,还用于将生成的回复文本转化为语音输出的同时,通过智能眼镜展示回复文本预先关联的视觉信息。
18、通过采用上述方案,除语音回复外,在智能眼镜的显示屏上展示相关文本或
19、视觉内容,进一步增强用户的多感官交互体验。
20、优选的,还包括:
21、数据预测与预加载块,还用于利用深度学习算法根据历史用户与智能眼镜流式语音对话的交互信息预测下一时段的交互信息;确定下一时段智能眼镜资源状况信息;结合预测的下一时段的交互信息与下一时段的智能眼镜资源状况信息预先匹配对应的大语言模型,于获取下一时段的交互信息且接收到的交互信息与预测的下一时段的交互信息相似度大于预设相似度时,提前加载预先匹配的大语言模型。
22、通过采用上述方案,利用历史数据和机器学习算法预测未来的资源状况和用户需求并根据预测结果,提前加载或切换到适合的模型配置,以减少等待时间和提高响应速度。
23、第二方面,本技术提供一种基于大语言模型的智能眼镜流式语音对话交互方法,包括:
24、采集用户与智能眼镜语音对话的交互信息、用户与智能眼镜语音对话交互过程中智能眼镜资源状况信息;所述交互信息包括用户语音信息、智能眼镜播放语音信息、用户视觉信息及智能眼镜展示视觉信息;
25、采用实时流式处理技术对采集的交互信息进行处理,按照处理后的交互信息的类型自适应选择对应类型的交互信息识别模型,将识别到的内容转化为文本信息;
26、接收文本信息并利用深度学习算法获取交互信息的对话内容类型,所述对话内容类型包括:常见知识交互型、专业知识交互型及复杂推理交互型,按照预设评分规则计算当前资源状况充裕程度和当前文本信息中对话内容复杂程度对应匹配评分的加权综合评分;所述预设评分规则包括:基于资源状况信息所处预设资源状况充裕程度范围匹配对应评分、基于识别的对话内容类型所属预设对话内容复杂程度匹配对应评分;根据获得的综合评分所在预设阈值范围对应匹配加载不同模型配置的内置于智能眼镜的大语言模型;所述不同模型配置的大语言模型为根据模型规模、参数数量及计算能力划分的不同量级配置的大语言模型;利用匹配的大语言模型对文本信息进行意图识别,并结合上下文生成回复文本;
27、将生成的回复文本转化为语音输出;
28、接收反馈的用户交互满意度,判断用户交互满意度是否达到预设满意度的结果,当未达到用户满意度时,通过增量训练完成对交互信息识别模型或大语言模型的模型优化直至用户交互满意度达到预设满意度。
29、通过采用上述方案,集成高效的语音识别、自然语言处理、反馈机制与模型动态机制,实现高效、准确、流畅的用户与智能眼镜的语音交互。
30、第三方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的方法。
31、第四方面,本技术提供一种计算机设备,所述计算机设备包括存储器、处理器及在所述存储器上存储并可运行的程序,所述程序被处理器执行时实现如上述方法的步骤。
32、综上,本技术具有以下有益效果为:
33、1、采用实时流式处理技术与自适应交互信息识别技术,对用户的连续语音进行分段适应性的交互信息的识别,减少延迟并提高识别效率;
34、2、结合实际交互的资源状况与用户需求,适应性的匹配加载相应模型配置的大语言模型,准确的进行意图解析,实现更为及时的响应;
35、3、采集多模态交互信息以提升用户意图识别准确度,利用大语言模型的记忆能力,结合上下文理解,生成更为自然的回复文本;
36、4、采集用户反馈并以此优化语音识别、自然语言处理以及语音生成模块的表现,提升对话的自然度,为用户提供更加丰富、直观的交互体验。
技术研发人员:王勇,唐钱进,张罗
技术所有人:南京魔数团信息科技有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
