首页  专利技术  其他产品的制造及其应用技术

一种车机端语音播报的处理方法、装置和汽车与流程

2026-03-22 15:00:01 355次浏览
一种车机端语音播报的处理方法、装置和汽车与流程

本发明涉及车技语音播报,具体涉及一种车机端语音播报的处理方法、装置和汽车。


背景技术:

1、由大模型技术生成的语音包因为情感更加饱满、音色和自然度更加接近真人而被越发广泛的应用在生活中,各种ai语音包、ai陪聊软件已深受用户喜欢,逐渐形成一条具备巨大潜在市场价值的新赛道。但是由于大模型生成语音包并实时播报消耗的资源较高,特别是在高并发使用场景,投入较高的成本让车企不敢冒险;而且大模型需要在云端生成,会有1s-2s的延迟,这也会给用户体验带来一定的影响。因此大模型生成语音包未在车载领域正式量产使用,使得车机端无法高效提供更高质量的语音播报。


技术实现思路

1、有鉴于此,本发明提供了一种车机端语音播报的处理方法、装置和汽车,以解决车机端无法高效提供高质量语音播报的问题。

2、第一方面,本发明提供了一种车机端语音播报的处理方法,方法包括:

3、获取用户的语音指令,并根据语音指令确定用户指令意图;

4、根据用户指令意图判断语音指令所属功能域的落域类型,并根据功能域标签约束规则确定落域类型的预设标签;

5、基于预设标签判断是否调用云端预先构建的语言生成模型,以根据用户指令意图进行语音播报。

6、本发明实施例提供的车机端语音播报的处理方法,通过根据用户的语音指令确定用户指令意图,根据用户指令意图判断语音指令所属功能域的落域类型,并根据功能域标签约束规则确定对应的预设标签,基于预设标签判断是否调用云端预先构建的语言生成模型以根据用户指令意图进行语音播报。本发明通过对功能域进行标签约束,能够根据用户指令意图确定是否需要调用语言生成模型进行语音播报,在无需调用时实现高效语音播报,在需要调用时提供高质量语音播报,从而在车机端为用户提供高效、高质量语音播报,提高用户体验感和满意度。

7、在一种可选的实施方式中,根据语音指令确定用户指令意图,包括:对语音指令进行语音识别,得到语音文本信息;基于预设文本匹配规则对语音文本信息进行解析,确定用户指令意图。

8、本发明通过对用户语音进行意图判断,能够准确掌握用户需求,从而为用户提供精准服务,提高用户满意度。

9、在一种可选的实施方式中,根据用户指令意图判断语音指令所属功能域的落域类型,并根据功能域标签约束规则确定落域类型的预设标签,包括:基于用户指令意图在车机端搭载的车机功能应用中筛选与语音指令对应的预设应用;根据预设应用确定语音指令所属功能域的落域类型;获取预先设定的功能域标签约束规则,并根据功能域标签约束规则确定落域类型的预设标签,预设标签包括:固定回复标签和实时回复标签。

10、本发明通过对不同功能域进行标签约束,能够从使用场景出发,对回复内容进行区分,实现部分高频、重复场景为固定回复,其余场景为实时回复,同时满足语音播报的高效和高质量,降低资源消耗以及高延迟带来的体验问题。

11、在一种可选的实施方式中,基于预设标签判断是否需要调用云端预先构建的语言生成模型,以根据用户指令意图进行语音播报,包括:若预设标签为固定回复标签,则根据用户指令意图和本地语音资源判断本地语音资源中是否包含对应的第一语音包,若包含,则对第一语音包进行播报;若不包含,则向云端发送资源调用指令,以使云端根据用户指令意图和云端语音资源判断云端语音资源中是否包含对应的第二语音包,若包含,则对云端发送的第二语音包进行播报,并将第二语音包存储至本地语音资源;若不包含,则向云端发送模型调用指令,以使云端基于用户指令意图和语言生成模型生成对应的第三语音包,并对云端发送的第三语音包进行播报,将第三语音包存储至本地语音资源。

12、本发明基于语言生成模型对部分高频固定回复进行先缓存再播报,能够直接调用本地语音资源进行高效语音播报,同时基于云端语言生成模型不断丰富本地语音资源,为家用提供高质量语音播报,既能够降低车机端的资源消耗,也能够改善语音生成时延带来的体验问题。

13、在一种可选的实施方式中,基于预设标签判断是否需要调用云端预先构建的语言生成模型,以根据用户指令意图进行语音播报,还包括:若预设标签为实时回复标签,则向云端发送模型调用指令,以使云端基于用户指令意图和语言生成模型生成对应的第四语音包,并对云端发送的第四语音包进行播报。

14、本发明通过在实时回复场景下进行语音生成播报,能够满足用户的使用需求,在车机端有限资源条件下为用户提供高质量语音播报,提高用户语音交互体验感。

15、第二方面,本发明提供了一种车机端语音播报的处理装置,装置包括:意图确定模块,用于获取用户的语音指令,并根据语音指令确定用户指令意图;标签判断模块,用于根据用户指令意图判断语音指令所属功能域的落域类型,并根据功能域标签约束规则确定落域类型的预设标签;语音播报模块,用于基于预设标签判断是否需要调用云端预先构建的语言生成模型,以根据用户指令意图进行语音播报。

16、第三方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的车机端语音播报的处理方法。

17、第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的车机端语音播报的处理方法。

18、第五方面,本发明提供了一种计算机程序产品,包括计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的车机端语音播报的处理方法。

19、第六方面,本发明提供了一种汽车,包括:存储单元,用于存储本地语音资源;控制器,与存储单元进行连接,用于执行上述第一方面或其对应的任一实施方式的车机端语音播报的处理方法。

20、本发明的有益效果:

21、(1)本发明通过在云端部署语音生成模型,能够根据用户的语音指令生成情感更加饱满、音色和自然度更加接近真人的回复语,满足与用户的高质量语音交互;

22、(2)本发明通过将语音指令所属功能域进行标签约束,能够从使用场景出发,对回复语内容进行区分,部分高频、重复、常用的固定回复语采用先缓存再播报,提高语音回复的播报速度,同时降低语音播报对车机端的资源消耗。



技术特征:

1.一种车机端语音播报的处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述语音指令确定用户指令意图,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述用户指令意图判断所述语音指令所属功能域的落域类型,并根据功能域标签约束规则确定所述落域类型的预设标签,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述预设标签判断是否需要调用云端预先构建的语言生成模型,以根据所述用户指令意图进行语音播报,包括:

5.根据权利要求3所述的方法,其特征在于,所述基于所述预设标签判断是否需要调用云端预先构建的语言生成模型,以根据所述用户指令意图进行语音播报,还包括:

6.一种车机端语音播报的处理装置,其特征在于,所述装置包括:

7.一种计算机设备,其特征在于,包括:

8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至5中任一项所述的车机端语音播报的处理方法。

9.一种计算机程序产品,其特征在于,包括计算机指令,所述计算机指令用于使计算机执行权利要求1至5中任一项所述的车机端语音播报的处理方法。

10.一种汽车,其特征在于,包括:


技术总结
本发明涉及车技语音播报技术领域,公开了一种车机端语音播报的处理方法、装置和汽车,方法包括:获取用户的语音指令,并根据语音指令确定用户指令意图;根据用户指令意图判断语音指令所属功能域的落域类型,并根据功能域标签约束规则确定落域类型的预设标签;基于预设标签判断是否调用云端预先构建的语言生成模型,以根据用户指令意图进行语音播报。本发明通过对功能域进行标签约束,能够根据用户指令意图确定是否需要调用语言生成模型进行语音播报,在无需调用时实现高效语音播报,在需要调用时提供高质量语音播报,从而在车机端为用户提供高效、高质量语音播报,提高用户体验感和满意度。

技术研发人员:葛星星,李志刚
受保护的技术使用者:重庆长安科技有限责任公司
技术研发日:
技术公布日:2024/12/10
文档序号 : 【 40280999 】

技术研发人员:葛星星,李志刚
技术所有人:重庆长安科技有限责任公司

备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
葛星星李志刚重庆长安科技有限责任公司
基于3D视觉的万向法兰盘球窝半径测量装置及方法 一种滚塑聚乙烯复合粉末、制备方法及其应用与流程
相关内容