首页  专利技术  其他产品的制造及其应用技术

一种车辆的人机语音交互方法、系统及车辆与流程

2025-05-18 14:40:07 274次浏览
一种车辆的人机语音交互方法、系统及车辆与流程

本技术涉及人机语音交互,尤其涉及一种车辆的人机语音交互方法、系统、车辆及计算机可读存储介质。


背景技术:

1、随着计算机技术和人工智能的发展,语义理解的需求越来越重要,通过得到的语义可以让车辆执行相应的动作,从而实现智能且人性化的人机交互;随着深度学习技术的不断发展,开始将深度学习技术应用到人机交互体验,通过融入大模型来进行语义理解和对话管理,从而实现用户与车辆的语音交互。

2、目前,现有的语义理解的方法包括基于规则和词典的方法、基于统计的方法和基于深度学习的方法;基于规则和词典的方法是利用语言规则和词典来解析和理解文本的语义,类似正则的形式去定义语言的规则,通过匹配词汇和语法结构去实现理解文本的含义;基于统计的方法则是利用大量的文本数据进行分析,学习语言的模式和规律,进而推断文本的语义;而基于深度学习的方法则是利用循环神经网络模型和长短时记忆网络模型对大量数据进行训练,从而捕捉语义信息。现有的对话管理方法包括基于规则的方法和基于模型的方法;基于规则的方法是使用预定义的规则和模式来指导对话;基于模型的方法则是利用机器学习算法来学习和预测对话的行为。

3、但在语义理解层面,现有的方法只能按照预先设定好的规则进行交互,难以应对复杂多变、未预见到的情况,覆盖范围有限;随着大模型的融入,两者如果采用串行的方式会造成执行超时,影响用户体验,如果采用并行的方式又会造成资源浪费,所以现有的方法和大模型采取什么样的策略成为需要考虑的问题。在多轮对话层面,基于规则的方法每一轮都会更新对话历史语义用于下一轮的对话,难以处理特殊、复杂、多样的对话情况;而大模型是把前几轮的文本作为历史,结合当前文本一起作为输入,没有专门独立的模块来处理历史、状态等信息,容易导致大模型的结果不符合上下文;两者采取的对话管理方案不同,例如,前一轮走到大模型得到结果,当前对话走到基于规则的方法,当前对话无法利用到前一轮大模型得到的语义结果导致出错。

4、因此,现有技术还有待于改进和发展。


技术实现思路

1、本技术的主要目的在于提供一种车辆的人机语音交互方法、系统及车辆,旨在解决现有的人机语音交互随着大模型的融入,在语义理解层面无法采取合适的策略,导致执行超时,影响用户体验,且造成资源浪费,在多轮对话层面由于采取的对话策略不同,无法共享对应得到的历史语义,导致在多轮对话时正确率较低的问题。

2、本技术第一方面实施例提供一种车辆的人机语音交互方法,包括以下步骤:获取用户的音频数据,对所述音频数据进行文本转化,得到文本信息;对所述文本信息进行意图分析,得到分析结果,根据所述分析结果对所述文本信息进行语义处理方案确定,得到目标语义处理方案,并根据所述目标语义处理方案对所述文本信息进行语义理解处理,得到语义信息;对所述语义信息进行关联处理,得到目标语义,根据所述目标语义进行指令执行,得到执行结果,根据所述执行结果得到回复文本信息,并播报所述回复文本信息对应的目标语音信息。

3、根据上述技术手段,本技术实施例为了更好的将基于规则和词典的方法与大模型相结合,以及发挥大模型的语义理解能力,通过对用户的音频数据处理得到的文本信息进行智能匹配,从而对内容进行分类,还通过分析对应的文本信息,从而优化分发策略;之后基于规则和词典的方法弥补大模型在一些情况下的劣势,而大模型弥补了基于规则和词典的方法的泛化能力以及多意图能力的不足,两者通过对应的方案相结合,以基于规则和词典的方法得到的结果作为下限,确保简单意图正常实施,以大模型得到的结果作为上限,不仅解决了复杂意图,还保证了语义理解的准确性和发挥空间;并对于多轮对话情景,通过共享历史机制进行辅助,以便得到更准确的语义结果,从而更好地理解用户的需求,并提供更准确的回应,充分发挥了大模型多轮对话的能力。

4、可选地,在本技术的一个实施例中,所述获取用户的音频数据,对所述音频数据进行文本转化,得到文本信息,之后还包括:获取预训练任务,根据所述预训练任务对语言网络训练模型进行预训练处理,得到语言表征模型,其中,所述预训练任务包括遮蔽语言预测任务和下文预测任务;获取自然语言处理任务,根据所述自然语言处理任务对所述语言表征模型进行微调处理,得到内容分发模型。

5、根据上述技术手段,本技术实施例为了更好的将基于规则和词典的方法与大模型相结合,以及发挥大模型的语义理解能力,通过遮蔽语言预测任务和下文预测任务对语言网络模型进行预训练处理,并通过自然语言处理任务对预训练后的模型进行微调处理,得到基于双向语言表征模型的内容分发模型,并通过此模型来进行后续的意图分类、强弱意图的判断、首句判断和语境感知等功能,通过对应的智能匹配将内容进行分类,还可以分析数据以优化分发策略,从而提高语义理解的效率及准确率。

6、可选地,在本技术的一个实施例中,所述对所述文本信息进行意图分析,得到分析结果,具体包括:基于所述内容分发模型对所述文本信息进行意图分类,得到意图类型,对所述文本信息进行意图强弱判断,得到意图强度信息,对所述文本信息进行首句判断,得到核心句子信息,并对所述文本信息进行语境感知,得到语境感知信息;根据所述意图类型、所述意图强度信息、所述核心句子信息和所述语境感知信息得到所述文本信息的分析结果。

7、根据上述技术手段,本技术实施例通过得到的内容分发模型来对用户的音频数据转化后的文本信息进行意图分类、强弱意图的判断、首句判断和语境感知等功能,以实现通过智能匹配将内容进行分类,之后还根据对应的意图类型、意图强度信息、核心句子信息和语境感知信息得到分析结果,从而实现通过分析数据来优化分发策略,以便于提高语义理解的效率及准确率。

8、可选地,在本技术的一个实施例中,所述对所述文本信息进行意图强弱判断,得到意图强度信息,具体包括:建立意图强度语料库,根据所述意图强度语料库的强意图语料和弱意图语料设定强度阈值,并根据所述强度阈值对所述文本信息进行意图强弱判断,得到判断结果;若所述判断结果为所述文本信息的意图强度值大于等于所述强度阈值,则所述意图强度信息为强意图;若所述判断结果为所述文本信息的意图强度值小于所述强度阈值,则所述意图强度信息为弱意图。

9、根据上述技术手段,本技术实施例在内容分发模型需要对文本信息进行意图强弱判断时,通过建立的意图强度语料库中强意图语料和弱意图语料来设定强度阈值,并根据强度阈值与文本信息的意图强度值进行大小比较,如果文本信息的意图强度值大于等于强度阈值,则判定文本信息的为强意图;如果文本信息的意图强度值小于强度阈值,则判定文本信息为弱意图,从而实现更精准的语义理解和决策制定。

10、可选地,在本技术的一个实施例中,所述根据所述分析结果对所述文本信息进行语义处理方案确定,得到目标语义处理方案,并根据所述目标语义处理方案对所述文本信息进行语义理解处理,得到语义信息,具体包括:若所述分析结果为所述文本信息为简单意图,则根据所述简单意图确定所述目标语义处理方案为基于规则和词典的方法处理方案;根据所述基于规则和词典的方法处理方案对所述文本信息进行单字链式处理,得到单字链式网络,并对所述单字链式网络进行贴弧处理,得到业务文法网络;将所述单字链式网络和所述业务文法网络进行合并,得到目标网络,对所述目标网络进行路径权重求解,得到目标路径,并根据所述目标路径得到语义信息。

11、根据上述技术手段,本技术实施例在分析出文本信息对应的意图为简单意图后,通过基于规则和词典的方法来解析简单意图,使用基于规则和词典的方法中的规则模型对文本信息进行相似度计算,已确认出对应的规范文本,之后使用基于规则和词典的方法中的文法对规范文本进行处理,文法通过定义各种符号和规则来表示语言的结构和约束,即将对应的规范文本处理为单字链式网络,并对单字链式网络进行贴弧得到业务文法网络,并将单字链式网络和业务文法网络进行合并,之后对合并后的网络求解权重最大的路径,即目标语义,不仅可以解决大部分规则说法,还能够节省所需的资源,从而高效快速的完成文本信息的语义理解。

12、可选地,在本技术的一个实施例中,所述根据所述分析结果对所述文本信息进行语义处理方案确定,得到目标语义处理方案,并根据所述目标语义处理方案对所述文本信息进行语义理解处理,得到语义信息,具体包括:若所述分析结果为所述文本信息为问答意图,则根据所述问答意图确定所述目标语义处理方案为知识问答模型处理方案;根据所述知识问答模型处理方案对所述文本信息进行问题确定,得到对应的语义信息。

13、根据上述技术手段,本技术实施例在分析出文本信息对应的意图为问答意图后,对于类似百科、文档问答及标准问答等问答意图,通过知识问答模型进行解决,从而高效快速的完成文本信息的语义理解。

14、可选地,在本技术的一个实施例中,所述根据所述分析结果对所述文本信息进行语义处理方案确定,得到目标语义处理方案,并根据所述目标语义处理方案对所述文本信息进行语义理解处理,得到语义信息,具体包括:若所述分析结果为所述文本信息为编排意图,则根据所述编排意图确定所述目标语义处理方案为语音编排模型处理方案;根据语音编排模型处理方案对所述文本信息进行组织编排,得到对应的语义信息。

15、根据上述技术手段,本技术实施例在分析出文本信息对应的意图为编排意图后,对于编排意图,通过语音编排模型来进行解决编排意图,不仅缩短了执行时间,还减少了资源浪费,从而高效快速的完成文本信息的语义理解,以提高用户体验。

16、可选地,在本技术的一个实施例中,所述根据所述分析结果对所述文本信息进行语义处理方案确定,得到目标语义处理方案,并根据所述目标语义处理方案对所述文本信息进行语义理解处理,得到语义信息,具体包括:若所述分析结果为所述文本信息为多意图,则根据所述多意图确定所述目标语义处理方案为多意图模型处理方案;根据多意图模型处理方案对所述文本信息进行意图分析,得到多个文本意图,并将所有所述文本意图进行结合,得到对应的语义信息。

17、根据上述技术手段,本技术实施例在分析出文本信息对应的意图为多意图后,通过多意图模型解决多意图,从而达到全场景多意图可控;通过结合大模型来完善对复杂语音场景的覆盖,从而高效快速的完成文本信息的语义理解。

18、可选地,在本技术的一个实施例中,所述对所述语义信息进行关联处理,得到目标语义,根据所述目标语义进行指令执行,得到执行结果,根据所述执行结果得到回复文本信息,并播报所述回复文本信息对应的目标语音信息,具体包括:获取历史对话语义结果和历史系统行为,根据所述历史对话语义结果和所述历史系统行为对所述语义信息进行语义关联,得到目标语义,并根据所述目标语义得到对应的语义执行指令;根据所述语义执行指令执行对应的操作,得到执行结果,根据所述执行结果生成对应的回复文本信息,并根据所述回复文本信息确认回应方式;将所述回复文本信息进行语音转化,得到目标语音信息,并根据所述回应方式播报所述目标语音信息。

19、根据上述技术手段,本技术实施例对于多轮对话情景,通过共享历史机制进行辅助理解语义,因为当前对话的最终的语义结果不仅依赖于当前对话的用户的文本信息,还依赖于上一轮对话的语义结果和上一轮执行完后的系统行为,之后根据上一轮对话的语义结果和上一轮执行完后的系统行为对用户的语义信息进行语义关联,得到目标语义,并执行对应的操作,将得到的执行结果对应的回复文本信息转化为目标语音信息,并根据确定的回应方式将目标语音信息进行播报,从而能够更好地理解用户的需求,并提供更准确的回应,充分发挥了大模型多轮对话的能力。

20、可选地,在本技术的一个实施例中,所述根据所述语义执行指令执行对应的操作,得到执行结果,之后还包括:若所述执行结果出现异常,则获取对应的异常信息,对所述异常信息进行异常分析,得到对应的处理方案,并调取所述处理方案;根据所述处理方案对所述异常信息进行处理,得到处理结果,根据所述处理结果生成重新执行指令,并根据所述重新执行指令再次执行对应的操作。

21、根据上述技术手段,本技术实施例在所述执行结果出现异常时,及时获取对应的异常信息,并调取对应的处理方案处理异常信息,在处理完成之后再次执行对应的操作,从而保证系统稳定,使得提高了对话的可靠性。

22、本技术第二方面实施例提供一种车辆的人机语音交互系统,所述目标车辆的人机语音交互系统包括:文本转化模块,用于获取用户的音频数据,对所述音频数据进行文本转化,得到文本信息;语义理解模块,用于对所述文本信息进行意图分析,得到分析结果,根据所述分析结果对所述文本信息进行语义处理方案确定,得到目标语义处理方案,并根据所述目标语义处理方案对所述文本信息进行语义理解处理,得到语义信息;语音回复模块,用于对所述语义信息进行关联处理,得到目标语义,根据所述目标语义进行指令执行,得到执行结果,根据所述执行结果得到回复文本信息,并播报所述回复文本信息对应的目标语音信息。

23、可选地,在本技术的一个实施例中,所述目标车辆的人机语音交互系统还包括:模型训练单元,用于获取预训练任务,根据所述预训练任务对语言网络训练模型进行预训练处理,得到语言表征模型,其中,所述预训练任务包括遮蔽语言预测任务和下文预测任务;模型微调单元,用于获取自然语言处理任务,根据所述自然语言处理任务对所述语言表征模型进行微调处理,得到内容分发模型。

24、可选地,在本技术的一个实施例中,所述语义理解模块包括:文本信息处理单元,用于基于所述内容分发模型对所述文本信息进行意图分类,得到意图类型,对所述文本信息进行意图强弱判断,得到意图强度信息,对所述文本信息进行首句判断,得到核心句子信息,并对所述文本信息进行语境感知,得到语境感知信息;信息分析单元,用于根据所述意图类型、所述意图强度信息、所述核心句子信息和所述语境感知信息得到所述文本信息的分析结果;第一方案确定单元,用于若所述分析结果为所述文本信息为简单意图,则根据所述简单意图确定所述目标语义处理方案为基于规则和词典的方法处理方案;第一方案处理单元,用于根据所述基于规则和词典的方法处理方案对所述文本信息进行单字链式处理,得到单字链式网络,并对所述单字链式网络进行贴弧处理,得到业务文法网络;路径权重求解单元,用于将所述单字链式网络和所述业务文法网络进行合并,得到目标网络,对所述目标网络进行路径权重求解,得到目标路径,并根据所述目标路径得到语义信息;第二方案确定单元,用于若所述分析结果为所述文本信息为问答意图,则根据所述问答意图确定所述目标语义处理方案为知识问答模型处理方案;第二方案处理单元,用于根据所述知识问答模型处理方案对所述文本信息进行问题确定,得到对应的语义信息;第三方案确定单元,用于若所述分析结果为所述文本信息为编排意图,则根据所述编排意图确定所述目标语义处理方案为语音编排模型处理方案;第三方案处理单元,用于根据语音编排模型处理方案对所述文本信息进行组织编排,得到对应的语义信息;第四方案确定单元,用于若所述分析结果为所述文本信息为多意图,则根据所述多意图确定所述目标语义处理方案为多意图模型处理方案;第四方案处理单元,用于根据多意图模型处理方案对所述文本信息进行意图分析,得到多个文本意图,并将所有所述文本意图进行结合,得到对应的语义信息。

25、可选地,在本技术的一个实施例中,所述文本信息处理单元还包括:意图强弱判断子单元,用于建立意图强度语料库,根据所述意图强度语料库的强意图语料和弱意图语料设定强度阈值,并根据所述强度阈值对所述文本信息进行意图强弱判断,得到判断结果;第一判定子单元,用于若所述判断结果为所述文本信息的意图强度值大于等于所述强度阈值,则所述意图强度信息为强意图;第二判定子单元,用于若所述判断结果为所述文本信息的意图强度值小于所述强度阈值,则所述意图强度信息为弱意图。

26、可选地,在本技术的一个实施例中,所述语音回复模块包括:历史语义关联单元,用于获取历史对话语义结果和历史系统行为,根据所述历史对话语义结果和所述历史系统行为对所述语义信息进行语义关联,得到目标语义,并根据所述目标语义得到对应的语义执行指令;回复文本确定单元,用于根据所述语义执行指令执行对应的操作,得到执行结果,根据所述执行结果生成对应的回复文本信息,并根据所述回复文本信息确认回应方式;回复文本播报单元,用于将所述回复文本信息进行语音转化,得到目标语音信息,并根据所述回应方式播报所述目标语音信息。

27、可选地,在本技术的一个实施例中,所述语音回复模块还包括:异常处理单元,用于若所述执行结果出现异常,则获取对应的异常信息,对所述异常信息进行异常分析,得到对应的处理方案,并调取所述处理方案;重新执行单元,用于根据所述处理方案对所述异常信息进行处理,得到处理结果,根据所述处理结果生成重新执行指令,并根据所述重新执行指令再次执行对应的操作。

28、本技术第三方面实施例提供一种车辆,所述车辆包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的车辆的人机语音交互程序,所述车辆的人机语音交互程序被所述处理器执行时实现如上述实施例所述的车辆的人机语音交互方法的步骤。

29、本技术第四方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有车辆的人机语音交互程序,所述车辆的人机语音交互程序被处理器执行时实现如上述实施例所述的车辆的人机语音交互方法的步骤。

30、本技术的有益效果:

31、(1)本技术实施例为了更好的将基于规则和词典的方法与大模型相结合,以及发挥大模型的语义理解能力,通过对用户的音频数据处理得到的文本信息进行智能匹配,从而对内容进行分类,还通过分析对应的文本信息,从而优化分发策略;之后基于规则和词典的方法弥补大模型在一些情况下的劣势,而大模型弥补了基于规则和词典的方法的泛化能力以及多意图能力的不足,两者通过对应的方案相结合,以基于规则和词典的方法得到的结果作为下限,确保简单意图正常实施,以大模型得到的结果作为上限,不仅解决了复杂意图,还保证了语义理解的准确性和发挥空间;并对于多轮对话情景,通过共享历史机制进行辅助,以便得到更准确的语义结果,从而更好地理解用户的需求,并提供更准确的回应,充分发挥了大模型多轮对话的能力。

32、(2)本技术实施例为了更好的将基于规则和词典的方法与大模型相结合,以及发挥大模型的语义理解能力,通过遮蔽语言预测任务和下文预测任务对语言网络模型进行预训练处理,并通过自然语言处理任务对预训练后的模型进行微调处理,得到基于双向语言表征模型的内容分发模型,并通过此模型来进行后续的意图分类、强弱意图的判断、首句判断和语境感知等功能,通过对应的智能匹配将内容进行分类,还可以分析数据以优化分发策略,从而提高语义理解的效率及准确率。

33、(3)本技术实施例在分析出文本信息对应的意图为简单意图后,通过基于规则和词典的方法来解析简单意图,使用基于规则和词典的方法中的规则模型对文本信息进行相似度计算,已确认出对应的规范文本,之后使用基于规则和词典的方法中的文法对规范文本进行处理,文法通过定义各种符号和规则来表示语言的结构和约束,即将对应的规范文本处理为单字链式网络,并对单字链式网络进行贴弧得到业务文法网络,并将单字链式网络和业务文法网络进行合并,之后对合并后的网络求解权重最大的路径,即目标语义,不仅可以解决大部分规则说法,还能够节省所需的资源,从而高效快速的完成文本信息的语义理解。

34、(4)本技术实施例在分析出文本信息对应的意图为问答意图后,对于类似百科、文档问答及标准问答等问答意图,通过知识问答模型进行解决,对于编排意图,通过语音编排模型来进行解决编排意图,对于多意图,通过多意图模型解决多意图,从而达到全场景多意图可控;通过结合大模型来完善对复杂语音场景的覆盖,不仅缩短了执行时间,还减少了资源浪费,从而高效快速的完成文本信息的语义理解,以提高用户体验。

35、(5)本技术实施例对于多轮对话情景,通过共享历史机制进行辅助理解语义,因为当前对话的最终的语义结果不仅依赖于当前对话的用户的文本信息,还依赖于上一轮对话的语义结果和上一轮执行完后的系统行为,之后根据上一轮对话的语义结果和上一轮执行完后的系统行为对用户的语义信息进行语义关联,得到目标语义;并执行对应的操作,将得到的执行结果对应的回复文本信息转化为目标语音信息,并根据确定的回应方式将目标语音信息进行播报,从而能够更好地理解用户的需求,并提供更准确的回应,充分发挥了大模型多轮对话的能力。

36、本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。

文档序号 : 【 40048573 】

技术研发人员:智桐,刘大全,张洪健
技术所有人:重庆长安科技有限责任公司

备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
智桐刘大全张洪健重庆长安科技有限责任公司
一种二次电缆敷设用滚轮式折角装置的制作方法 基于多源数据分析的电网运行状态监测方法及系统与流程
相关内容