利用联合语言标识的流式端到端多语言语音识别的制作方法
技术特征:
1.一种多语言自动化语音识别(asr)模型(200),其特征在于,包括:
2.如权利要求1所述的asr模型(200),其特征在于,还包括:
3.如权利要求1或2所述的asr模型(200),其中所述第二解码器(240b)还被配置为基于在可能的语音识别预测文本上的所述第二概率分布(120b)来生成部分语音识别结果。
4.如权利要求2或3所述的asr模型(200),其中:
5.如权利要求1至4中任一项所述的asr模型(200),其中所述第二编码器(220)在没有接收所述声学帧(110)中的任一个作为输入的情况下生成所述第二高阶特征表示(222)。
6.如权利要求1至5中任一项所述的asr模型(200),其中所述第一编码器(210)包括因果编码器,所述因果编码器包括以下中的一个:
7.如权利要求1至6中任一项所述的asr模型(200),其中所述第二编码器(220)包括非因果编码器,所述非因果编码器包括以下中的一个:
8.如权利要求1至7中任一项所述的asr模型(200),其中所述第一编码器(210)、所述第二编码器(220)和所述语言id预测器(230)通过以下来在多语言训练话语集上被联合地训练:
9.如权利要求8所述的asr模型(200),其中语言id目标词元被添加作为所述多语言训练话语集中的每个多语言训练话语的对应的真实值转录的第一词元,所述语言id目标词元识别对应的多语言训练话语的语言。
10.如权利要求8或9所述的asr模型(200),其中语言id目标词元被添加到在所述多语言训练话语集中的每个多语言训练话语的对应的真实值转录中发生语码转换的每个位置。
11.一种计算机实现的方法(400),所述计算机实现的方法当在数据处理硬件(610)上执行时使所述数据处理硬件(620)执行操作,其特征在于,所述操作包括:
12.如权利要求11所述的计算机实现的方法(400),其中所述操作还包括由所述asr模型(200)的第二解码器(240b)在所述多个输出步骤中的每一处基于由所述第一编码器(210)在所述多个输出步骤中的每一处生成的所述第一高阶特征表示(212)来生成在可能的语音识别预测文本上的第二概率分布(120b)。
13.如权利要求12所述的计算机实现的方法(400),其中所述操作还包括由所述第二解码器(240b)基于在可能的语音识别预测文本上的所述第二概率分布(120b)来生成部分语音识别结果。
14.如权利要求12或13所述的计算机实现的方法(400),其中:
15.如权利要求11至14中任一项所述的计算机实现的方法(400),其中所述第二编码器(220)在没有接收所述声学帧(110)中的任一个作为输入的情况下生成所述第二高阶特征表示(220)。
16.如权利要求11至15中任一项所述的计算机实现的方法(400),其中所述第一编码器(210)包括因果编码器,所述因果编码器包括以下中的一个:
17.如权利要求11至16中任一项所述的计算机实现的方法(400),其中所述第二编码器(220)包括非因果编码器,所述非因果编码器包括以下中的一个:
18.如权利要求11至17中任一项所述的计算机实现的方法(400),其中所述操作还包括通过以下来在多语言训练话语集上联合地训练所述第一编码器(210)、所述第二编码器(220)和所述语言id预测器(230):
19.如权利要求18所述的计算机实现的方法(400),其中所述操作还包括添加语言id目标词元作为所述多语言训练话语集中的每个训练话语的对应的真实值转录的第一词元,所述语言id目标词元识别对应的训练话语的语言。
20.如权利要求18或19所述的计算机实现的方法(400),其中所述操作还包括将语言id目标词元添加到在所述多语言训练话语集中的每个多语言训练话语的对应的真实值转录中发生语码转换的每个位置。
技术总结
一种方法(400)包括接收声学帧序列(110)作为对自动语音识别(ASR)模型(200)的输入。所述方法还包括由第一编码器(210)针对对应的声学帧生成第一高阶特征表示(212)。所述方法还包括由第二编码器(220)针对对应的第一高阶特征表示生成第二高阶特征表示(222)。所述方法还包括由语言标识(ID)预测器(230)基于第一高阶特征表示和第二高阶特征表示的串联(231)来生成语言预测表示(232)。所述方法还包括由第一解码器(240a)基于第二高阶特征表示和语言预测表示的串联来生成在可能的语音识别预测文本上的第一概率分布(120a)。
技术研发人员:张超,李博,塔拉·N·萨纳特,特雷弗·施特勒曼,塞邦德·马万达迪,张硕英,帕里莎·哈哈尼
受保护的技术使用者:谷歌有限责任公司
技术研发日:
技术公布日:2024/12/10
技术研发人员:张超,李博,塔拉·N·萨纳特,特雷弗·施特勒曼,塞邦德·马万达迪,张硕英,帕里莎·哈哈尼
技术所有人:谷歌有限责任公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
