利用联合语言标识的流式端到端多语言语音识别的制作方法

2026-03-04 16:40:02 458次浏览

本公开涉及利用联合语言标识的流式端到端多语言语音识别。

背景技术：

1、自动语音识别(asr)，即获取音频输入并将其转录为文本的过程，已经在很大程度上成为用在移动装置和其他装置中的重要技术。一般，自动语音识别尝试通过获取音频输入(例如，语音话语)并将音频输入转录为文本来提供对人所说的内容的准确转录。基于深度神经网络的持续发展，新式asr模型在准确度(例如，低词错误率(wer))和时延(例如，客户端说话与转录之间的延迟)两方面不断改进。尽管大量的人是使用双语的，但是大多数asr模型仅与单一语言兼容。因此，对大量的双语者(bilingual speaker)来说，与几种不同的语言兼容而仍维持新式asr模型的准确度和时延性能指标的asr模型将是期望的。

技术实现思路

1、本公开的一个方面提供了一种多语言自动化语音识别(asr)模型。asr模型包括第一编码器，所述第一编码器被配置为：接收声学帧序列作为输入，以及在多个输出步骤中的每一处针对声学帧序列中的对应的声学帧生成第一高阶特征表示。asr模型还包括第二编码器，所述第二编码器被配置为：接收由第一编码器在多个输出步骤中的每一处生成的第一高阶特征表示作为输入，以及在多个输出步骤中的每一处针对对应的第一高阶特征表示生成第二高阶特征表示。asr模型还包括语言识别(id)预测器，所述语言标识预测器被配置为：接收由第一编码器在多个输出步骤中的每一处生成的第一高阶特征表示和由第二编码器在多个输出步骤中的每一处生成的第二高阶特征表示的串联作为输入，以及在多个输出步骤中的每一处生成语言预测表示。asr模型还包括第一解码器，所述第一解码器被配置为：接收由第二编码器在多个输出步骤中的每一处生成的第二高阶特征表示和由语言id预测器在多个输出步骤中的每一处生成的语言预测表示的串联作为输入，以及在多个输出步骤中的每一处生成在可能的语音识别预测文本(hypothesis)上的第一概率分布。

2、本公开的实现方式可以包括以下可选特征中的一个或多个。在一些实现方式中，asr模型包括第二解码器，所述第二解码器被配置为：接收由第一编码器在多个输出步骤中的每一处生成的第一高阶特征表示作为输入，以及在多个输出步骤中的每一处生成在可能的语音识别预测文本上的第二概率分布。这里，第二解码器还可以被配置为基于在可能的语音识别预测文本上的第二概率分布来生成部分语音识别结果。在这些实现方式中，第一解码器和第二解码器可以各自包括对应的预测网络、接着是对应的联合网络，第一解码器和第二解码器的对应的预测网络具有包括基于长短期记忆(lstm)的预测网络或v2嵌入查找表中的一个的相同的结构，并且第一解码器和第二解码器的对应的联合网络包括相同的结构。

3、在一些示例中，第二编码器在没有接收声学帧中的任一个作为输入的情况下生成第二高阶特征表示。第一编码器包括因果编码器，所述因果编码器具有多个单向长短期记忆(lstm)层、多个conformer层或多个transformer层中的一个。在一些实现方式中，第二编码器包括非因果编码器，所述非因果编码器具有一个或多个双向长短期记忆(lstm)层、多个conformer层或多个transformer层中的一个。

4、在一些实现方式中，第一编码器、第二编码器和语言id预测器通过以下来在多语言训练话语集上被联合地训练：针对第一编码器生成第一损失；针对第二编码器生成第二损失；针对语言id预测器生成第三损失；以及将第一损失、第二损失和第三损失的加权和最小化。在这些实现方式中，语言id目标词元可以被添加作为多语言训练话语集中的每个多语言训练话语的对应的真实值转录的第一词元。语言id目标词元识别对应的多语言训练话语的语言。替代地，语言id目标词元可以被添加到在多语言训练话语集中的每个多语言训练话语的对应的真实值转录中发生语码转换(code-switch)的每个位置。

5、本公开的另一个方面提供了一种计算机实现的方法，所述计算机实现的方法当在数据处理硬件上执行时使数据处理硬件执行用于利用联合语言标识的流式端到端多语言语音识别的操作。所述操作包括接收声学帧序列作为对自动语音识别(asr)模型的输入。所述操作还包括由asr模型的第一编码器在多个输出步骤中的每一处针对声学帧序列中的对应的声学帧生成第一高阶特征表示。所述操作还包括由asr模型的第二编码器在多个输出步骤中的每一处针对对应的第一高阶特征表示生成第二高阶特征表示。所述操作还包括由asr模型的语言标识(id)预测器在多个输出步骤中的每一处生成语言预测表示。这里，语言预测表示是基于由第一编码器在多个输出步骤中的每一处生成的第一高阶特征表示和由第二编码器在多个输出步骤中的每一处生成的第二高阶特征表示的串联。所述操作还包括由asr模型的第一解码器在多个输出步骤中的每一处生成在可能的语音识别预测文本上的第一概率分布。这里，在可能的语音识别预测文本上的第一概率分布是基于由第二编码器在多个输出步骤中的每一处生成的第二高阶特征表示和由语言id预测器在多个输出步骤中的每一处生成的语言预测表示的串联。

6、本公开的实现方式可以包括以下可选特征中的一个或多个。在一些实现方式中，所述操作还包括由asr模型的第二解码器在多个输出步骤中的每一处生成在可能的语音识别预测文本上的第二概率分布。在可能的语音识别预测文本上的第二概率分布是基于由第一编码器在多个输出步骤中的每一处生成的第一高阶特征表示。在这些实现方式中，所述操作还可以包括由第二解码器基于在可能的语音识别预测文本上的第二概率分布来生成部分语音识别结果。第一解码器和第二解码器可以各自包括对应的预测网络、接着是对应的联合网络，第一解码器和第二解码器的对应的预测网络具有包括基于长短期(lstm)的预测网络或v2嵌入查找表中的一个的相同的结构，并且第一解码器和第二解码器的对应的联合网络包括相同的结构。

7、在一些示例中，第二编码器在没有接收声学帧中的任一个作为输入的情况下生成第二高阶特征表示。在一些实现方式中，第一编码器包括因果编码器，所述因果编码器包括多个单向长短期记忆(lstm)层、多个conformer层或多个transformer层中的一个。第二编码器包括非因果编码器，所述非因果编码器包括一个或多个双向长短期记忆(lstm)层、多个conformer层或多个transformer层中的一个。

8、在一些示例中，所述操作还包括通过以下来在多语言训练话语集上联合地训练第一编码器、第二编码器和语言id预测器：针对编码器生成第一损失；针对第二编码器生成第二损失；针对语言id预测器生成第三损失；以及将第一损失、第二损失和第三损失的加权和最小化。在这些示例中，所述操作还可以包括添加语言id词元作为多语言训练话语集中的每个多语言训练话语的对应的真实值转录的第一词元。语言id目标词元识别对应的多语言训练话语的语言。替代地，所述操作还包括将语言id目标词元添加到在多语言训练话语集中的每个多语言训练话语的对应的真实值转录中发生语码转换的每个位置。

9、本公开的一个或多个实现方式的细节在附图和以下描述中进行阐述。根据说明书和附图以及根据权利要求，其他方面、特征和优点将显而易见。

文档序号 : 【 40281992 】

技术研发人员：张超,李博,塔拉·N·萨纳特,特雷弗·施特勒曼,塞邦德·马万达迪,张硕英,帕里莎·哈哈尼
技术所有人：谷歌有限责任公司

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

张超丨李博丨塔拉·N·萨纳特丨特雷弗·施特勒曼丨塞邦德·马万达迪丨张硕英丨帕里莎·哈哈尼丨谷歌有限责任公司

化学机械抛光后(POSTCMP)清洁组合物的制作方法电动机的制作方法