使用LM感知MWER训练的罕见词语辨识的制作方法
技术特征:
1.一种由数据处理硬件(510)执行的计算机实现的方法(400),所述计算机实现的方法使所述数据处理硬件(510)执行操作,其特征在于,所述操作包括:
2.如权利要求1所述的计算机实现的方法(400),其特征在于,所述操作还包括基于所述多个语音辨识假设的所述第三似然分数,选择所述多个语音辨识假设中的语音辨识假设作为所述声学帧(110)序列的语音辨识结果(120)。
3.如权利要求1或权利要求2所述的计算机实现的方法(400),其特征在于,所述第一似然分数包括条件似然分数和内部语言模型似然分数。
4.如权利要求1–3中任一项所述的计算机实现的方法(400),其特征在于:
5.如权利要求1–4中任一项所述的计算机实现的方法(400),其特征在于,所述音频编码器(210)、所述解码器(215)和所述可学习融合模块(240)进行联合训练。
6.如权利要求1–5中任一项所述的计算机实现的方法(400),其特征在于,所述外部语言模型(230)针对纯文本数据进行训练。
7.如权利要求1–6中任一项所述的计算机实现的方法(400),其特征在于,所述外部语言模型(230)包括神经网络语言模型,所述神经网络语言模型包括conformer层或transformer层堆叠。
8.如权利要求1–6中任一项所述的计算机实现的方法(400),其特征在于,所述外部语言模型(230)包括神经网络语言模型,所述神经网络语言模型包括长短期记忆(lstm)层堆叠。
9.如权利要求1–8中任一项所述的计算机实现的方法(400),其特征在于,所述音频编码器(210)包括:
10.如权利要求1–9中任一项所述的计算机实现的方法(400),其特征在于,所述可学习融合模块(240)被配置为计算所述解码器(215)的内部语言模型分数和所述外部语言模型(230)的外部语言模型分数的每个词元融合权重。
11.如权利要求1–10中任一项所述的计算机实现的方法(400),其特征在于,最小加性错误率包括最小词语错误率。
12.如权利要求1–5和7–11中任一项所述的计算机实现的方法(400),其特征在于:
13.一种自动语音辨识(asr)系统(118),其特征在于,包括:
14.如权利要求13所述的asr系统(118),其特征在于,所述操作还包括基于所述多个语音辨识假设的所述第三似然分数,选择所述多个语音辨识假设中的语音辨识假设作为所述声学帧(110)序列的语音辨识结果。
15.如权利要求13或权利要求14所述的asr系统(118),其特征在于,所述第一似然分数包括条件似然分数和内部语言模型似然分数。
16.如权利要求13–15中任一项所述的asr系统(118),其特征在于:
17.如权利要求13–16中任一项所述的asr系统(118),其特征在于,所述音频编码器(210)、所述解码器(215)和所述可学习融合模块(240)进行联合训练。
18.如权利要求13–17中任一项所述的asr系统(118),其特征在于,所述外部语言模型(230)针对纯文本数据进行训练。
19.如权利要求13–18中任一项所述的asr系统(118),其特征在于,所述外部语言模型(230)包括神经网络语言模型,所述神经网络语言模型包括conformer层或transformer层堆叠。
20.如权利要求13–18中任一项所述的asr系统(118),其特征在于,所述外部语言模型(230)包括神经网络语言模型,所述神经网络语言模型包括长短期记忆(lstm)层堆叠。
21.如权利要求13–20中任一项所述的asr系统(118),其特征在于,所述音频编码器(210)包括:
22.如权利要求13–21中任一项所述的asr系统(118),其特征在于,所述可学习融合模块(240)被配置为计算所述解码器(215)的内部语言模型分数和所述外部语言模型(230)的外部语言模型分数的每个词元融合权重。
23.如权利要求13–22中任一项所述的asr系统(118),其特征在于,最小加性错误率包括最小词语错误率。
24.如权利要求13–17和19–23中任一项所述的asr系统(118),其特征在于:
技术总结
方法(400)包括:使用音频编码器(210)生成声学帧(110)序列中的每个声学帧的更高阶特征表示(212);使用解码器(215)基于更高阶特征表示生成多个语音辨识假设,每个假设对应于候选转录并且具有相关联的第一似然分数;使用外部语言模型(230)针对每个假设生成第二似然分数;使用可学习融合模块(240)针对每个假设,基于更高阶特征表示和假设来确定融合权重集合;以及使用可学习融合模块,针对每个假设基于第一似然分数、第二似然分数和融合权重集合生成第三似然分数,在存在外部语言模型的情况下,使用最小加性错误率训练对音频编码器和解码器进行训练。
技术研发人员:汪蔚然,陈同舟,塔拉·N·萨纳特,伊赫桑·瓦兰尼,罗希特·普拉巴瓦尔卡尔,罗尼·黄,布瓦那·拉马巴德兰,高尔·尼拉杰,塞邦德·马万达迪,查尔斯·凯莱布·佩瑟,特雷弗·施特勒曼,何仰璋,大卫·里巴赫
受保护的技术使用者:谷歌有限责任公司
技术研发日:
技术公布日:2024/12/2
技术研发人员:汪蔚然,陈同舟,塔拉·N·萨纳特,伊赫桑·瓦兰尼,罗希特·普拉巴瓦尔卡尔,罗尼·黄,布瓦那·拉马巴德兰,高尔·尼拉杰,塞邦德·马万达迪,查尔斯·凯莱布·佩瑟,特雷弗·施特勒曼,何仰璋,大卫·里巴赫
技术所有人:谷歌有限责任公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
