首页  专利技术  其他产品的制造及其应用技术

使用LM感知MWER训练的罕见词语辨识的制作方法

2025-10-23 12:00:07 314次浏览

技术特征:

1.一种由数据处理硬件(510)执行的计算机实现的方法(400),所述计算机实现的方法使所述数据处理硬件(510)执行操作,其特征在于,所述操作包括:

2.如权利要求1所述的计算机实现的方法(400),其特征在于,所述操作还包括基于所述多个语音辨识假设的所述第三似然分数,选择所述多个语音辨识假设中的语音辨识假设作为所述声学帧(110)序列的语音辨识结果(120)。

3.如权利要求1或权利要求2所述的计算机实现的方法(400),其特征在于,所述第一似然分数包括条件似然分数和内部语言模型似然分数。

4.如权利要求1–3中任一项所述的计算机实现的方法(400),其特征在于:

5.如权利要求1–4中任一项所述的计算机实现的方法(400),其特征在于,所述音频编码器(210)、所述解码器(215)和所述可学习融合模块(240)进行联合训练。

6.如权利要求1–5中任一项所述的计算机实现的方法(400),其特征在于,所述外部语言模型(230)针对纯文本数据进行训练。

7.如权利要求1–6中任一项所述的计算机实现的方法(400),其特征在于,所述外部语言模型(230)包括神经网络语言模型,所述神经网络语言模型包括conformer层或transformer层堆叠。

8.如权利要求1–6中任一项所述的计算机实现的方法(400),其特征在于,所述外部语言模型(230)包括神经网络语言模型,所述神经网络语言模型包括长短期记忆(lstm)层堆叠。

9.如权利要求1–8中任一项所述的计算机实现的方法(400),其特征在于,所述音频编码器(210)包括:

10.如权利要求1–9中任一项所述的计算机实现的方法(400),其特征在于,所述可学习融合模块(240)被配置为计算所述解码器(215)的内部语言模型分数和所述外部语言模型(230)的外部语言模型分数的每个词元融合权重。

11.如权利要求1–10中任一项所述的计算机实现的方法(400),其特征在于,最小加性错误率包括最小词语错误率。

12.如权利要求1–5和7–11中任一项所述的计算机实现的方法(400),其特征在于:

13.一种自动语音辨识(asr)系统(118),其特征在于,包括:

14.如权利要求13所述的asr系统(118),其特征在于,所述操作还包括基于所述多个语音辨识假设的所述第三似然分数,选择所述多个语音辨识假设中的语音辨识假设作为所述声学帧(110)序列的语音辨识结果。

15.如权利要求13或权利要求14所述的asr系统(118),其特征在于,所述第一似然分数包括条件似然分数和内部语言模型似然分数。

16.如权利要求13–15中任一项所述的asr系统(118),其特征在于:

17.如权利要求13–16中任一项所述的asr系统(118),其特征在于,所述音频编码器(210)、所述解码器(215)和所述可学习融合模块(240)进行联合训练。

18.如权利要求13–17中任一项所述的asr系统(118),其特征在于,所述外部语言模型(230)针对纯文本数据进行训练。

19.如权利要求13–18中任一项所述的asr系统(118),其特征在于,所述外部语言模型(230)包括神经网络语言模型,所述神经网络语言模型包括conformer层或transformer层堆叠。

20.如权利要求13–18中任一项所述的asr系统(118),其特征在于,所述外部语言模型(230)包括神经网络语言模型,所述神经网络语言模型包括长短期记忆(lstm)层堆叠。

21.如权利要求13–20中任一项所述的asr系统(118),其特征在于,所述音频编码器(210)包括:

22.如权利要求13–21中任一项所述的asr系统(118),其特征在于,所述可学习融合模块(240)被配置为计算所述解码器(215)的内部语言模型分数和所述外部语言模型(230)的外部语言模型分数的每个词元融合权重。

23.如权利要求13–22中任一项所述的asr系统(118),其特征在于,最小加性错误率包括最小词语错误率。

24.如权利要求13–17和19–23中任一项所述的asr系统(118),其特征在于:


技术总结
方法(400)包括:使用音频编码器(210)生成声学帧(110)序列中的每个声学帧的更高阶特征表示(212);使用解码器(215)基于更高阶特征表示生成多个语音辨识假设,每个假设对应于候选转录并且具有相关联的第一似然分数;使用外部语言模型(230)针对每个假设生成第二似然分数;使用可学习融合模块(240)针对每个假设,基于更高阶特征表示和假设来确定融合权重集合;以及使用可学习融合模块,针对每个假设基于第一似然分数、第二似然分数和融合权重集合生成第三似然分数,在存在外部语言模型的情况下,使用最小加性错误率训练对音频编码器和解码器进行训练。

技术研发人员:汪蔚然,陈同舟,塔拉·N·萨纳特,伊赫桑·瓦兰尼,罗希特·普拉巴瓦尔卡尔,罗尼·黄,布瓦那·拉马巴德兰,高尔·尼拉杰,塞邦德·马万达迪,查尔斯·凯莱布·佩瑟,特雷弗·施特勒曼,何仰璋,大卫·里巴赫
受保护的技术使用者:谷歌有限责任公司
技术研发日:
技术公布日:2024/12/2
文档序号 : 【 40203479 】

技术研发人员:汪蔚然,陈同舟,塔拉·N·萨纳特,伊赫桑·瓦兰尼,罗希特·普拉巴瓦尔卡尔,罗尼·黄,布瓦那·拉马巴德兰,高尔·尼拉杰,塞邦德·马万达迪,查尔斯·凯莱布·佩瑟,特雷弗·施特勒曼,何仰璋,大卫·里巴赫
技术所有人:谷歌有限责任公司

备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
汪蔚然陈同舟塔拉·N·萨纳特伊赫桑·瓦兰尼罗希特·普拉巴瓦尔卡尔罗尼·黄布瓦那·拉马巴德兰高尔·尼拉杰塞邦德·马万达迪查尔斯·凯莱布·佩瑟
致动器的制作方法 1,1,1,3,5,5,5-七氟-2-戊烯的制造方法与流程
相关内容