使用LM感知MWER训练的罕见词语辨识的制作方法

2025-10-23 12:00:07 332次浏览

技术特征：

1.一种由数据处理硬件(510)执行的计算机实现的方法(400)，所述计算机实现的方法使所述数据处理硬件(510)执行操作，其特征在于，所述操作包括：

2.如权利要求1所述的计算机实现的方法(400)，其特征在于，所述操作还包括基于所述多个语音辨识假设的所述第三似然分数，选择所述多个语音辨识假设中的语音辨识假设作为所述声学帧(110)序列的语音辨识结果(120)。

3.如权利要求1或权利要求2所述的计算机实现的方法(400)，其特征在于，所述第一似然分数包括条件似然分数和内部语言模型似然分数。

4.如权利要求1–3中任一项所述的计算机实现的方法(400)，其特征在于：

5.如权利要求1–4中任一项所述的计算机实现的方法(400)，其特征在于，所述音频编码器(210)、所述解码器(215)和所述可学习融合模块(240)进行联合训练。

6.如权利要求1–5中任一项所述的计算机实现的方法(400)，其特征在于，所述外部语言模型(230)针对纯文本数据进行训练。

7.如权利要求1–6中任一项所述的计算机实现的方法(400)，其特征在于，所述外部语言模型(230)包括神经网络语言模型，所述神经网络语言模型包括conformer层或transformer层堆叠。

8.如权利要求1–6中任一项所述的计算机实现的方法(400)，其特征在于，所述外部语言模型(230)包括神经网络语言模型，所述神经网络语言模型包括长短期记忆(lstm)层堆叠。

9.如权利要求1–8中任一项所述的计算机实现的方法(400)，其特征在于，所述音频编码器(210)包括：

10.如权利要求1–9中任一项所述的计算机实现的方法(400)，其特征在于，所述可学习融合模块(240)被配置为计算所述解码器(215)的内部语言模型分数和所述外部语言模型(230)的外部语言模型分数的每个词元融合权重。

11.如权利要求1–10中任一项所述的计算机实现的方法(400)，其特征在于，最小加性错误率包括最小词语错误率。

12.如权利要求1–5和7–11中任一项所述的计算机实现的方法(400)，其特征在于：

13.一种自动语音辨识(asr)系统(118)，其特征在于，包括：

14.如权利要求13所述的asr系统(118)，其特征在于，所述操作还包括基于所述多个语音辨识假设的所述第三似然分数，选择所述多个语音辨识假设中的语音辨识假设作为所述声学帧(110)序列的语音辨识结果。

15.如权利要求13或权利要求14所述的asr系统(118)，其特征在于，所述第一似然分数包括条件似然分数和内部语言模型似然分数。

16.如权利要求13–15中任一项所述的asr系统(118)，其特征在于：

17.如权利要求13–16中任一项所述的asr系统(118)，其特征在于，所述音频编码器(210)、所述解码器(215)和所述可学习融合模块(240)进行联合训练。

18.如权利要求13–17中任一项所述的asr系统(118)，其特征在于，所述外部语言模型(230)针对纯文本数据进行训练。

19.如权利要求13–18中任一项所述的asr系统(118)，其特征在于，所述外部语言模型(230)包括神经网络语言模型，所述神经网络语言模型包括conformer层或transformer层堆叠。

20.如权利要求13–18中任一项所述的asr系统(118)，其特征在于，所述外部语言模型(230)包括神经网络语言模型，所述神经网络语言模型包括长短期记忆(lstm)层堆叠。

21.如权利要求13–20中任一项所述的asr系统(118)，其特征在于，所述音频编码器(210)包括：

22.如权利要求13–21中任一项所述的asr系统(118)，其特征在于，所述可学习融合模块(240)被配置为计算所述解码器(215)的内部语言模型分数和所述外部语言模型(230)的外部语言模型分数的每个词元融合权重。

23.如权利要求13–22中任一项所述的asr系统(118)，其特征在于，最小加性错误率包括最小词语错误率。

24.如权利要求13–17和19–23中任一项所述的asr系统(118)，其特征在于：

技术总结
方法(400)包括：使用音频编码器(210)生成声学帧(110)序列中的每个声学帧的更高阶特征表示(212)；使用解码器(215)基于更高阶特征表示生成多个语音辨识假设，每个假设对应于候选转录并且具有相关联的第一似然分数；使用外部语言模型(230)针对每个假设生成第二似然分数；使用可学习融合模块(240)针对每个假设，基于更高阶特征表示和假设来确定融合权重集合；以及使用可学习融合模块，针对每个假设基于第一似然分数、第二似然分数和融合权重集合生成第三似然分数，在存在外部语言模型的情况下，使用最小加性错误率训练对音频编码器和解码器进行训练。

技术研发人员：汪蔚然,陈同舟,塔拉·N·萨纳特,伊赫桑·瓦兰尼,罗希特·普拉巴瓦尔卡尔,罗尼·黄,布瓦那·拉马巴德兰,高尔·尼拉杰,塞邦德·马万达迪,查尔斯·凯莱布·佩瑟,特雷弗·施特勒曼,何仰璋,大卫·里巴赫
受保护的技术使用者：谷歌有限责任公司
技术研发日：
技术公布日：2024/12/2

文档序号 : 【 40203479 】

技术研发人员：汪蔚然,陈同舟,塔拉·N·萨纳特,伊赫桑·瓦兰尼,罗希特·普拉巴瓦尔卡尔,罗尼·黄,布瓦那·拉马巴德兰,高尔·尼拉杰,塞邦德·马万达迪,查尔斯·凯莱布·佩瑟,特雷弗·施特勒曼,何仰璋,大卫·里巴赫
技术所有人：谷歌有限责任公司

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

汪蔚然丨陈同舟丨塔拉·N·萨纳特丨伊赫桑·瓦兰尼丨罗希特·普拉巴瓦尔卡尔丨罗尼·黄丨布瓦那·拉马巴德兰丨高尔·尼拉杰丨塞邦德·马万达迪丨查尔斯·凯莱布·佩瑟丨特

致动器的制作方法 1,1,1,3,5,5,5-七氟-2-戊烯的制造方法与流程