基于融合高效参数迁移的老-汉神经机器翻译方法及装置

本发明涉及基于融合高效参数迁移的老-汉神经机器翻译方法及装置,属于自然语言处理。
背景技术:
1、迁移学习中的词嵌入迁移主要通过提高父子语言间的词表对齐来提升模型迁移效果,泰语和老挝语由于字符编码不一致难以进行对齐。罗马化可以有效提高泰语和老挝语文本的相似性,但我们发现在罗马化过程中却会出现原始文本语义丢失的情况。具体而言,我们发现罗马化转写过程中存在多个字符罗马化为同一字符的情况,由于泰语和老挝语的许多字符发音相同,导致其罗马化表示也相同。这种多个字符罗马化为同一字符的情况,会使得泰语和老挝语文本罗马化转写后出现语义丢失的问题,使得模型无法有效学习泰语和老挝语的语言知识,从而影响模型翻译性能。
技术实现思路
1、针对以上问题,本发明提供了基于融合高效参数迁移的老-汉神经机器翻译方法及装置,用于提升老挝到汉语的翻译性能。
2、本发明的技术方案是:第一方面,本发明提供基于融合高效参数迁移的老-汉神经机器翻译方法,所述方法包括:
3、步骤1、文本数据预处理:构建泰语-汉语和老挝语-汉语双语平行语料,利用泰语和老挝语的罗马化转写工具将泰语和老挝语转写为对应的罗马化文本字符表示;
4、步骤2、罗马化信息融合:利用原始文本信息进行信息补充,将原始文本信息与罗马化文本字符表示相融合;
5、步骤3、融合高效参数迁移的老-汉神经机器翻译模型训练及以及老-汉神经机器翻译:在泰-汉翻译模型迁移到老-汉翻译模型阶段加入适配器对模型进行调整,减少模型训练过程的训练参数,将训练好的模型进行保存,部署到服务器上,实现老挝语文本翻译为汉语。
6、作为本发明的进一步方案,所述步骤1包括:
7、步骤1.1、从opus和亚洲语言树库上获取泰语-汉语、老挝语-汉语和泰语-老挝语双语平行语料,从泰语-汉语双语网站获取泰语-汉语可比语料;通过网页标签清除、正则匹配和长度筛查方式对可比语料进行清洗,利用发音相似性,对句子进行相似度计算,筛选出高匹配度的泰语-汉语、老挝语-汉语伪平行语料,在此基础上进行人工标注得到泰语-汉语、老挝语-汉语平行语料作为实验数据集,并划分训练集、验证集和测试集;
8、步骤1.2、利用泰语、老挝语罗马化工具对步骤1.1中的泰语-汉语和老挝语-汉语平行语料进行罗马化处理,得到罗马化转写的泰语-汉语和老挝语-汉语平行语料。
9、作为本发明的进一步方案,所述步骤2包括:
10、步骤2.1、额外引入泰语和老挝语的原始文本来补充罗马化转写所缺失的文本语义信息;
11、步骤2.2、分别对原始文本和罗马化文本进行向量化表示,并通过使用交叉注意力机制,让罗马化文本的向量能关注到原始文本的语言信息,补充罗马化转写过程中丢失的语义信息;对于原始文本和罗马化文本,其中m,n分别为罗马化后文本长度和原始文本的长度;将原始文本x和罗马化文本x_rom送入嵌入层embedding得到原始文本向量表征和罗马化文本向量表征,如下面公式所示;
12、;
13、;
14、步骤2.3、使用分别交叉注意力机制和自注意力机制对原始文本向量表征和罗马化文本向量表征进行处理,得到融合原始文本信息的特征和罗马化文本特征;
15、步骤2.4、对融合原始文本信息的特征和罗马化文本特征进行加权融合得到最终的特征表示h,α为超参数,如下式所示:
16、。
17、作为本发明的进一步方案,所述步骤2.3中,计算融合原始文本信息的特征时,罗马化文本向量表征为查询向量,原始文本向量表征为键向量和值向量,通过交叉注意力机制得到融合原始文本信息的特征,如下式所示:
18、。
19、作为本发明的进一步方案,所述步骤2.3中,计算罗马化文本特征时,采用自注意力机制,罗马化文本向量表征分别作为查询向量、键向量和值向量,通过自注意力层得到罗马化文本特征,如下式所示:
20、。
21、作为本发明的进一步方案,所述步骤3包括:
22、步骤3.1、训练泰-汉神经机器翻译模型:利用泰语-汉语语料和泰语的罗马化文本训练泰-汉神经机器翻译模型作为基础模型;训练时通过交叉注意力机制将泰语原始文本和泰语罗马化文本进行信息融合;
23、步骤3.2、模型迁移:在进行模型迁移阶段,将泰语罗马化文本表示部分进行迁移;对于原始文本表示部分,利用泰语和老挝语的词频相关性进行迁移,将泰语和老挝语的子词词嵌入按照词频高低顺序进行迁移;
24、步骤3.3、模型迁移微调:将训练好的泰-汉神经机器翻译模型迁移到老-汉神经机器翻译模型,使用步骤3.1中罗马化的老挝语-汉语平行语料对迁移后的老-汉神经机器翻译模型进行适配器微调;
25、步骤3.4、将步骤3.3训练出的模型保存为“.pt”格式,通过flask框架将模型加载于内存中;利用flask框架将模型部署为一个api接口;在web端通过调用部署到服务器端的老-汉神经机器翻译模型,来对输入的老挝语进行翻译,进而得到老挝语对应的汉语翻译效果。
26、第二方面,本发明还提供基于融合高效参数迁移的老-汉神经机器翻译装置,该装置包括用于执行上述第一方面的方法的模块。
27、本发明的有益效果是:
28、1、本发明为了缓解罗马化转写过程中出现的多个字符罗马化为同一字符导致的语义丢失问题,引入原始文本信息对罗马化丢失信息进行补充;
29、2、本发明融合高效参数迁移的老-汉神经机器翻译方法,通过引入适配器(adapter)对迁移后的模型进行调整,减少模型训练过程中的训练参数,提升模型训练效率;
30、3、本发明对输入的老挝语句子进行翻译,本发明有效提升了老挝语到汉语的翻译效果。
技术特征:
1.基于融合高效参数迁移的老-汉神经机器翻译方法,其特征在于:所述方法包括:
2.根据权利要求1所述的基于融合高效参数迁移的老-汉神经机器翻译方法,其特征在于:所述步骤1包括:
3.根据权利要求1所述的基于融合高效参数迁移的老-汉神经机器翻译方法,其特征在于:所述步骤2包括:
4.根据权利要求3所述的基于融合高效参数迁移的老-汉神经机器翻译方法,其特征在于:所述步骤2.3中,计算融合原始文本信息的特征时,罗马化文本向量表征为查询向量,原始文本向量表征为键向量和值向量,通过交叉注意力机制得到融合原始文本信息的特征,如下式所示:
5.根据权利要求3所述的基于融合高效参数迁移的老-汉神经机器翻译方法,其特征在于:所述步骤2.3中,计算罗马化文本特征时,采用自注意力机制,罗马化文本向量表征分别作为查询向量、键向量和值向量,通过自注意力层得到罗马化文本特征,如下式所示:
6.根据权利要求1所述的基于融合高效参数迁移的老-汉神经机器翻译方法,其特征在于:所述步骤3包括:
7.基于融合高效参数迁移的老-汉神经机器翻译装置,其特征在于,包括用于执行如权利要求1-6任一权利要求所述的方法的模块。
技术总结
本发明涉及融合高效参数迁移的老‑汉神经机器翻译方法及装置,属于自然语言处理技术领域。为了解决罗马化过程中出现多个字符转写为同一罗马化字符导致语义信息丢失的问题,影响泰语到老挝语的迁移效果,本发明提出了一种融合高效参数迁移的老‑汉神经机器翻译方法,包括文本数据预处理、罗马化信息融合、融合高效参数迁移的老‑汉神经机器翻译模型训练以及老‑汉神经机器翻译四个部分构成。根据这四个部分功能模块化制成融合高效参数迁移的老‑汉神经机器翻译装置,对输入的老挝语句子进行翻译,本发明有效提升了老挝语到汉语的翻译效果。
技术研发人员:毛存礼,刘开荣,张思琦,余正涛,高静,高盛祥,宋燃,王振晗
受保护的技术使用者:昆明理工大学
技术研发日:
技术公布日:2024/11/28
技术研发人员:毛存礼,刘开荣,张思琦,余正涛,高静,高盛祥,宋燃,王振晗
技术所有人:昆明理工大学
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
