首页  专利技术  电子电路装置的制造及其应用技术

基于类增量学习的小样本命名实体识别方法及装置与流程

2025-07-02 13:20:07 399次浏览
基于类增量学习的小样本命名实体识别方法及装置与流程

本发明涉及自然语言处理领域,更为具体的,涉及一种基于类增量学习的小样本命名实体识别方法及装置。


背景技术:

1、在动态环境下的ie任务,尤其是命名实体识别(ner)任务,传统方法面临的主要挑战之一是在测试数据上的实体类别可能未在训练集中出现过,这要求模型能够增量学习新的实体类别,即当新实体类别在训练数据中缺乏代表性时,模型需要能够适应性地学习这些新类别,同时不丢失已经学到的知识。受限于隐私和数据可访问性问题,原始的训练数据可能不再可用,这进一步复杂了在新类别上进行模型微调的任务,可能导致在旧类别上的知识遭受灾难性遗忘。

2、有学者在ner任务中实现连续学习,使模型能够在学习新实体类别时保持对旧类别的识别能力。这通常涉及一种机制来平衡新旧知识的学习,从而减少灾难性遗忘,比如通过使用经验回放或知识蒸馏技术来重现旧类别的信息,确保模型不会在学习新类别时忘记旧类别。还有学者提出通过对模型参数施加约束来减轻灾难性遗忘,使得那些对之前任务性能至关重要的参数在学习新任务时变化得较少。基于此,一些学者提出结合元学习和增量学习,利用少量样本对模型进行快速适应,同时通过一定的策略(如模型正则化、样本再加权等)来保留对旧任务的知识。

3、在基于类增量学习的小样本命名实体识别中,假设有一系列数据集d1,...,dt,...,每个数据集的实体类别互不相交,t表示时间步长,而包含ct个实体类别。其中,和分别代表标记序列和标签序列,其长度为ni,而|dt|是数据集的大小。数据集d1是基础数据集,具有相对较大的规模以覆盖时间步长t=1的所有类别。数据集dtt>1是少样本数据集,每个类别大约有k个样本。在少样本类增量学习中,模型将会随着时间逐渐用d1,d2,...进行增量训练,且在第t个时间步长仅可使用dt中的数据。在用dt训练模型之后,模型将会在d1,...,dt中遇到的所有实体类别上进行联合评估,即不为每个时间步长学习单独的预测模块。

4、现有技术通常需要大量的数据支持,与现实情况的需求相去甚远。并且,在更加现实的场景中,现有方法缺乏泛化性。这包括:(1)仅使用少量新类样本进行增量学习;(2)不依赖旧类的训练数据。在这样的场景中,面临的挑战比传统的类增量学习要更大,首先是因为少样本数据集可能不包含足够的信息使得训练模型在测试时能够得到良好的泛化性能。其次,当旧类别的数据不可用且新类别的数据稀缺时,解决灾难性遗忘问题更具挑战性。


技术实现思路

1、本发明的目的在于克服现有技术的不足,提供一种基于类增量学习的小样本命名实体识别方法及装置,为在资源受限的环境中持续改进ner模型打开了新的可能性,展现了其在实际应用中处理动态变化数据流的巨大潜力。

2、本发明的目的是通过以下方案实现的:

3、一种基于类增量学习的小样本命名实体识别方法,包括以下步骤:

4、通过调整已训练模型,将生成的数据用于模拟旧类别的特征,从而帮助模型在蒸馏过程中保留这些旧信息;采用对抗性学习,将合成数据的隐藏特征与真实的新类别数据对齐,使合成数据在语义上与真实样本更加相近,最终结合合成数据和对抗学习完成命名实体识别。

5、进一步地,所述通过调整已训练模型,将生成的数据用于模拟旧类别的特征,从而帮助模型在蒸馏过程中保留这些旧信息;采用对抗性学习,将合成数据的隐藏特征与真实的新类别数据对齐,使合成数据在语义上与真实样本更加相近,最终结合合成数据和对抗学习完成命名实体识别,具体包括子步骤:

6、s1,基类学习:采用ebp-uie模型作为基础模型,首先在基础数据集d1上进行训练,构建特征提取器和针对基础类别的分类器,以使每个基础类别拥有充足的训练样本;

7、s2,增量学习:从第二个时间步长开始,模型在逐步展现的样本数据集d1,...,dt上进行增量学习,同时不断调整和更新整个模型。

8、进一步地,在步骤s1中,所述基类学习包括以下子步骤:

9、步骤s11:基于提示学习的输入数据预处理,通过将修饰过程抽象为提示函数fprompt(·),其接受输入文本x作为输入,则输出得到提示x′=fprormpt(x)。

10、进一步地,在步骤s1中,所述ebp-uie模型包括输入层、特征提取层和输出层,还包括以下子步骤:

11、s12:ebp-uie模型的输入层由输入文本和嵌入层组成,对于步骤s11中的x′,首先对输入文本进行预处理;之后,这些预处理过的文本被送入嵌入层转换为数值型向量,以符合特征提取模型的输入格式;输入向量由三部分组成:词向量etoken、段向量eseg和位置向量epos,最终的输入向量为这三个向量的加和;

12、s13:ebp-uie模型中用一个ernie和一个双向长短时记忆网络bilstm作为特征抽取器;在处理ernie模型输出的隐层向量时,bilstm层不仅进一步提取特征,而且还用于实现抽取要素与原始文本特征的深度融合;经过特征提取层的处理后,得到一个对输入序列每个位置的表征z=z1z...zn;

13、s14:ebp-uie模型的输出层由两层由softmax分类网络组成的指针网络pn构成,用于预测文本片段的开始和结束位置;文本通过特征提取层编码后得到了对文本的编码z=z1z...zn,指针网络对每个位置i上的词的编码zi分别计算其为开始位置和结束位置的分数pstart(i)和pend(i);最后,模型通过解码策略,以精确定位特定信息片段在文本中的具体区间。

14、进一步地,在步骤s2中,所述增量学习,包括以下步骤:

15、步骤s21:构造真实和合成数据,真实数据是当前时间步的模型遇到的新数据集dt,合成数据是通过模型合成的数据;

16、步骤s22:真实数据蒸馏,使用真实数据集dt对上一时间步的模型进行蒸馏,以构建初步的学生模型;通过用教师模型对数据进行预测得到每个实体开始和结束位置的得分,这个得分被做为soft-target标签来训练学生模型,学生模型通过在训练时模仿教师模型的输出soft-target以及真实数据的标签hard-target进行学习,以便在学习新知识的同时记住旧知识;

17、步骤s23:合成数据蒸馏,将合成数据和真实数据dt结合进行对抗训练,通过在向量嵌入中加入细微的扰动,模型被迫对输入变化进行学习,最后,采用蒸馏的方式进行进一步的学习,使学生模型适合于资源受限情况。

18、进一步地,在步骤s12中,对于词向量etoken,将中文文本按字符切分,每个汉字独立成为一个词元,将句子进行分词后,每个词元对应到词汇表中的唯一标识符id,这些id被进一步转化为0-1编码,再通过与训练好的词嵌入矩阵相乘,产生最终的词向量etoken;

19、对于段向量eseg,通过识别[sep]标记来区分句子对,其中位于第一个[sep]标记之前的所有词元被编码为段向量0,而第一个[sep]标记之后的词元则被编码为段向量1;

20、对于位置向量epos,采用可学习的位置嵌入向量,用于提供最长512个字符的位置信息编码。

21、进一步地,在步骤s21中,合成数据的构造过程包括如下步骤:

22、首先,从实体类别集合中随机采样标签序列y;这些标签序列代表了合成数据中包含的实体类型;

23、接着,随机初始化一个嵌入序列e,这个序列与预期的标签序列y长度相同;嵌入序列e代表了将要生成的合成数据的原始形式,在优化过程开始时是随机的;使用模型mt-1和梯度下降法来优化嵌入序列e:将e作为模型的输入,并计算模型输出与预期标签序列y之间的损失;然后,根据这个损失计算e的梯度,并使用梯度下降法更新e,以使模型mt-1的输出更接近于预期的标签序列y;损失函数如下:

24、

25、重复上述步骤,直到嵌入序列e在模型mt-1下的输出与预期的标签序列y达到足够的匹配度或者达到预设的迭代次数,得到的e即为合成数据。

26、进一步地,在步骤s22中,包括子步骤:在真实数据蒸馏中,引入一个温度参数t,通过调整t的值能够控制输出分布的平滑程度。

27、进一步地,在步骤s23中,包括子步骤:采用基于梯度的方法确定更有效的对抗扰动方向,将梯度上升方向作为对抗扰动的方向,并据此引入对抗扰动以优化损失函数。

28、一种基于类增量学习的小样本命名实体识别装置,包括处理器和存储器,所述存储器中存储有计算机程序,当计算机程序被处理器加载时执行如上任一项所述的方法。

29、本发明的有益效果包括:

30、本发明技术方案中,提出了ebp-uie模型(自命名术语),通过实现在大量数据上进行预训练,学习到了命名实体识别任务的通用方法,能够在少样本的任务上表现依旧良好。

31、本发明技术方案中,使用了知识蒸馏的方法,将模型在先前时间步中学到的知识,有效的传递给了新的模型,降低了模型对知识的遗忘率。

32、本发明技术方案中,构思采用的基于梯度下降的合成数据生成方式,有效的弥补了在训练样本较少的情况下,数据不足的问题,进一步提高了少样本情况下的命名实体识别效果。

33、本发明技术方案中,针对训练数据加入的基于梯度上升的数据扰动方法,让模型能够学习到各种数据中最本质的知识,极大的增加了模型的健壮性和灵活性。

文档序号 : 【 40050706 】

技术研发人员:王侃,刘万里,陈俞舟,刘鑫,刘禄波,雍新有,蔡世民
技术所有人:中国电子科技集团公司第十研究所

备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
王侃刘万里陈俞舟刘鑫刘禄波雍新有蔡世民中国电子科技集团公司第十研究所
极化微晶协同超声产生活性粒子的装置与方法及其应用与流程 一种基于负载分类的交流电弧故障检测方法及系统与流程
相关内容