首页  专利技术  电子电路装置的制造及其应用技术

一种基于先验篇章关系的半监督稳定变分对话生成方法

2025-05-03 16:40:07 59次浏览
一种基于先验篇章关系的半监督稳定变分对话生成方法

本发明涉及自然语言处理以及对话系统,具体为基于先验篇章关系的半监督稳定变分对话生成方法。


背景技术:

1、随着人工智能领域研究的不断深入发展,人机对话系统成为了近几年的热门研究问题之一,也是尝试用机器技术代替部分人工的重要一步。对话系统具有便捷性和自然性,将成为未来人与计算机交流的主要方式之一。对话系统根据其应用,通常分为任务型对话系统和开放域对话系统两类。开放域对话系统在现实生活中具有广阔的应用前景,同时它也是一项复杂的任务。其中,回复生成研究是对话系统的重要研究方向之一,该任务旨在使机器模拟人类根据对话历史句子进行自然语言回复的预测生成。对于开放域多轮对话,由于其场景的复杂性导致研究难度较大,仍是当前值得深入研究的问题。近年来,预训练语言模型(pretrained language models,plms)在自然语言生成领域被广泛地探索,这种预训练-微调范式在各种下游任务上取得了令人印象深刻的成功,包括对话生成、机器翻译和文本摘要等。

2、通用的、乏味的回复是生成式对话系统中长期存在的问题,由于训练数据集中诸如“我不知道”之类的通用回复频率很高,以及多数模型的束集搜索(beam search)解码方案,生成式对话模型倾向于以被普遍接受但无意义的句子进行回复。同时,与大多数自然语言生成任务不同,对话生成任务面临“一对多”问题,即给定的对话上下文可能对应于多个合理的回复。现有的研究方法引入了隐变量来表示高级语义内容以提高生成回复的多样性,但仍存在一些问题。一方面,保持模型生成的回复的相关性和连贯性是一项具有挑战性的任务。在连续隐空间分布中,针对相似的上下文可以采样完全不同的隐变量,因此对于给定的相似的上下文,生成的回复可能会截然不同,如此,模型为了多样性和信息性而牺牲了太多的相关性和连贯性。另一方面,强大的预训练编码器-解码器模型与简单隐变量分布(通常采用多元高斯分布)的组合通常面临kullback-leibler(kl)散度崩溃问题。具体来说,损失函数中的kl散度项鼓励近似后验接近高斯先验,从而使前者的隐空间未被使用,即该空间上的隐变量对于解码器来说成为了毫无价值的全局指导。


技术实现思路

1、本发明的目的是为了克服现有技术中的不足,提供一种基于先验篇章关系的半监督稳定变分对话生成方法,该方法包含一个有监督的对话篇章关系规划条件变分自编码器和一个无监督的对话篇章关系感知的生成模块,应用预训练语言模型bart作为骨干模型,并通过vmf分布采样连续的隐变量。条件变分自编码器将上下文的最后一个句子和目标回复句子拼接为论元对后编码,并采样获得对话篇章关系特定的隐变量。生成模块融合先验对话篇章关系隐变量和全局上下文信息,以促进生成多样化和篇章关系敏感的回复。条件变分自编码器和生成模块分别采用条件变分自编码器和变分自编码器优化技术来学习具有连续隐变量的模型。最终得到的对话生成结果相较于现有模型在blue-n,distinct-n等评价指标上表现更好。

2、本发明的目的是通过以下技术方案实现的:

3、一种基于先验篇章关系的半监督稳定变分对话生成方法,包括以下步骤:

4、s1.构建基于编码器-解码器基本框架的预训练语言模型bart;

5、s2.利用先验对话篇章关系作为额外的引导信号来生成更具体的回复,基于vmf分布与bart编码器构建条件变分自编码器,用于上下文的篇章关系特征提取,得到给定对话上下文的篇章关系隐变量zdr;实现有监督的对话篇章关系规划;

6、s3.在用于重构数据集中每段对话回复的编码器-解码器基本框架上引入vmf分布和给定对话上下文的篇章关系隐变量zdr构成一个基于vmf分布的生成模块,得到回复y;实现无监督的对话篇章关系感知的回复生成;

7、s4.基于上述条件变分自编码器和生成模块得到改进后的预训练语言模型bart,通过联合训练优化变分自编码器和生成模块的损失函数实现对改进后的预训练语言模型bart的优化,实现预测生成每段对话上下文c的回复y。

8、进一步的,在数据集中,每段对话d由上下文句子和回复构成;其中,每段对话中的上下文句子表示为c=(u1,u2,…,ut),ui表示上下文中的第i个句子,i=1,2,3…t,t表示对话上下文共包含t个句子,具体形式为wi,j表示第i个句子中的第j个词,|ui|表示句子ui中的单词数目;每段对话中的回复表示为y=(wy,1,wy,2,…wy,j,…,wy,|y|),wy,j表示回复中的第j个词,|y|表示回复y中包含的单词数;为得到数据集需要进行如下处理:

9、(101)删除数据集中的原始对话长度小于3或大于15的对话以规范化对话长度;

10、(102)将数据集中每段对话的最后一句视为目标回复,其余句子视为对话上下文。

11、进一步的,步骤s2和s3中,vmf分布即von mises-fisher分布,用于表示单位球面上的概率分布,d维的单位向量的概率密度函数如下:

12、

13、

14、其中,是归一化常数,表示单位球面上的方向向量,||μ||=1;κ≥0表示浓度参数,并被设置为常数;iρ代表第一类ρ阶修正的贝塞尔函数,其中ρ=d/2-1;上述分布指出了单位向量在球面上的分布情况;采用一个变分后验分布qφ(z|x)=vmf(z;μ,κ)近似真实的后验分布,平均方向μ是编码器的输出;对于vmf的采样,使用拒绝采样rejectionsampling方案来采样ω∈[-1,1],然后计算球面上平均向量μ处的随机单位向量正切v;如此,隐变量z通过进行计算。

15、进一步的,步骤s2具体包括:

16、将上下文的最后一句ut和目标回复y视为两个篇章单元dus,并使用特殊标识符[cls]将它们拼接成单个字符串s1,将特殊标识符[dru]与目标篇章关系dr拼接为s2,篇章关系共包含十六种类型,对应十六分类标签;然后将s1与s2拼接成单个字符串s,并输入到预训练语言模型bart的编码器得到隐状态表示

17、s={s1;s2}={[cls],ut,y;[dru],dr}      (3)

18、

19、然后,使用特殊标识符[cls]的隐状态表示作为篇章关系特征hdr,使用特殊标识符[dru]的隐状态表示作为标签hlabel;encoder表示编码器;

20、该条件变分自编码器采用先验分布和近似后验分布具体计算实现过程如以下公式所示:

21、

22、

23、

24、

25、其中,与是线性变换操作,‖·‖代表2-范数以确保标准化,与是具有相等值的常数;后验分布和先验分布之间的kl散度的计算过程如公式(9)所示:

26、

27、其中kl散度项通过避免kl散度为零来解决隐空间无效的问题,仅依赖于固定值的常数应用变分推理优化证据下界elbo,如公式(10)所示:

28、

29、其中表示重构误差;

30、在测试阶段没有对话篇章关系标签,因此从对话上下文中获得最后一个句子的表示,并利用训练阶段训练好的vmf分布来采样给定对话上下文的篇章关系隐变量zdr,以此实现先验篇章关系规划。

31、进一步的,步骤s3具体包括:

32、为促进预训练语言模型对上下文c的理解,采用预训练语言模型bart的编码器实现上下文编码,用于捕获全局上下文特征,首先使用bart编码器将ui∈c编码为向量表示hi,如公式(11)所示:

33、

34、其中是句子ui中第j个词的词嵌入向量,表示用于聚合句子序列表示的特殊标识符[cls],收集每个特殊标识符的隐状态表示来获取全局上下文特征;隐空间采用vmf分布,因此先验分布变分后验分布其中,g代表生成模块,zc代表全局的上下文特征隐变量,是条件变分自编码中识别网络的输出,为浓度参数,被设置为常数;具体计算过程如公式(12)和公式(13)所示:

35、

36、

37、其中,是线性变换操作,‖·‖代表2-范数,先验分布服从kl散度计算过程如公式(14)所示,其中γ(·)表示gama分布:

38、

39、将先验篇章关系视为额外的特定于上下文的特征,让给定对话上下文的篇章关系隐变量zdr参与解码生成过程则生成模块的elbo被定义为如公式(15)所示:

40、

41、其中表示重构误差。

42、进一步的,步骤s4具体包括:

43、改进后的训练语言模型bart集成了先验对话篇章关系规划和对话篇章关系感知的生成的功能,将条件变分自编码器和生成模块进行联合训练,结合条件变分自编码器和生成模块的损失函数,训练目标函数如公式(16)所示:

44、

45、其中α是一个可调节的超参数,用于控制回复生成和先验对话篇章关系规划两类损失函数的平衡;为条件变分自编码器的损失函数,为生成模块的损失函数。

46、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现所述基于先验篇章关系的半监督稳定变分对话生成方法的步骤。

47、本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现所述基于先验篇章关系的半监督稳定变分对话生成方法的步骤。

48、与现有技术相比,本发明的技术方案所带来的有益效果是:

49、1.针对开放域对话回复生成任务中存在的一对多和安全回复的问题,现存的研究方法引入隐变量来表示深层语义内容。然而,大多数研究集中在提高生成的回复的多样性而牺牲了语义连贯性。本发明方法提出了一个改进的预训练语言模型bart,该模型由一个有监督的篇章关系规划条件变分自编码器和一个无监督的对话篇章关系感知的生成模块组成。模型通过对话上下文与目标回复之间的篇章关系的约束来保持语义连贯性,条件变分自编码器提取特定于上下文的特征,然后将其注入生成模块以鼓励生成的回复的语义连贯性与相关性。

50、2.对于隐空间无效的问题,多数先前的研究提出采用较弱的解码器来匹配高斯样本,这本质上牺牲了模型的生成能力,与生成式对话模型目标不一致。本发明应用vmf分布来代替高斯分布作为隐空间,vmf分布可以通过设置固定方差来获得稳定的kl性能。

51、3.本发明在两个开源的对话数据集上与多个同类生成模型进行了比较,最终在bleu-n、distinct-n等不同的指标上本发明得到的综合结果优于同类生成模型;此外,不同的消融实验也证明了本发明提出的基于先验篇章关系的半监督稳定变分对话生成模型的合理性。

文档序号 : 【 39999385 】

技术研发人员:贺瑞芳,汪慧洁
技术所有人:天津大学

备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
贺瑞芳汪慧洁天津大学
一种高空间分辨率地下水储量异常模拟方法及系统 一种中性色低辐射镀膜玻璃的制作方法
相关内容