基于神经网络预训练大模型的旁路定向微调方法和系统与流程

本技术涉及自然语言处理,具体涉及一种基于神经网络预训练大模型的旁路定向微调方法和系统。
背景技术:
1、随着神经网络技术在人工智能领域的广泛应用,基于神经网络的大模型也迎来了一系列重大突破,其代表了自然语言处理(natural language processing, nlp)技术的最前沿。这类模型通过海量数据的训练,学习到了丰富的语言知识和复杂的语义理解能力,从而使其能够执行各种任务,例如文本生成、问答系统、机器翻译、文本摘要等。
2、当人们与大模型交互时,除了关注大模型回复的具体答案,或多或少也会受到输出文本语气情绪的影响。目前对于大模型的训练主要关注其工程性能,例如准确性、可靠性、鲁棒性等,而缺乏对大模型输出文本情感倾向的考虑。
3、此外,大模型由于庞大的参数量,对其进行完整的训练需要消耗大量的计算资源,这使得在实际应用中对大模型进行完整的训练变得异常困难。目前主流的方式是在例如chatgpt、llama等现有预训练大模型的基础上进行高效微调,使用这种方式可以对模型的一部分参数进行训练,极大地减少了训练的计算量。但是目前高效微调也仅关注其工程性能,没对输出文本的语气情绪进行定向的引导。例如,对于网络购物平台的智能客服,希望其与客户交流时,语气是开朗乐观的,这样可以提高客户的交流体验;对于智能问诊平台,希望其与病人交流时,语气是积极乐观的,可以给病人一定的安慰和鼓励;现有模型没有考虑情感倾向,其输出的情绪是随机的,会对客户的回复产生抱怨的情绪,或者对病人的回复产生消极的情绪,降低用户体验感。
技术实现思路
1、为了解目前大模型训练过程中缺乏对输出文本情感倾向的考虑,导致用户在与大语言模型交互时,体验感较差的问题,本技术提出了一种基于神经网络预训练大模型的旁路定向微调方法和系统,本技术通过在预训练大模型的旁路进行高效微调,同时约束模型的工程性能与情感倾向,使得大模型的输出在满足一般性工程性能的基础上,能够倾向于指定的情绪,提高了大模型在实际应用过程中的体验感。
2、一方面,本技术通过下述技术方案实现:
3、一种基于神经网络预训练大模型的旁路定向微调方法,所述方法包括:
4、从原始问答数据集中剔除情感置信度不满足情绪阈值的数据得到新的问答数据集,并将所述新的问答数据集划分训练集和测试集;
5、采用所述训练集在预训练大模型的旁路进行微调,同时约束模型的工程性能与情感倾向;迭代更新模型权重参数,当工程性能指标与情感倾向指标同时达到设定阈值时,结束训练,得到最终模型;并计算所述最终模型在所述测试集上的工程性能指标以及情感倾向指标;
6、选择不同的情绪阈值重复上述步骤,得到不同情绪阈值下的多个最终模型,适用不同任务要求。
7、在一些实施方式中,所述的从原始问答数据集中剔除情感置信度不满足情绪阈值的数据得到剔除后的新的问答数据集,具体包括:
8、采用情感分析系统对所述原始问答数据集中每条回复进行情感分析,得到每条回复情感倾向为正面的置信度;
9、遍历所述原始问答数据集,将情感置信度小于等于情绪阈值的数据剔除,得到新的问答数据集。
10、在一些实施方式中,所述的采用所述训练集在预训练大模型的旁路进行微调,同时约束模型的工程性能与情感倾向,具体包括:
11、在预训练大模型的旁路引入低秩矩阵来修改所述预训练模型的权重矩阵,具体表示为:
12、
13、其中,表示第次迭代时的权重矩阵,表示第次迭代时的权重矩阵,和分别表示两个低秩旁路矩阵,采用全零初始化,采用高斯初始化,表示控制更新强度的参数;
14、采用优化算法对大模型网络进行迭代更新,采用的损失函数为:
15、
16、其中,为损失函数,表示反映模型工程性能的损失,表示情绪惩罚项损失,为控制情绪惩罚项损失强度的参数。
17、在一些实施方式中,采用负对数似然损失函数,具体表示为:
18、
19、其中,表示批大小,表示新的问答数据集中用户的第个问题,表示新的问答数据集中针对第个问题的回复。
20、在一些实施方式中,具体表示为:
21、
22、其中,表示针对第个问题计算得到的情绪惩罚项损失,表示对应于的大模型的实际输出。
23、在一些实施方式中,所述预训练大模型采用chatgpt或llama。
24、另一方面,本技术还提出了一种基于神经网络预训练大模型的旁路定向微调系统,所述系统包括:
25、数据处理模块,所述数据处理模块从原始问答数据集中剔除情感置信度不满足情绪阈值的数据得到新的问答数据集,并将所述新的问答数据集划分为训练集和测试集;
26、迭代训练模块,所述迭代训练模块采用所述训练集在预训练大模型的旁路进行微调,同时约束模型的工程性能与情感倾向;迭代更新模型权重参数,当工程性能指标与情感倾向指标同时达到设定阈值时,结束训练,得到最终模型;并计算所述最终模型在所述测试集上的工程性能指标以及情绪倾向指标;
27、以及,输出模块,所述输出模块通过调整情绪阈值,驱动所述数据处理模块和迭代训练模型的不同情绪阈值下的多个最终模型并输出。
28、在一些实施方式中,所述数据处理模块还包括:
29、数据采集单元,所述数据采集单元用于获取原始问答数据集;
30、情感分析单元,所述情感分析单元采用情感分析系统对所述原始问答数据集中每条回复进行情感分析,得到其情感倾向为正面的置信度;
31、筛选单元,所述筛选单元遍历所述原始问答数据集,将情感置信度小于等于所述情绪阈值的数据剔除,得到新的问答数据集;
32、以及,划分单元,所述划分单元将所述新的问答数据集划分为训练集与测试集。
33、在一些实施方式中,所述迭代训练模块在所述预训练大模型的旁路引入低秩矩阵来修改所述预训练模型的权重矩阵,具体表示为:
34、
35、其中,表示第次迭代时的权重矩阵,表示第次迭代时的权重矩阵,和分别表示两个低秩旁路矩阵,采用全零初始化,采用高斯初始化,表示控制更新强度的参数;
36、所述迭代训练模块采用优化算法对大模型网络进行迭代更新,采用的损失函数为:
37、
38、其中,为损失函数,表示反映模型工程性能的损失,表示情绪惩罚项损失,为控制情绪惩罚项损失强度的参数。
39、在一些实施方式中,采用负对数似然损失函数,具体表示为:
40、
41、其中,表示批大小,表示新的问答数据集中用户的第个问题,表示新的问答数据集中针对第个问题的回复;
42、具体表示为:
43、
44、其中,表示针对第个问题计算得到的情绪惩罚项损失,表示对应于的大模型的实际输出。
45、本技术提出的一种基于神经网络预训练大模型的旁路定向微调方法和系统,在预训练大模型的旁路进行高效微调的基础上,同时约束模型的工程性能与情感倾向,即通过同时融合工程性能的损失与情感倾向的损失作为总的损失,对模型进行迭代训练,使得大模型的输出在满足一般工程性能的基础上,能够倾向于指定的情绪,提高了用户的体验感;
46、本技术提出的一种基于神经网络预训练大模型的旁路定向微调方法和系统,通过设置不同阈值可训练得到多个大模型,适用于不同任务的要求。
技术研发人员:白登辉,王家良,赵红蕾,付韵潮,邱翔,曾丽竹,邱壮,刘艳
技术所有人:四川省建筑设计研究院有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
