一种大模型的安全性测评方法、装置及设备与流程

2026-05-28 11:40:01 327次浏览

本文件涉及计算机，尤其涉及一种大模型的安全性测评方法、装置及设备。

背景技术：

1、近年来，大模型（如gpt、bert等）的使用日益广泛，在各个领域展现出了巨大的潜力。以大语言模型为例，目前，大语言模型已经被应用于机器翻译、文本生成、问答系统、摘要生成、情感分析、隐私数据的分析与保护等多个领域，为人们提供了高效、准确的自然语言处理解决方案。随着技术的进步和模型的不断优化，大语言模型的应用范围还在进一步扩大，对各行各业产生深远影响，推动着人工智能技术的发展和普及。

2、然而，大语言模型作为一种特殊的神经网络模型，同样可能受到各种对于常用的神经网络的攻击，如越狱攻击等，尽管大语言模型使用了各种防御方式（如通过rlhf等进行安全对齐），但仍然会受到各式各样精心设计的越狱攻击。大语言模型作为广泛使用的自然语言处理工具，确保其安全性变得至关重要，而上述攻击对大语言模型的安全造成了严重的威胁。为此，需要提供一种较优的大模型的安全性测评方案，以能够准确有效的判断大模型是否存在越狱攻击风险。

技术实现思路

1、本说明书实施例的目的是提供一种较优的大模型的安全性测评方案，以能够准确有效的判断大模型是否存在越狱攻击风险。

2、为了实现上述技术方案，本说明书实施例是这样实现的：

3、本说明书实施例提供的一种大模型的安全性测评方法，所述方法包括：获取用于对目标大模型进行安全性测评所需使用的测试集，所述测试集中包括测试样本数据和所述测试样本数据对应的标签信息。确定所述测试集中的测试样本数据中后门触发器的停用词权重比例阈值，并基于所述停用词权重比例阈值对预设的多个初始停用词组中的基准停用词当前所在的初始停用词组进行调整，得到多个目标停用词组。将所述测试集中的测试样本数据中包含的当前处于第一目标停用词组的停用词，使用所述多个目标停用词组中除所述第一目标停用词组之外的其它目标停用词组中与所述停用词相匹配的基准停用词替换，直到所述测试集中的测试样本数据中包含的停用词对应的停用词权重比例满足预设条件，得到替换后的测试样本数据和所述标签信息构成的测试集。基于替换后的测试样本数据和所述标签信息构成的测试集对所述目标大模型进行安全性测评，以判断所述目标大模型是否存在越狱攻击风险。

4、本说明书实施例提供的一种大模型的安全性测评装置，所述装置包括：测试集获取模块，获取用于对目标大模型进行安全性测评所需使用的测试集，所述测试集中包括测试样本数据和所述测试样本数据对应的标签信息。词组调整模块，确定所述测试集中的测试样本数据中后门触发器的停用词权重比例阈值，并基于所述停用词权重比例阈值对预设的多个初始停用词组中的基准停用词当前所在的初始停用词组进行调整，得到多个目标停用词组。停用词替换模块，将所述测试集中的测试样本数据中包含的当前处于第一目标停用词组的停用词，使用所述多个目标停用词组中除所述第一目标停用词组之外的其它目标停用词组中与所述停用词相匹配的基准停用词替换，直到所述测试集中的测试样本数据中包含的停用词对应的停用词权重比例满足预设条件，得到替换后的测试样本数据和所述标签信息构成的测试集。风险测评模块，基于替换后的测试样本数据和所述标签信息构成的测试集对所述目标大模型进行安全性测评，以判断所述目标大模型是否存在越狱攻击风险。

5、本说明书实施例提供的一种大模型的安全性测评设备，所述大模型的安全性测评设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：获取用于对目标大模型进行安全性测评所需使用的测试集，所述测试集中包括测试样本数据和所述测试样本数据对应的标签信息。确定所述测试集中的测试样本数据中后门触发器的停用词权重比例阈值，并基于所述停用词权重比例阈值对预设的多个初始停用词组中的基准停用词当前所在的初始停用词组进行调整，得到多个目标停用词组。将所述测试集中的测试样本数据中包含的当前处于第一目标停用词组的停用词，使用所述多个目标停用词组中除所述第一目标停用词组之外的其它目标停用词组中与所述停用词相匹配的基准停用词替换，直到所述测试集中的测试样本数据中包含的停用词对应的停用词权重比例满足预设条件，得到替换后的测试样本数据和所述标签信息构成的测试集。基于替换后的测试样本数据和所述标签信息构成的测试集对所述目标大模型进行安全性测评，以判断所述目标大模型是否存在越狱攻击风险。

6、本说明书实施例还提供了一种存储介质，所述存储介质用于存储计算机可执行指令，所述可执行指令在被处理器执行时实现以下流程：获取用于对目标大模型进行安全性测评所需使用的测试集，所述测试集中包括测试样本数据和所述测试样本数据对应的标签信息。确定所述测试集中的测试样本数据中后门触发器的停用词权重比例阈值，并基于所述停用词权重比例阈值对预设的多个初始停用词组中的基准停用词当前所在的初始停用词组进行调整，得到多个目标停用词组。将所述测试集中的测试样本数据中包含的当前处于第一目标停用词组的停用词，使用所述多个目标停用词组中除所述第一目标停用词组之外的其它目标停用词组中与所述停用词相匹配的基准停用词替换，直到所述测试集中的测试样本数据中包含的停用词对应的停用词权重比例满足预设条件，得到替换后的测试样本数据和所述标签信息构成的测试集。基于替换后的测试样本数据和所述标签信息构成的测试集对所述目标大模型进行安全性测评，以判断所述目标大模型是否存在越狱攻击风险。

7、本说明书实施例还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下流程：获取用于对目标大模型进行安全性测评所需使用的测试集，所述测试集中包括测试样本数据和所述测试样本数据对应的标签信息。确定所述测试集中的测试样本数据中后门触发器的停用词权重比例阈值，并基于所述停用词权重比例阈值对预设的多个初始停用词组中的基准停用词当前所在的初始停用词组进行调整，得到多个目标停用词组。将所述测试集中的测试样本数据中包含的当前处于第一目标停用词组的停用词，使用所述多个目标停用词组中除所述第一目标停用词组之外的其它目标停用词组中与所述停用词相匹配的基准停用词替换，直到所述测试集中的测试样本数据中包含的停用词对应的停用词权重比例满足预设条件，得到替换后的测试样本数据和所述标签信息构成的测试集。基于替换后的测试样本数据和所述标签信息构成的测试集对所述目标大模型进行安全性测评，以判断所述目标大模型是否存在越狱攻击风险。

技术特征：

1.一种大模型的安全性测评方法，所述方法包括：

2.根据权利要求1所述的方法，所述方法还包括：

3.根据权利要求1所述的方法，所述确定所述测试集中的测试样本数据中后门触发器的停用词权重比例阈值，包括：

4.根据权利要求1或3所述的方法，所述基于所述停用词权重比例阈值对预设的多个初始停用词组中的基准停用词当前所在的初始停用词组进行调整，得到多个目标停用词组，包括：

5.根据权利要求1所述的方法，所述目标大模型是基于人类反馈强化学习rlhf得到的大模型，所述方法还包括：

6.根据权利要求5所述的方法，所述第一标签信息中包括将所述第一测试样本数据输入到所述奖励模型中后输出的一个或多个不同的输出数据，所述方法还包括：

7.根据权利要求6所述的方法，所述替换后的第一标签信息包括多个不同的替换后的输出数据，所述多个不同的替换后的输出数据之间的区分度大于预设区分度阈值。

8.根据权利要求1所述的方法，所述将所述测试集中的测试样本数据中包含的当前处于第一目标停用词组的停用词，使用所述多个目标停用词组中除所述第一目标停用词组之外的其它目标停用词组中与所述停用词相匹配的基准停用词替换，直到所述测试集中的测试样本数据中包含的停用词对应的停用词权重比例满足预设条件，得到替换后的测试样本数据和所述标签信息构成的测试集，包括：

9.根据权利要求8所述的方法，所述第一自然语言处理模型是基于bert构建的模型，所述第二自然语言处理模型是基于bert构建的模型。

10.根据权利要求8所述的方法，所述方法还包括：

11.一种大模型的安全性测评装置，所述装置包括：

12.一种大模型的安全性测评设备，所述大模型的安全性测评设备包括：

技术总结
本说明书实施例公开了一种大模型的安全性测评方法、装置及设备，该方法包括：获取用于对目标大模型进行安全性测评所需使用的测试集，测试集中包括测试样本数据和对应的标签信息；确定测试样本数据中后门触发器的停用词权重比例阈值，基于停用词权重比例阈值对预设的多个初始停用词组中的基准停用词当前所在的初始停用词组进行调整，得到多个目标停用词组；将测试样本数据中包含的当前处于第一目标停用词组的停用词，使用多个目标停用词组中的其它目标停用词组中与停用词相匹配的基准停用词替换，直到停用词权重比例满足预设条件，得到替换后的测试集；基于替换后的测试集对目标大模型进行安全性测评，以判断目标大模型是否存在越狱攻击风险。

技术研发人员：徐恪,李奥,赵乙,朱敏,王维强,傅幸,孟昌华,祝慧佳
受保护的技术使用者：支付宝（杭州）信息技术有限公司
技术研发日：
技术公布日：2024/11/28

文档序号 : 【 40163390 】

技术研发人员：徐恪,李奥,赵乙,朱敏,王维强,傅幸,孟昌华,祝慧佳
技术所有人：支付宝（杭州）信息技术有限公司

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

徐恪丨李奥丨赵乙丨朱敏丨王维强丨傅幸丨孟昌华丨祝慧佳丨支付宝（杭州）信息技术有限公司