一种大语言模型安全优化方法、装置、设备及介质

2025-08-23 15:40:06 339次浏览

本技术涉及人工智能安全，尤其涉及一种大语言模型安全优化方法、装置、设备及介质。

背景技术：

1、近年来，大语言模型通过自监督预训练，掌握了大量自然语言知识，凭借其强大的语义理解和生成能力，在诸多复杂任务上取得了卓越表现。然而，近期研究发现，大语言模型也存在安全隐患，容易受到恶意设计的输入序列(即对抗性提示词prompt)的攻击而产生有害输出，这种攻击被称为“越狱攻击”。

2、针对上述问题，大语言模型虽然增加了防御措施，但现有的方法仅限于简单的修剪或过滤，缺乏对未知形式(例如语义级对抗)的有效防护能力。因此，急需解决如何提升大语言模型对各种已知和未知形式的越狱攻击的抵御能力。

技术实现思路

1、本技术提供一种大语言模型安全优化方法、装置、设备及介质，其解决了如何提升大语言模型对各种已知和未知形式的越狱攻击的抵御能力技术问题，达到了提升大语言模型防护能力的技术效果。

2、为了达到上述目的，本技术采用的主要技术方案包括：

3、第一方面，本技术实施例提供一种大语言模型安全优化方法，所述方法包括：

4、获取攻击任务数据集；其中，所述攻击任务数据集包括至少一种攻击任务类型和所述攻击任务类型下的多个恶意指令数据；

5、根据所述恶意指令数据生成所述攻击任务类型对应的通用词级对抗后缀，并根据所述通用词级对抗后缀生成所述恶意指令数据对应的目标词级对抗后缀；

6、基于所述目标词级对抗后缀对所述大语言模型进行第一次微调，得到第一微调模型；

7、基于获取到的目标语义级对抗提示对所述第一微调模型进行第二次微调，得到第二微调模型。

8、本技术实施例提出的一种大语言模型安全优化方法，首先获取和处理攻击任务数据集，然后生成通用词级对抗后缀和目标词级对抗后缀。这些后缀用于改变原始恶意指令数据的结构和含义，以增加其混淆性和难以检测性。通用对抗后缀通过规则或模式改变通用结构，目标对抗后缀则是为特定恶意指令数据量身定制的，旨在混淆其含义或执行路径。接着，使用目标词级对抗后缀微调大语言模型，使其能够识别并正确处理经过目标词级对抗后缀变换的恶意指令数据，提高模型对变异攻击的适应能力，从而提升整体安全性和抗攻击能力。然后利用目标语义级对抗提示进一步微调模型，以应对语义层面的攻击和混淆，使其在语义上更加稳健，能够正确解释并应对输入中的微小变化，从而避免输出错误结果。本实施例通过词级和语义级的两层模型优化能够有效应对已知和未知的形式的越狱攻击。

9、可选地，所述获取攻击任务数据集；其中，所述攻击任务数据集包括至少一种攻击任务类型和所述攻击任务类型下的多个恶意指令数据，包括：

10、获取恶意指令数据；

11、利用预设的指令嵌入模型对所述恶意指令数据进行聚类，得到至少一种所述攻击任务类型；

12、随机抽取每种所述攻击任务类型中的至少一个恶意指令数据，构建针对各个所述攻击任务类型的所述攻击任务数据集。

13、本实施例通过收集恶意指令数据，并利用指令嵌入模型将其转换为高维特征向量，以捕捉其语义信息。随后对这些数据进行聚类分析，有效地将具有相似语义特征的恶意指令数据分组，从而识别出不同的攻击任务类型。随机抽取每种攻击任务类型中至少一个恶意指令数据，形成专门的攻击任务数据集，有助于详细建立各种攻击场景模型。这些数据集可以用于训练和测试大语言模型安全，提高其对特定攻击类型的识别和防御能力。

14、可选地，所述根据所述恶意指令数据生成所述攻击任务类型对应的通用词级对抗后缀，包括：

15、确定所述恶意指令数据中每个token的梯度；

16、根据所述梯度，使用贪婪算法确定所述攻击任务类型对应的初始候选token集；

17、利用一阶梯度近似方法对所述初始候选token集进行筛选，得到所述攻击任务类型对应的目标候选token集；

18、根据所述目标候选token集构建词级对抗后缀集，并对所述词级对抗后缀集中的词级对抗后缀进行攻击评估，根据攻击评估结果确定所述攻击任务类型对应的所述通用词级对抗后缀。

19、本实施例首先针对每个恶意指令数据计算每个token的梯度，这些梯度反映了模型输出与攻击目标序列之间的差异。接着基于每个token的梯度，选择初始候选token集，这些token集有潜力最大地影响模型输出以符合攻击者的预期目标。然后，利用一阶梯度近似方法对初始候选token集进行筛选，以确定最终优化的目标候选token集，从而提升攻击成功率，使模型输出更符合攻击目标。最后，根据确定的目标候选token集构建词级对抗后缀集，目的是改变原始恶意指令数据的语义，使其更可能导致模型输出与攻击者预期相符。对词级对抗后缀集中的每个词级对抗后缀进行详细评估，以确保其在各种攻击任务中的通用性，从而得到通用的词级对抗后缀。

20、可选地，所述根据目标候选token集构建词级对抗后缀集，并对所述词级对抗后缀集中的词级对抗后缀进行攻击评估，根据攻击评估结果确定所述攻击任务类型对应的所述通用词级对抗后缀，包括：

21、对所述目标候选token集随机抽取至少一个token构建所述词级对抗后缀集；

22、对所述词级对抗后缀集中的词级对抗后缀进行攻击评估；

23、若当前迭代的词级对抗后缀的攻击成功率大于上一次迭代的词级对抗后缀的攻击成功率，则将当前迭代的词级对抗后缀确定为当前词级对抗后缀；

24、直至满足预设条件，将所述当前词级对抗后缀确定为所述攻击任务类型对应的所述通用词级对抗后缀。

25、本实施例从目标候选token集中随机抽取一个或多个token，形成词级对抗后缀集。这些词级对抗后缀可以改变恶意指令数据的形式和内容，以尝试规避模型的防御机制。接着将每个词级对抗后缀附加在恶意指令数据上，形成对抗样本。这些对抗样本输入到语言模型中，记录模型的响应，并评估是否成功攻击。如果当前迭代的词级对抗后缀的攻击成功率高于上一次迭代，则更新词级对抗后缀为当前迭代的版本。继续迭代更新词级对抗后缀，直到满足预设条件，最终确定能够普遍提高攻击成功率的通用对抗后缀。本实施例通过不断优化和选择词级对抗后缀，以提高攻击成功率，使得攻击变得更加难以检测和对抗，从而达到绕过语言模型防御的目的。

26、可选地，所述根据所述通用词级对抗后缀生成所述恶意指令数据对应的目标词级对抗后缀，包括：

27、根据所述通用词级对抗后缀，使用贪婪算法生成所述恶意指令数据对应的目标词级对抗后缀。

28、本实施例针对每个恶意指令数据生成一个定制的目标词级对抗后缀，使得对抗样本能够更有效地欺骗目标语言模型，提高攻击的成功率。

29、可选地，所述目标语义级对抗提示的获取方式包括：

30、确定攻击目标序列对应的初始语义级对抗提示；

31、将所述初始语义级对抗提示作为所述第一微调模型的输入，生成响应数据；

32、确定所述响应数据对应的越狱评估分数；

33、在所述越狱评估分数小于预设越狱阈值的情况下，迭代优化所述初始语义级对抗提示，直至在所述越狱评估分数大于等于所述预设越狱阈值的情况下，得到所述目标语义级对抗提示。

34、本实施例首先将针对攻击目标序列设计的初始语义级对抗提示输入第一微调模型进行微调。第一微调模型生成相应的输出数据，受到初始语义级对抗提示的影响，这些输出数据具体反映了模型对攻击提示的响应。接着，基于生成的响应数据进行越狱评估，并根据评估结果反馈调整初始语义级对抗提示，直到生成的响应数据的越狱评估分数达到预设越狱阈值。通过这种利用语义级对抗提示和迭代优化的方法，有效提升了攻击成功的概率，使生成的文本能够尽可能地接近预期的恶意或误导目标。

35、可选地，所述第一次微调和/或所述第二次微调采用参数高效微调peft技术。

36、本实施例采用参数高效微调peft技术能够实现在微调过程中只更新模型参数的一小部分，从而减少了训练资源的使用量。

37、第二方面，本技术实施例提供一种大语言模型安全优化装置，所述装置包括：

38、数据获取模块，用于获取攻击任务数据集；其中，所述攻击任务数据集包括至少一种攻击任务类型和所述攻击任务类型下的多个恶意指令数据；

39、词级对抗后缀生成模块，用于根据所述恶意指令数据生成所述攻击任务类型对应的通用词级对抗后缀，并根据所述通用词级对抗后缀生成所述恶意指令数据对应的目标词级对抗后缀；

40、第一微调模型生成模块，用于基于所述目标词级对抗后缀对所述大语言模型进行第一次微调，得到第一微调模型；

41、第二微调模型生成模块，用于基于获取到的目标语义级对抗提示对所述第一微调模型进行第二次微调，得到第二微调模型。

42、本技术实施例提出的一种大语言模型安全优化装置，首先获取和处理攻击任务数据集，然后生成通用词级对抗后缀和目标词级对抗后缀。这些后缀用于改变原始恶意指令数据的结构和含义，以增加其混淆性和难以检测性。通用对抗后缀通过规则或模式改变通用结构，目标对抗后缀则是为特定恶意指令数据量身定制的，旨在混淆其含义或执行路径。接着，使用目标词级对抗后缀微调大语言模型，使其能够识别并正确处理经过目标词级对抗后缀变换的恶意指令数据，提高模型对变异攻击的适应能力，从而提升整体安全性和抗攻击能力。然后利用目标语义级对抗提示进一步微调模型，以应对语义层面的攻击和混淆，使其在语义上更加稳健，能够正确解释并应对输入中的微小变化，从而避免输出错误结果。本实施例通过词级和语义级的两层模型优化能够有效应对已知和未知的形式的越狱攻击。

43、可选地，所述获取攻击任务数据集；其中，所述攻击任务数据集包括至少一种攻击任务类型和所述攻击任务类型下的多个恶意指令数据，包括：

44、获取恶意指令数据；

45、利用预设的指令嵌入模型对所述恶意指令数据进行聚类，得到至少一种所述攻击任务类型；

46、随机抽取每种所述攻击任务类型中的至少一个恶意指令数据，构建针对各个所述攻击任务类型的所述攻击任务数据集。

47、本实施例通过收集恶意指令数据，并利用指令嵌入模型将其转换为高维特征向量，以捕捉其语义信息。随后对这些数据进行聚类分析，有效地将具有相似语义特征的恶意指令数据分组，从而识别出不同的攻击任务类型。随机抽取每种攻击任务类型中至少一个恶意指令数据，形成专门的攻击任务数据集，有助于详细建立各种攻击场景模型。这些数据集可以用于训练和测试大语言模型安全，提高其对特定攻击类型的识别和防御能力。

48、可选地，所述根据所述恶意指令数据生成所述攻击任务类型对应的通用词级对抗后缀，包括：

49、确定所述恶意指令数据中每个token的梯度；

50、根据所述梯度，使用贪婪算法确定所述攻击任务类型对应的初始候选token集；

51、利用一阶梯度近似方法对所述初始候选token集进行筛选，得到所述攻击任务类型对应的目标候选token集；

52、根据所述目标候选token集构建词级对抗后缀集，并对所述词级对抗后缀集中的词级对抗后缀进行攻击评估，根据攻击评估结果确定所述攻击任务类型对应的所述通用词级对抗后缀。

53、本实施例首先针对每个恶意指令数据计算每个token的梯度，这些梯度反映了模型输出与攻击目标序列之间的差异。接着基于每个token的梯度，选择初始候选token集，这些token集有潜力最大地影响模型输出以符合攻击者的预期目标。然后，利用一阶梯度近似方法对初始候选token集进行筛选，以确定最终优化的目标候选token集，从而提升攻击成功率，使模型输出更符合攻击目标。最后，根据确定的目标候选token集构建词级对抗后缀集，目的是改变原始恶意指令数据的语义，使其更可能导致模型输出与攻击者预期相符。对词级对抗后缀集中的每个词级对抗后缀进行详细评估，以确保其在各种攻击任务中的通用性，从而得到通用的词级对抗后缀。

54、可选地，所述根据目标候选token集构建词级对抗后缀集，并对所述词级对抗后缀集中的词级对抗后缀进行攻击评估，根据攻击评估结果确定所述攻击任务类型对应的所述通用词级对抗后缀，包括：

55、对所述目标候选token集随机抽取至少一个token构建所述词级对抗后缀集；

56、对所述词级对抗后缀集中的词级对抗后缀进行攻击评估；

57、若当前迭代的词级对抗后缀的攻击成功率大于上一次迭代的词级对抗后缀的攻击成功率，则将当前迭代的词级对抗后缀确定为当前词级对抗后缀；

58、直至满足预设条件，将所述当前词级对抗后缀确定为所述攻击任务类型对应的所述通用词级对抗后缀。

59、本实施例从目标候选token集中随机抽取一个或多个token，形成词级对抗后缀集。这些词级对抗后缀可以改变恶意指令数据的形式和内容，以尝试规避模型的防御机制。接着将每个词级对抗后缀附加在恶意指令数据上，形成对抗样本。这些对抗样本输入到语言模型中，记录模型的响应，并评估是否成功攻击。如果当前迭代的词级对抗后缀的攻击成功率高于上一次迭代，则更新词级对抗后缀为当前迭代的版本。继续迭代更新词级对抗后缀，直到满足预设条件，最终确定能够普遍提高攻击成功率的通用对抗后缀。本实施例通过不断优化和选择词级对抗后缀，以提高攻击成功率，使得攻击变得更加难以检测和对抗，从而达到绕过语言模型防御的目的。

60、可选地，所述根据所述通用词级对抗后缀生成所述恶意指令数据对应的目标词级对抗后缀，包括：

61、根据所述通用词级对抗后缀，使用贪婪算法生成所述恶意指令数据对应的目标词级对抗后缀。

62、本实施例针对每个恶意指令数据生成一个定制的目标词级对抗后缀，使得对抗样本能够更有效地欺骗目标语言模型，提高攻击的成功率。

63、可选地，所述目标语义级对抗提示的获取方式包括：

64、确定攻击目标序列对应的初始语义级对抗提示；

65、将所述初始语义级对抗提示作为所述第一微调模型的输入，生成响应数据；

66、确定所述响应数据对应的越狱评估分数；

67、在所述越狱评估分数小于预设越狱阈值的情况下，迭代优化所述初始语义级对抗提示，直至在所述越狱评估分数大于等于所述预设越狱阈值的情况下，得到所述目标语义级对抗提示。

68、本实施例首先将针对攻击目标序列设计的初始语义级对抗提示输入第一微调模型进行微调。第一微调模型生成相应的输出数据，受到初始语义级对抗提示的影响，这些输出数据具体反映了模型对攻击提示的响应。接着，基于生成的响应数据进行越狱评估，并根据评估结果反馈调整初始语义级对抗提示，直到生成的响应数据的越狱评估分数达到预设越狱阈值。通过这种利用语义级对抗提示和迭代优化的方法，有效提升了攻击成功的概率，使生成的文本能够尽可能地接近预期的恶意或误导目标。

69、可选地，所述第一次微调和/或所述第二次微调采用参数高效微调peft技术。

70、本实施例采用参数高效微调peft技术能够实现在微调过程中只更新模型参数的一小部分，从而减少了训练资源的使用量。

71、第三方面，本技术实施例提供一种计算机设备，包括：

72、存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行上述所述的大语言模型安全优化方法。

73、第四方面，本技术实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机指令，所述计算机指令用于使计算机执行上述所述的大语言模型安全优化方法。

文档序号 : 【 40048875 】

技术研发人员：刘帆,许钊,刘浩
技术所有人：香港科技大学（广州）

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

刘帆丨许钊丨刘浩丨香港科技大学（广州）