首页  专利技术  电子电路装置的制造及其应用技术

一种大语言模型安全优化方法、装置、设备及介质

2025-08-23 15:40:06 318次浏览

技术特征:

1.一种大语言模型安全优化方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取攻击任务数据集;其中,所述攻击任务数据集包括至少一种攻击任务类型和所述攻击任务类型下的多个恶意指令数据,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述恶意指令数据生成所述攻击任务类型对应的通用词级对抗后缀,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据目标候选token集构建词级对抗后缀集,并对所述词级对抗后缀集中的词级对抗后缀进行攻击评估,根据攻击评估结果确定所述攻击任务类型对应的所述通用词级对抗后缀,包括:

5.根据权利要求1所述的方法,其特征在于,所述根据所述通用词级对抗后缀生成所述恶意指令数据对应的目标词级对抗后缀,包括:

6.根据权利要求1所述的方法,其特征在于,所述目标语义级对抗提示的获取方式包括:

7.根据权利要求1所述的方法,其特征在于,所述第一次微调和/或所述第二次微调采用参数高效微调peft技术。

8.一种大语言模型安全优化装置,其特征在于,所述装置包括:

9.一种计算机设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至7中任一项所述的大语言模型安全优化方法。


技术总结
本申请涉及人工智能安全技术领域,公开了一种大语言模型安全优化方法、装置、设备及介质,包括:获取攻击任务数据集;其中,所述攻击任务数据集包括至少一种攻击任务类型和所述攻击任务类型下的多个恶意指令数据;根据所述恶意指令数据生成所述攻击任务类型对应的通用词级对抗后缀,并根据所述通用词级对抗后缀生成所述恶意指令数据对应的目标词级对抗后缀;基于所述目标词级对抗后缀对所述大语言模型进行第一次微调,得到第一微调模型;基于获取到的目标语义级对抗提示对所述第一微调模型进行第二次微调,得到第二微调模型。本申请能够提升大语言模型对各种已知和未知形式的越狱攻击的抵御能力。

技术研发人员:刘帆,许钊,刘浩
受保护的技术使用者:香港科技大学(广州)
技术研发日:
技术公布日:2024/11/18
文档序号 : 【 40048875 】

技术研发人员:刘帆,许钊,刘浩
技术所有人:香港科技大学(广州)

备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
刘帆许钊刘浩香港科技大学(广州)
抗干扰的载脂蛋白E测定试剂盒、制备方法及检测方法与流程 基于改进YOLOv8的柑橘成熟度检测方法和相关装置
相关内容