一种面向大模型安全评测的评测样本自动生成方法及装置
技术特征:
1.一种面向大模型安全评测的评测样本自动生成方法,其特征在于,包括:
2.如权利要求1所述的面向大模型安全评测的评测样本自动生成方法,其特征在于,包括:
3.如权利要求1所述的面向大模型安全评测的评测样本自动生成方法,其特征在于,该安全风险类别包括:违法犯罪类别、身心健康类别、伦理道德类别以及言语辱骂类别。
4.如权利要求1所述的面向大模型安全评测的评测样本自动生成方法,其特征在于,该互联网包括新闻网站和社交网站。
5.一种面向大模型安全评测的评测样本自动生成装置,其特征在于,包括:
6.如权利要求5所述的面向大模型安全评测的评测样本自动生成装置,其特征在于,包括:
7.如权利要求5所述的面向大模型安全评测的评测样本自动生成装置,其特征在于,该安全风险类别包括:违法犯罪类别、身心健康类别、伦理道德类别以及言语辱骂类别。
8.如权利要求5所述的面向大模型安全评测的评测样本自动生成装置,其特征在于,该互联网包括新闻网站和社交网站。
9.一种电子设备,其特征在于,包括权利要求5-8所述的一种面向大模型安全评测的评测样本自动生成装置,该电子设备连接或有信息显示设备,该信息显示设备用于以用户设置的显示参数、属性或通过人工智能模型,显示该测试样本。
10.一种存储介质,用于存储一种执行权利要求1-4所述面向大模型安全评测的评测样本自动生成方法的计算机程序。
技术总结
本发明提出一种面向大模型安全评测的评测样本自动生成方法和装置,包括:测评问题集包含多个用于测试大语言模型安全性的评测样本,以具有诱导内容的任务提示为输入,以该任务提示对应的该评测样本标签,微调训练大语言模型输出评测样本,得到评测样本生成模型;根据评测样本的安全风险类别,构建检索问句,检索互联网中属于该安全风险类别的数据资料;根据该安全风险类别以及该数据资料,合成提示文本;从该测评问题集中抽取属于该安全风险类别的评测样本填充至该提示文本后作为任务提示输入该评测样本生成模型,生成用于测试大语言模型的测试样本。
技术研发人员:景少玲,石智超,尹芷仪,沈华伟,王晓诗,成艺
受保护的技术使用者:中国科学院计算技术研究所
技术研发日:
技术公布日:2024/11/26
文档序号 :
【 40123919 】
技术研发人员:景少玲,石智超,尹芷仪,沈华伟,王晓诗,成艺
技术所有人:中国科学院计算技术研究所
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
技术研发人员:景少玲,石智超,尹芷仪,沈华伟,王晓诗,成艺
技术所有人:中国科学院计算技术研究所
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
