首页  专利技术  电子电路装置的制造及其应用技术

一种大语言模型隐私保护的处理方法与流程

2025-08-30 14:00:07 524次浏览
一种大语言模型隐私保护的处理方法与流程

本发明涉及隐私保护领域,尤其涉及一种大语言模型隐私保护的处理方法。


背景技术:

1、随着大语言模型(llm)技术的快速发展,其在自然语言处理任务中的应用越来越广泛,例如文本生成、机器翻译、问答系统等。然而,在利用llm进行任务处理过程中,用户输入的提示词(prompt)可能会包含用户的隐私信息,如家庭住址、手机号码、姓名等。如何有效地保护这些隐私信息,避免其被泄露,成为了llm应用中的一个重要问题。

2、根据中国专利公告号:cn117521116b,公开的一种大语言模型隐私信息保护方法,包括:获取大语言模型相关参数;对获取得到的大语言模型相关参数进行预处理得到不同维度分词数据,根据大语言模型相关参数计算不同维度分词数据的同类语义集合并计算不同维度分词的重要关联评价系数;利用大语言模型相关参数获取同义词词林编码,计算不同时刻处不同维度分词的关联相似指数,根据不同时刻处不同维度分词的关联相似指数计算聚类评价函数并获取高频隐私信息簇;根据高频隐私信息簇对大语言模型相关参数获取脱敏替换文本序列,根据脱敏替换文本序列对大语言模型隐私信息进行保护。本发明提高了对大语言模型隐私信息保护的可靠性。但该方法仍面临着如何保证图数据库的准确性和完整性、如何计算不同维度分词的重要关联评价系数、如何确定高频隐私信息簇的阈值、如何确保脱敏替换文本序列的准确性等挑战。因此,开发更加智能、灵活、精准的隐私保护方法,是推动大语言模型应用发展的重要方向。


技术实现思路

1、针对现有技术的不足,本发明提供了一种大语言模型隐私保护的处理方法,解决了现有技术仍面临着如何保证图数据库的准确性和完整性、如何计算不同维度分词的重要关联评价系数、如何确定高频隐私信息簇的阈值、如何确保脱敏替换文本序列的准确性等挑战的问题。

2、为实现以上目的,本发明通过以下技术方案予以实现:一种大语言模型隐私保护的处理方法,包括:

3、数据预处理模块,用于对输入的提示词进行自然语言断句、分词和标点符号处理;

4、实体识别模块,使用命名实体识别技术从预处理后的提示词中识别出潜在的实体信息;

5、图数据库模块,存储和管理已知的公共实体信息,并提供查询接口;

6、实体分类模块,基于图数据库查询结果,将识别出的实体分类为公共实体信息和私有实体信息;

7、信息脱敏模块,对识别出的私有实体信息进行脱敏处理,同时保留公共实体信息;

8、结果输出模块,输出处理后的提示词,供大语言模型使用。

9、优选的,所述数据预处理模块还包括:

10、自然语言断句单元,用于将提示词分割成独立的句子;

11、分词单元,用于将句子分割成独立的词语;

12、标点符号处理单元,用于去除或替换句子中的标点符号。

13、优选的,所述实体识别模块使用基于深度学习的命名实体识别模型,例如bilstm-crf模型,bilstm-crf模型结合了双向长短时记忆网络(bilstm)和条件随机场(crf)的优点,用于序列标注任务,例如命名实体识别;

14、bilstm:bilstm是一种循环神经网络(rnn),它能够捕捉序列数据中的长距离依赖关系;bilstm由两个方向的长短时记忆网络(lstm)组成,分别处理序列的前向和后向信息,从而获得序列的完整表示,bilstm模型由两个方向的长短时记忆网络(lstm)组成,分别处理序列的前向和后向信息,从而获得序列的完整表示;其计算公式如下:

15、

16、其中,和分别是lstm模型在时间步t的后向和前向隐状态,xt是输入序列在时间步t的特征向量,表示向量拼接;

17、crf:crf是一种概率图模型,它能够对序列标签进行建模,并考虑标签之间的约束关系;crf能够在预测标签时,考虑相邻标签之间的关联性,从而提高标签预测的准确性,crf模型用于对序列标签进行建模,并考虑标签之间的约束关系;其计算公式如下:

18、

19、p(yt|y<t)=exp(θtf(y<t,xt))

20、f(y<t,xt)=[f1(y<t,xt),f2(y<t,xt),...,fn(y<t,xt)]

21、θ=θ1,θ2,...,θn

22、其中,p(yt|y<t)是给定前t-1个标签时,第t个标签的概率,p(yt,y<t)是给定前t-1个标签和第t个标签的联合概率,f(y<t,xt)是特征函数,θ是模型参数;

23、通过结合bilstm和crf,bilstm-crf模型能够更好地捕捉序列数据中的长距离依赖关系,并考虑标签之间的约束关系,从而提高命名实体识别的准确性。

24、优选的,所述图数据库模块采用neo4j系统,用于存储实体信息及其之间的关系;

25、它使用图结构来存储数据,其中节点表示实体,边表示实体之间的关系;neo4j支持使用cypher查询语言来查询和操作图数据,具体步骤如下:

26、步骤一:在预处理后的提示词中,实体识别模块使用命名实体识别技术来识别潜在的实体信息;这可以通过基于规则的方法或基于深度学习的方法来实现;基于规则的方法可能涉及使用正则表达式匹配或词典匹配,而基于深度学习的方法可能涉及使用lstm或bert模型等;

27、步骤二:实体分类模块基于图数据库查询结果,将识别出的实体分类为公共实体信息和私有实体信息;这可能涉及使用基于图的算法,如社区检测算法来识别实体集合,并使用图遍历算法来判断实体之间的关联关系;

28、步骤三:信息脱敏模块对识别出的私有实体信息进行脱敏处理;这可能涉及使用替换脱敏技术,例如将私有实体替换为预定义的掩码符号;脱敏策略的选择可能基于实体的类型和敏感程度;

29、步骤四:图数据库模块使用图数据库管理系统,例如neo4j,用于存储实体信息及其之间的关系;查询算法可能涉及使用cypher查询语言,通过图遍历算法(如深度优先搜索(dfs)或广度优先搜索(bfs))来检索与特定实体相关的信息。

30、优选的,所述实体分类模块包括:

31、实体查询单元,用于根据识别出的实体信息向图数据库发送查询请求;

32、结果解析单元,用于解析图数据库返回的查询结果,判断实体信息属于公共实体还是私有实体。

33、优选的,所述信息脱敏模块采用替换脱敏技术,例如将私有实体替换为预定义的掩码符号。

34、优选的,所述结果输出模块包括:

35、脱敏文本生成单元,用于根据脱敏处理后的实体信息生成脱敏文本;

36、文本重构单元,用于将脱敏文本与其他非实体信息进行拼接,形成完整的提示词。

37、优选的,所述图数据库模块还包括:实体关联关系单元,用于存储和管理实体之间的关联关系,例如上下位关系、同义关系等,以便于实体分类模块更准确地判断实体信息的属性。

38、优选的,所述实体识别模块还包括:实体类型识别单元,用于识别实体的类型,例如人名、地名、组织机构名等,以便于实体分类模块进行更细致的分类。

39、优选的,所述信息脱敏模块还包括:脱敏策略选择单元,根据实体的类型和敏感程度选择合适的脱敏策略,例如替换脱敏、加密脱敏、匿名化脱敏等,以提高隐私保护的效果,利用图数据库来区分公共实体信息和私有实体信息的隐私保护处理方法,有效解决了现有技术中提示词信息不完整的问题,通过保留提示词中的公共实体信息,本发明确保了大语言模型能够接收到完整的信息,从而提升了大语言模型在处理含有隐私信息提示词时的任务处理能力。

40、有益效果

41、本发明提供了一种大语言模型隐私保护的处理方法。与现有技术相比具备以下有益效果:

42、1、本发明中,通过利用图数据库准确识别和区分公共实体和私有实体,仅对私有实体进行脱敏处理,从而保留了提示词中的公共实体信息,确保llm能够接收到完整的公共信息,llm能够更好地理解用户意图,并准确完成特定任务,从而能够更准确地理解用户意图,并提供更精准的答案,通过保留提示词中的公共实体信息,本发明确保了大语言模型能够接收到完整的信息,从而提升了大语言模型在处理含有隐私信息提示词时的任务处理能力,同时,本发明通过精准脱敏技术,仅对用户隐私信息进行脱敏处理,有效保护了用户隐私安全,避免了用户隐私信息泄露的风险,从而增强了用户对大语言模型的信任度,本发明在各个领域具有广泛的应用前景,例如智能客服、智能搜索、智能写作、智能健康、智能金融等,能够有效提升用户体验和应用效果,本发明避免了传统方法中公共信息误脱的问题,确保了llm能够获取到完整的信息,从而提升了llm的任务处理能力,llm能够更好地理解用户意图,并准确完成特定任务,避免了信息丢失带来的不便,从而提升用户体验和应用效果;

43、2、本发明有效保护了用户隐私安全,避免了用户隐私信息泄露的风险,从而增强了用户对llm的信任度,用户更加放心地使用llm进行各种任务处理,从而促进了llm的广泛应用和普及。

文档序号 : 【 40048629 】

技术研发人员:林博,李俊纬,吴舒妍,郑焕彬
技术所有人:广东爱因智能科技有限公司

备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
林博李俊纬吴舒妍郑焕彬广东爱因智能科技有限公司
一种基于直线扫描的裂缝识别方法、设备及介质与流程 一种面向网络商品直播销售的实时监测系统的制作方法
相关内容