首页  专利技术  电子电路装置的制造及其应用技术

数据提取方法、装置、电子设备以及存储介质与流程

2025-09-07 10:40:02 644次浏览
数据提取方法、装置、电子设备以及存储介质与流程

本技术涉及信息安全,尤其涉及一种数据提取方法、装置、电子设备以及存储介质。


背景技术:

1、随着数字化进程的不断深入,对于纸质文本中的内容,需要转换为电子数据进行存储。

2、目前,将纸质文本中的内容转换为电子数据进行存储,主要采取的方式为:将纸质文本中的内容采用光学字符识别(optical character recognition,ocr),获得计算机可编辑的文本;然后,将文本和数据提取需求输入用于进行指定信息提取的通用模型,获得文本中的指定数据。接着,向用户展示指定数据。在用户确认指定数据无误的情况下,存储指定数据。在用户发现指定数据有误的情况下,根据用户指出的问题修改指定数据,进而存储修改后的指定数据。

3、然而,如果纸质文本中存在敏感信息,那么,在纸质文本转换为电子数据存储的过程中,纸质文本中的敏感信息就会存在泄露的风险,从而降低敏感信息的安全性。


技术实现思路

1、本技术实施例的目的是提供一种数据提取方法、装置、电子设备以及存储介质,以提高敏感信息的安全性。

2、为解决上述技术问题,本技术实施例提供如下技术方案:

3、本技术第一方面提供一种数据提取方法,所述方法包括:获取计算机可编辑文本;对所述计算机可编辑文本中的敏感数据进行加密和替换处理;将处理后的计算机可编辑文本和数据提取需求输入用于进行数据提取的通用模型,得到指定数据;对所述指定数据进行反替换和解密处理,得到处理后的指定数据。

4、相较于现有技术,本技术第一方面提供的数据提取方法,通过对计算机可编辑文本中的敏感数据进行加密和替换处理。这样,在使用通用模型对计算机可编辑文本进行数据提取时,敏感数据就不会暴漏,提高了待提取文本中敏感信息的安全性。并且,提取出指定数据后,对指定数据进行反向的替换和解密处理,得到包含敏感信息的数据。在确保敏感信息安全的同时,还不影响纸质文本中敏感信息的正常使用。

5、在本技术第一方面的一些变更实施方式中,所述对所述计算机可编辑文本中的敏感数据进行加密和替换处理,包括:识别所述计算机可编辑文本中的敏感数据;对所述敏感数据进行加密处理,得到加密数据;采用替换字符对所述加密数据进行替换,得到替换数据;将所述计算机可编辑文本中的敏感数据更换为所述替换数据。

6、由于替换前后的数据需要进行保留,以便恢复敏感数据时使用,因此,对于敏感数据,先进行加密处理,再进行替换处理,这样保留的替换前后的数据就是密文以及替换数据,避免了将敏感数据进行保留,进一步提高了敏感数据的安全性。

7、在本技术第一方面的一些变更实施方式中,在采用替换字符对所述加密数据进行替换之前,所述方法还包括:从字典中获取所述加密数据对应的随机数,其中,所述字典包括各个加密数据及其对应的随机数。

8、通过从字典中选择加密数据对应的替换字符对加密数据进行替换,由于查找的速度快于生成的速度,因此,能够提高替换字符的确定效率,进而提高加密数据的替换效率,进而提高纸质文本进行电子数据提取的效率。并且,采用随机数替换加密数据,由于随机数毫无规律可言,因此,能够提高替换数据反推的难度,进一步提高了敏感数据的安全性。

9、在本技术第一方面的一些变更实施方式中,所述各个加密数据由敏感信息经过加密处理后得到,所述敏感信息为目标对象的待处理文本中敏感的信息,所述目标对象为所述纸质文本的拥有者,各个加密数据对应的随机数均不相同,各个加密数据对应的随机数的位数不完全相同,各个加密数据对应的随机数的最大位数与加密数据的数量呈正相关;所述从字典中获取所述加密数据对应的随机数,包括:从字典中获取所述加密数据对应的原始随机数;判断所述原始随机数在所述字典中是否唯一;判断所述原始随机数的位数与此前预设次获取的随机数的位数是否存在不同;以及,判断所述原始随机数的位数是否小于或等于所述最大位数;若均判断为是,则将所述原始随机数作为所述加密数据对应的随机数。

10、获取字典中的随机数后,还需要再判断该随机数在字典中是否唯一,该随机数的位数与此前获取的若干随机数的位数是否存在不同,该随机数的位数是否小于预先确定的最大位数,以确定当前所使用的字典是否存在问题,确保随机数查找所使用的字典的准确性,进而提高随机数获取的准确性。使用正确的随机数进行替换,能够避免恶意第三方找出替换规律,进而反推出敏感数据,进一步提高敏感数据的安全性。

11、在本技术第一方面的一些变更实施方式中,所述字典按照预设周期或预设使用次数进行随机数更新;在从字典中获取所述加密数据对应的随机数之前,所述方法还包括:判断当前字典的使用时长是否超出预设周期,或者,判断当前字典的使用次数是否超出预设使用次数;若至少一项判断为是,则执行从字典中获取所述加密数据对应的随机数的步骤。

12、在使用字典前,先判断字典是否按照预设周期或者预设使用次数进行更新,以确保当前使用的字典为最新的字典,进而提高获取的随机数的准确性。使用正确的随机数进行替换,能够避免恶意第三方找出替换规律,进而反推出敏感数据,进一步提高敏感数据的安全性。

13、在本技术第一方面的一些变更实施方式中,在对所述敏感数据进行加密处理之前,所述方法还包括:获取所述纸质文本的安全等级;基于所述安全等级确定具有相应复杂度的加密算法,以使所述敏感数据采用所述相应复杂度的加密算法加密,其中,安全等级越高,加密算法的复杂度越高。

14、对敏感数据加密时,根据敏感数据所属纸质文本的安全等级,使用相应复杂度的加密算法进行加密,能够使敏感数据按照其安全等级采取相适配的加密算法进行加密,使得敏感数据的加密在安全性与加密效率中得以平衡,既能够确保敏感数据的安全,又不会过多影响加密效率。

15、在本技术第一方面的一些变更实施方式中,在将处理后的计算机可编辑文本和数据提取需求输入用于进行数据提取的通用模型之前,所述方法还包括:获取数据提取需求;判断所述数据提取需求中是否包含关于提取内容的需求;若是,则将处理后的计算机可编辑文本中,与所述关于提取内容的需求无关的内容删除,得到目标文本;所述将处理后的计算机可编辑文本和数据提取需求输入用于进行数据提取的通用模型,包括:将所述目标文本、所述数据提取需求以及提取语言模板输入用于进行指定信息提取的通用模型。

16、在使用通用模型对计算机可编辑文本中的数据进行提取前,如果数据提取需求中存在关于提取内容的需求,可以基于提取内容的需求将计算机可编辑文本中与需求内容无关的内容删除。这样,输入通用模型中的文本量就会所有减少,并且不会使通用模型从无关的内容中进行数据提取。在提高数据提取的效率的同时,还能够提高数据提取的准确性。

17、本技术第二方面提供一种数据提取装置,所述装置包括:获取模块,用于获取计算机可编辑文本;处理模块,用于对所述计算机可编辑文本中的敏感数据进行加密和替换处理;提取模块,用于将处理后的计算机可编辑文本和数据提取需求输入用于进行数据提取的通用模型,得到指定数据;反处理模块,用于对所述指定数据进行反替换和解密处理,得到处理后的指定数据。

18、本技术第三方面提供一种电子设备,所述电子设备包括:处理器、存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行第一方面中的方法。

19、本技术第四方面提供一种计算机可读存储介质,所述存储介质包括:存储的程序;其中,在所述程序运行时控制所述存储介质所在设备执行第一方面中的方法。

20、本技术第二方面提供的数据提取装置、第三方面提供的电子设备、第四方面提供的计算机可读存储介质,与第一方面提供的数据提取方法具有相同或相似的有益效果。

文档序号 : 【 40048445 】

技术研发人员:成树云,段海波
技术所有人:百融至信(北京)科技有限公司

备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
成树云段海波百融至信(北京)科技有限公司
一种基于多重一致性感知的目标识别方法及识别系统 一种基于污水处理厂高频入流数据的雨污管网降雨入流和溢流负荷估算方法、存储介质及设备与流程
相关内容