标记语言文件的文本提取方法、装置、设备和存储介质与流程
技术特征:
1.一种标记语言文件的文本提取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在对所述待处理标记语言文件进行流式分片内容读取和文本提取,得到组成所述待处理标记语言文件的各分片内容对应的文本提取结果时,包括:
3.根据权利要求2所述的方法,其特征在于,在计算出所述当前时刻分片大小后还,还包括:
4.根据权利要求2所述的方法,其特征在于,在判断所述当前时刻分片大小大于所述当前系统剩余内存时,将执行以下操作:
5.根据权利要求2所述的方法,其特征在于,在对所述当前时刻分片内容中的标记信息进行检测和删除,得到所述当前时刻分片内容对应的文本提取结果时,包括:
6.根据权利要求5所述的方法,其特征在于,在判断所述当前时分片内容中不存在包括完整标记信息的文本内容的时,执行以下操作:
7.根据权利要求1-6中任一项所述的方法,其特征在于,在判断所述待处理标记语言文件不是大文件的情况下,直接读取所述待处理标记语言文件的全部内容,检测并删除所述待处理标记语言文件中的标记信息,得到所述待处理标记语言文件对应的文本文件。
8.一种标记语言文件的文本提取装置,其特征在于,包括:
9.一种标记语言文件的文本提取设备,其特征在于,包括:
10.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。
技术总结
本公开提供了一种标记语言文件的文本提取方法、装置、设置和存储介质,该方法包括:获取待处理标记语言文件以及待处理标记语言文件的文件大小;基于文件大小以及当前系统剩余内存,判断待处理标记语言文件是否为大文件;在判断待处理标记语言文件为大文件的情况下,对待处理标记语言文件进行流式分片内容读取和文本提取,得到组成待处理标记语言文件的各分片内容对应的文本提取结果;将各分片内容对应的文本提取结果以流式分片的方式发送至目标服务器,以使目标服务器对各分片内容对应的文本提取结果进行组合,得到待处理标记语言文件对应的文本文件。通过对大文件进行流式分片处理,可以提高文本信息的提取效率,避免文本信息的提取报错。
技术研发人员:杨长春,苏晨,常杰毅
受保护的技术使用者:北京正元智晟科技有限公司
技术研发日:
技术公布日:2024/11/26
文档序号 :
【 40123596 】
技术研发人员:杨长春,苏晨,常杰毅
技术所有人:北京正元智晟科技有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
技术研发人员:杨长春,苏晨,常杰毅
技术所有人:北京正元智晟科技有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
