一种专病数据库的质量检测方法、系统、设备及存储介质与流程

所属的技术人员能够理解,专病数据库的质量检测方法各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。本领域的技术人员应理解,上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的优势已经完整并有效地实现。本发明的功能及结构原理已在实施例中展示和说明,在没有背离所述原理下,本发明的实施方式可以有任何变形或修改。在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。更确切地说,发明方面在于少于前面公开的单个实施例的所有特征。本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的进行资源优化的服务器、客户端和系统等物理设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
背景技术:
1、目前医院系统的数据库中,存储着大量的病历信息。医生通过对某种疾病下所有病历信息的研究学习,能够促进医疗水平的进步。随着医院信息化建设的不断发展,为了方便为医疗专业人员、研究人员和患者等相关人群提供一个权威、准确的信息来源,以便更好地了解特定疾病的相关知识和信息,建立了专病数据库。
2、专病数据库是指针对特定疾病或病种建立的医学数据库或知识库。它通常包含了该疾病的临床特征、诊断标准、治疗方法、药物信息、预后评估等方面的专业知识和信息。它可以帮助医生进行疾病诊断和治疗决策,为研究人员提供疾病数据和研究进展,帮助患者了解和管理自身疾病。
3、在医疗信息化快速发展的背景下,专病数据库作为临床研究和诊疗的重要支撑,其数据质量直接关系到科研结果的准确性和临床决策的可靠性。目前,专病数据库的质量检测方法一般为人工抽检,需要耗费大量的人力物力。
4、为此,本发明提供一种专病数据库的质量检测方法、系统、设备及存储介质,以解决上述的技术问题。
技术实现思路
1、本发明的目的在于提供一种专病数据库的质量检测方法、系统、设备及存储介质,用于解决上述任一方面的技术问题。
2、为了实现上述目的,本发明提供如下技术方案:
3、第一方面,一种专病数据库的质量检测方法,所述专病数据库中存储了若干个字段类型的字段结果,所述方法包括:
4、获取待检测的专病数据库的字段类型;
5、构造若干个用于得到某一字段类型下的字段结果的问题;
6、将若干个得到该字段类型下的字段结果的问题统一管理构建成prompt题库;
7、读取专病数据库中该字段类型下的字段结果,并获取该字段结果所对应的原始医学文本,验证字段结果的准确性,选取部分验证通过的字段结果所对应的原始文本数据作为训练文本数据;
8、读取训练文本数据,并获取该训练文本数据在构造的问题下对应的字段结果,得到目标答案;
9、将训练文本数据、目标答案和prompt题库中的得到字段结果的问题输入到预先构建的质量检测模型中,对质量检测模型进行训练,得到训练好的质量检测模型;
10、将原始医学文本数据和得到该字段类型下的字段结果的问题输入到训练好的质量检测模型中,质量检测模型输出字段结果,将该字段结果与专病数据库中的字段结果的一致性进行判断,以判定专病数据库中的字段结果的准确性,从而检测专病数据库的质量。
11、进一步地,构造若干个用于得到某一字段类型下的字段结果的问题,其中:
12、对于专病数据库中的每个字段类型,至少分别构造三个得到字段结果的问题。
13、进一步地,读取专病数据库中该字段类型下的字段结果,并获取该字段结果所对应的原始医学文本,包括如下具体步骤:
14、使用数据库连接库或api建立与专病数据库的连接,并执行查询语句获取专病数据库中的字段结果;
15、通过专病数据库中的关联关系或索引,找到与字段结果对应的原始医学文本,并将获取到的原始医学文本进行输出。
16、进一步地,预先构建的质量检测模型为qwen1.5-14b模型。
17、进一步地,在将训练文本数据、目标答案和prompt题库中的得到字段结果的问题输入到预先构建的质量检测模型中,对质量检测模型进行训练,得到训练好的质量检测模型之后,还包括如下具体步骤:
18、将训练文本数据和prompt题库中的得到字段结果的问题输入到训练好的qwen1.5-14b模型中,训练好的qwen1.5-14b模型输出的预测字段结果;
19、通过损失函数,对获取目标答案与预测字段结果进行计算,得到计算结果;
20、通过adam优化器根据计算结果对qwen1.5-14b模型进行优化;
21、重复执行上述步骤,直至损失函数收敛,qwen1.5-14b模型的训练结束,得到优化后的qwen1.5-14b模型。
22、进一步地,在将原始医学文本数据和prompt题库中的得到该字段类型下的字段结果的问题输入到训练好的质量检测模型中,训练好的质量检测模型输出的预测字段结果之前,还包括:
23、设置qwen1.5-14b模型的训练参数,所述训练参数包括:batch_size、epoch和梯度累积。
24、进一步地,损失函数为交叉熵损失函数,交叉熵损失函数的表达式为:
25、
26、式中,表示损失函数,表示分类个数,表示标注数据中的真实值,表示模型预测值。
27、第二方面,一种专病数据库的质量检测系统,所述系统包括:
28、数据字段获取单元,用于获取待检测的专病数据库的字段类型;
29、问题构造单元,用于构造若干个用于得到某一字段类型下的字段结果的问题;
30、prompt题库构建单元,用于将若干个得到该字段类型下的字段结果的问题统一管理构建成prompt题库;
31、数据提取单元,用于读取专病数据库中该字段类型下的字段结果,并获取该字段结果所对应的原始医学文本,验证字段结果的准确性,选取部分验证通过的字段结果所对应的原始文本数据作为训练文本数据;
32、目标答案获取单元,用于读取训练文本数据,并获取该训练文本数据在构造的问题下对应的字段结果,得到目标答案;
33、质量检测模型训练单元,用于将训练文本数据、目标答案和prompt题库中的得到字段结果的问题输入到预先构建的质量检测模型中,对质量检测模型进行训练,得到训练好的质量检测模型;
34、质量检测单元,用于将原始医学文本数据和得到该字段类型下的字段结果的问题输入到训练好的质量检测模型中,质量检测模型输出字段结果,将该字段结果与专病数据库中的字段结果的一致性进行判断,以判定专病数据库中的字段结果的准确性,从而检测专病数据库的质量。
35、第三方面,一种电子设备,所述电子设备包括:
36、至少一个处理器;
37、以及与所述至少一个处理器通信连接的存储器;
38、存储器存储有可被至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述各方面所述的专病数据库的质量检测方法。
39、第四方面,一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方面所述的专病数据库的质量检测方法。
40、本发明的有益效果:
41、本发明通过训练质量检测模型,将原始医学文本数据和得到字段结果的问题输入到训练好的质量检测模型中,质量检测模型输出字段结果,将该字段结果与专病数据库中的字段结果的一致性进行判断,以判定专病数据库中的字段结果的准确性,从而检测专病数据库的质量,实现了对专病数据库质量的自动化检测,提高了专病数据库的质量检测的效率,大大降低了人力成本和时间成本。
42、本发明的这些和其它目的、特点和优势,通过下述的详细说明,得以充分体现。
技术研发人员:郭浩宇,王辉,蔡卓人,李涛,郭鹏
技术所有人:北方健康医疗大数据科技有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
