一种基于加权信息流数据增量网络的尘肺病智能诊断系统

本发明涉及医学图像处理领域,具体是一种基于加权信息流数据增量网络(weighted information flow data incremental network,widinet)的尘肺病智能诊断系统。
背景技术:
1、x射线胸片是临床诊断中最常用的医学影像检查之一。传统的医学胸片结果很大程度上依赖于操作者的经验和专业知识。随着职业性煤工尘肺新病例的增加,传统的诊断方法已无法满足患者的实际需求。尽管深度学习的强大优势确实可以弥补人工方法在实际工作中的不足,但由于医学数据集的数据量较小,深度模型的实际应用效果并不令人满意。之前的研究人员在解决数据不足问题上做了许多开创性的工作。例如基于模型泛化的思想设计了一种两阶段迁移学习方法tstl,以解决间歇性问题。尽管这种方法可以处理定性肺病的数据不足问题,但模型无法挖掘和获取散布在特定区域的细微信息。因此,研究人员设计了一种修改的反馈多项式神经网络用于流行肺病,通过训练过程中的反馈修正实现了相对较小的预测误差,但由于网络优化的限制,这种设计无法避免因数据集小而导致的模型不稳定问题。
2、与小数据集引发的模型训练问题不同,前沿研究人员发现更好的特征提取网络和算法往往能实现更好的实验结果,因此如何为模型设计特征提取学习模块是一个重要研究课题。一些研究者在总结前人工作的基础上,通过特征向量整合了多个检测模型。然而,集成检测的特征提取方法不仅扩展了不同模型的优势,也暴露了它们的劣势,从全局视角来看性能较差。另一些研究者则在提取算法上取得突破,利用提取的特征作为分类模型的变量来验证目标基因是否是肺腺癌的潜在药物靶点,但新算法的泛化能力不足,导致在不同研究领域应用时性能不佳。
技术实现思路
1、基于上述问题,本文提出了基于加权信息流数据增量网络(widinet)的尘肺病智能诊断系统,该系统首先利用随机属性掩蔽技术获取更高质量的增量数据,然后使用先验知识和多粒度注意力模块解决基于增量数据的特征筛选网络的低可靠性问题。最终,使用kl加权判断算法测量测试胸片与当前国家金标准之间的差异,实现目标任务的分期诊断。
2、本发明的技术方案如下:
3、一种基于加权信息流数据增量网络(widinet)的尘肺病智能诊断系统,其特征在于,包括数据预处理模块、基于随机属性掩蔽的增量数据模块(armgan)、基于先验知识的多粒度特征提取模块(mktransformer)和kl加权判断模块:
4、数据预处理模块:通过将收集到的尘肺病x射线胸片与正常胸片混合,并使用直方图均衡化技术来增强图像的对比度,为后续的armgan数据增量网络训练提供质量均衡且具有多样性的数据集;
5、基于随机属性掩蔽的增量数据模块(armgan):该模块利用随机属性掩蔽技术,提高增量数据的数据质量。它采用不对称的编码-解码网络模型,专注于输入胸部x光片的不同区域,并通过肺部间隔解耦,最大化关键特征的保留;
6、基于先验知识的多粒度特征提取模块(mktransformer):在专业医生的先验知识指导下,该模块利用粗粒度和细粒度的双重注意力机制,辅助尘肺病x光胸片的特征提取过程。此外,本发明创新性地采用了kullback-leibler优化的多头注意力模块,通过不同粒度过滤器之间的链接最小化信息冗余;
7、kl加权判断模块:该模块用于衡量测试胸部x光片与国家金标准之间的差异,通过比较生成的胸片与国家标准片之间的统计差异,实现尘肺病的分期诊断。
8、所述的智能诊断系统,所述的armgan数据增量模块使用随机属性掩蔽技术来实现数据扩展,同时提高增量数据的数据质量。首先根据医生的诊断习惯并依据国家标准片将输入的胸片分为六个部分,使用lot编码层在将图像从高维图像映射到低维矩阵后实现肺区间的解耦,以扩大肺区间的差异。随后,设计了非对称形式的编码模型,在肺框架解耦编码器上使用较少的编码层,并将更多的计算能力集中于肺部内病变纹理的编码。在每次编码中引入偏差因子μ来控制层关联函数,在肺区框架与肺内病灶纹理的解耦学习中产生差异对比效果。接着,定义目标区域采样图像的解耦编码过程:胸片的一个肺框架定义为i1,胸片的两个肺质量定义为i2。因此其编码可以表示为(z1s,z1t)和(z2s,z2t),基于使用g来表示合成过程,dec表示点积,d表示生成过程,并在实际运行时通过如下公式比较两者之间的差异:
9、
10、目标重建损失通过计算生成前后信息差异的模式来得出,计算公式如下:
11、
12、进一步,使用熵差计算网络生成损失:
13、
14、其中x表示用于训练的数据集。在解耦学习过程中,为了通过不同的损失函数控制肺内纹理监督以及肺框架溢出监督,与传统模型不同,原始损失函数被重写,以便在实际中更好地实现目标任务,结果如下公式计算:
15、
16、lt&s=ltexture+lstructure
17、其中τ是表示采样操作随机性的随机分布因子。
18、不仅仅局限于肺框架和肺质量的解耦学习,armgan同时关注病变特征更深度耦合的肺内区域,使其能够生成更符合尘肺病特征的训练数据。由于拉普拉斯变换可以在n维欧几里得空间中很好地实现维度变换,而在高维空间中较难实现的特征解耦任务,在低维空间中更容易进行。为了使非对称编码交换后的编码图更集中于单个肺区,引入了拉普拉斯算子,并应用log域变换来增强拉普拉斯算子的弱干扰抵抗能力。
19、对于输入图像的不同肺区,定义其中rxy表示选定的目标区域。由于拉普拉斯变换对图像噪声非常敏感,在进行拉普拉斯操作之前会进行高斯操作,整个过程可以表示为log算子,如下式所示:
20、log*f(x,y)=δ[gσ(x,y)]*f(x,y)
21、其中,高斯函数的标准差设为σ=1。此外,为了实现肺区间的解耦,在应用上述操作后,对编码图执行另一个log区域操作,并引入分区偏置因子λ,使其变形如下:
22、
23、在不同肺区之间的解耦学习过程中,利用拉普拉斯log域变换(lot)处理的低维空间矩阵,实现对肺叶各子区间的解耦。通过两个解耦操作,一个用于肺框架和肺质量解耦,另一个用于肺区间解耦,更灵活地结合胸片的不同区域编码,生成更具竞争力的数据图像。
24、此外,在armgan模块中添加了一个随机属性遮蔽层。通过主动添加感知遮蔽,指导后续模型的训练过程。不仅消除了属性遮蔽对模型训练造成的困扰,而且在丰富训练数据集的多样性方面也做出了重要贡献。这一创新的重要基础理论是:
25、
26、与此同时,深度生成网络的输出空间ω的分布与将该空间映射到低维矩阵域时非零奇异分解矩阵乘积的平方根除数成正比。每个输出空间区域的样本集中度取决于该区域的斜率矩阵相对于其他区域是否收缩或扩展。在实际操作中,通过控制斜率矩阵的大小,能够控制输出空间中样本的集中度,从而随机控制生成图像中属性的遮蔽或不遮蔽。随机空间参数ρ∈r允许在目标领域中更好地进行随机属性选择,如下式所示:
27、
28、armgan训练损失监督函数,即合成部分所属的函数,可以表示如下:
29、
30、该损失函数将作为一个损失监督层,约束该模块的训练和发展。
31、所述的智能诊断系统,所述的mktransformer特征提取模块使用先验知识和多粒度注意力模块来专门解决基于增量数据的特征筛选网络低可靠性的问题。在实际训练过程中,获得的专业知识将作为先验训练参数。在一定数量的训练周期(5个epoch)后,模型网络将冻结相对于训练参数,比较使用先验参数的网络与使用模型训练的网络之间的性能差异,并将这一差异纳入后续的网络训练中,通过网络级训练指导,特征提取网络在深度神经网络的优越特征提取需求与实际诊断工作之间取得平衡。
32、此外,为了减少特征信息的冗余,引入了粗粒度和细粒度监督机制,该机制在整个特征提取过程中使用,通过比较粒度的差异来区分隐藏特征并减少信息的冗余。mktransformer框架的构建依赖于编码器和解码器的交替。粗粒度和细粒度注意力机制运算用如下公式表示,
33、
34、其中q是查询矩阵,k是粗粒度或细粒度信息的内容,v是目标域,qkt,即点乘的目的是计算q对v的注意力权重。最后,为了防止梯度消失,输出层的维度(dk)被平方。
35、从宏观角度来看,该特征改进提取模型是一个先验网络——多粒度特征提取过程,通过过程不断交互和迭代推进。从微观角度来看,面对输入数据,mktransformer首先将其从高维空间映射到低维空间,然后在编码过程中使用粗粒度注意力调整机制,对低维空间中的roi区域进行初步特征筛选。初步特征提取数据将分成两个步骤输入到mktransformer解码模块中。第一步将数据作为输入传递给主干网络,并在解码器中使用细粒度注意力模块基于初步筛选探索深层隐藏信息。第二步则将初步筛选数据与进一步筛选的数据在多头注意力模块中进行交互链接。通过细粒度信息引导粗粒度信息的特征提取,同时粗粒度信息也可以补充细粒度信息的知识缺口,从而最小化双向监督和信息双向流动中的信息冗余。该过程可以表示如下:
36、multihead(q,k,v)=concat(head1,head2,....headn)wo,
37、headi=attentioncoarse&fine(qwqi,kwki,vwvi),i∈(1,n)
38、该模块优化了多注意力机制的操作,以适应尘肺病的弥漫性棉絮状特征。此外,kl散度被用于数据的概率和统计中,通过近似分布来替代模型中提取的特征信息的复杂多变量分布,并使用概率熵来衡量在选择有效信息时信息的损失程度,可以用如下公式表示:
39、
40、其中,p和q分别表示目标领域的概率分布,而{x1,x2,...xn}表示在低维空间中要选择的特征领域。值得注意的是,kl散度不作为测量不同信息差异之间距离的方法,而是利用kl散度的不对称性来测量两个分布之间的一致性。在新颖的多头注意力模块中使用kl信息分布的熵来量化粗粒度和细粒度知识蒸馏中的信息损失,并限制模型的训练,使其有序进行。
41、因此,在mktransformer中,使用限制器来区分模型的训练状态和冻结状态。当限制器开启且模型处于训练状态时,mktransformer的编码器和解码器都将处于工作状态,处理输入模型的数据。对于使用先验参数的网络,限制器将处于限制状态,解码器中的特征混合和叠加模块将被关闭,这样只从低维角度比较先验网络和原始模型之间的性能差异和一致性。为了提高模型的鲁棒性和稳定性,当模型在识别判断中遇到新特征时,会提供报告,之后模型参数将根据专家的具体建议进行调整或权衡。
42、所述的智能诊断系统,所述的kl加权判断模块:在实际的尘肺分期过程中,专家通常会详细比较待判断的胸部x光片与国家标准x光片,并根据其领域经验做出最终诊断。该模块使用kl散度来测量待分期图像与标准切片之间的相似性差异。首先建立一个概率分布pstd(xi),基于国家标准切片库并结合三位医生的测量结果,这种方法在实际中是可行的,因为当特征达到一定的近似值时,我们可以将其分配到特定的特征类别中。通过mktransformer提取的深度特征与标准切片库进行比较,以获得待分期图像的预测值的概率分布qpro(xi)。
43、根据当前的尘肺病国家诊断标准,胸部x光标准片被广泛用作金标准。该模块使用kl加权将熵值测量引入模型判断中。在网络的实际操作中,kl加权算法将重点测量待分期胸部x光片与每个肺区标准片之间的kl熵值差异,得到待测图像与标准切片之间的相似性权重p(xi),如以下公式所示:
44、
45、使用qkl(xi)来计算相似性并完成分期时,值越高意味着待分期图像与分期标准的相似度越高,qkl(xi)计算过程如下:
46、
47、最后,网络迭代过程中的损失函数如下:
48、
49、其中,w是网络权重;y是成对标签,m是超参数,当样本对x1和x2属于同一类别时,y=0;当它们属于不同类别时,y=1。dw是x1和x2在潜变量空间中的欧几里得距离。当y=0时,调整参数会最小化x1和x2之间的距离。当y=1时,如果x1和x2之间的距离大于m,则不进行优化;如果距离小于m,则会增加它们之间的距离至m。
50、根据任一所述系统的方法,包括以下步骤:
51、数据预处理步骤:通过将收集到的尘肺病x射线胸片与正常胸片混合,并使用直方图均衡化技术来增强图像的对比度,为后续的armgan数据增量网络训练提供质量均衡且具有多样性的数据集;
52、基于随机属性掩蔽的增量数据(armgan)步骤:该步骤利用随机属性掩蔽技术,提高增量数据的数据质量。它采用不对称的编码-解码网络模型,专注于输入胸部x光片的不同区域,并通过肺部间隔解耦,最大化关键特征的保留;
53、基于先验知识的多粒度特征提取(mktransformer)步骤:在专业医生的先验知识指导下,该步骤利用粗粒度和细粒度的双重注意力机制,辅助尘肺病x光胸片的特征提取过程。此外,这一步骤创新性地采用了kullback-leibler优化的多头注意力模块,通过不同粒度过滤器之间的链接最小化信息冗余;
54、kl加权判断步骤:该步骤用于衡量测试胸部x光片与国家金标准之间的差异,通过比较生成的胸片与国家标准片之间的统计差异,实现尘肺病的分期诊断。
55、为了避免在特征提取过程中因过度关注某一特定区域而导致后续提取模型中的属性掩蔽问题,本发明主动将随机属性掩蔽引入数据集增量网络,设计了一个非对称编码解码结构,并利用数学模型的特征筛选优势来克服传统数据增量网络生成数据质量差的问题。其次,在专业医生指导下,利用尘肺病各亚期之间的疾病关系作为先验知识,补充和改进现有的transformer深度提取框架,采用粗粒度和细粒度双重注意机制来辅助尘肺x射线胸片的特征提取过程。同时,为了实现多粒度注意模块之间的信息流,本论文创新性地采用了基于kullback-leibler优化的多头注意模块,通过不同粒度滤波器之间的关联来最小化信息冗余。最后,为了满足尘肺病分期的实际需求,本发明设计了一种基于kl变体的加权函数,通过将widinet网络生成的胸片与国家标准胸片进行比较,实现最终的分期。此研究不仅在医学应用中表现出合理的性能,而且有望开发用于临床实践中的尘肺病分期诊断。
技术研发人员:赵涓涓,任雪婷,李敖宇,强彦
技术所有人:太原理工大学
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
