一种基于分层自编码器的环境DNA数据降维方法与系统
技术特征:
1.一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述将预处理后的环境dna丰度数据输入深度计数自动编码器dca进行去噪,得到去噪后的环境dna丰度数据,包括:
3.根据权利要求2所述的一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述深度计数自动编码器dca的损失函数是zinb似然的负对数,具体公式如下:
4.根据权利要求1所述的一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述为平衡序列长度而填充的核苷酸编码n被翻译为[0.25,0.25,0.25,0.25]。
5.根据权利要求1所述的一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述将代表样本序列信息的三维数组输入自编码器ae,对环境dna序列数据进行压缩,具体为:
6.根据权利要求1所述的一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述差分自编码器vae包括:
7.根据权利要求8所述的一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述潜在采样层使用了重参数化技巧进行采样,使用梯度下降方法来优化似然函数。
8.根据权利要求1所述的一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述差分自编码器vae的损失函数由vae损失函数:kl散度、重构误差、核苷酸序列潜在编码不同组合的二元交叉熵共同构成:
9.根据权利要求1所述的一种基于分层自编码器的环境dna数据降维方法,其特征在于,所述深度计数自动编码器dca和所述自动编码器ae都单独训练,然后训练vae。
10.一种基于分层自编码器的环境dna数据降维系统,其特征在于,所述系统包括以下模块:数据预处理模块、去噪模块、编码模块、降维模块、可视化模块;
技术总结
本发明提供一种基于分层自编码器的环境DNA数据降维方法,属于生物信息学领域及数据处理技术领域。通过步骤:S1、数据预处理:将环境DNA数据划分为环境DNA丰度数据和环境DNA序列数据;S2、环境DNA丰度数据去噪;S3、对环境DNA序列数据进行长度均衡与翻译;S4、对样本的序列信息进行表示;S5、对环境DNA序列数据进行压缩;S6、利用差分自编码器VAE进行降维;将S2得到的所述去噪后的环境DNA丰度数据和S5得到的所述压缩编码后的环境DNA序列数据共同作为差分自编码器VAE的输入,将样本的维度进一步降低到二维潜在空间;S7、绘制二维空间的可视化结果图。实现了更好的保留环境DNA数据的信息,获得更准确的降维及可视化结果。
技术研发人员:王俊生,郭亚男,宋明珠,王月竹
受保护的技术使用者:大连海事大学
技术研发日:
技术公布日:2024/11/26
技术研发人员:王俊生,郭亚男,宋明珠,王月竹
技术所有人:大连海事大学
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
