基于迁移学习的预测模型训练方法及程序产品与流程

本技术涉及计算机,具体涉及一种基于迁移学习的预测模型训练方法及程序产品。
背景技术:
1、在高通量测序技术的研究中,通过获取大规模的基因表达数据,用于为基因调控研究提供了宝贵的理论指导。基因调控网络描述了基因之间的调控关系,以用于指导理解基因在细胞和组织功能中的作用,通过预测基因调控网络,推断出哪些基因对其他基因的表达具有重要影响,并识别出关键的调控因子和调控路径,这种预测能够揭示基因调控网络的拓扑结构,以对生物系统的复杂性和生物过程的发生机制提供重要线索。
2、在一些相关技术中,通常采用相关性分析、线性模型、聚类分析、因子分析和贝叶斯网络等对于基因调成网络进行分析,但是上述所用的分析方法往往依赖于大量标注数据,并且在实际应用中,标注数据的获取往往面临困难,不仅耗费大量人力和时间,还存在数据稀缺的问题;同时,基因表达数据在不同生物过程或实验条件下的分布可能存在较大差异,进一步导致传统方法在处理跨域数据时表现不佳,分类精确度较低。
技术实现思路
1、为了解决上述背景技术中提到的至少一个问题,本技术提供了一种基于迁移学习的预测模型训练方法及程序产品,将背景噪声视为独立的类别结合迁移学习方法,使得预测模型能够在缺乏标注数据的情况下,依然对新生物过程进行精确分类。
2、本技术实施例提供的具体技术方案如下:
3、第一方面,提供一种基于迁移学习的预测模型训练方法,所述方法包括:
4、构建初始预测模型,并基于卷积神经网络对所述初始预测模型进行预训练,以得到预训练模型;
5、获取已知类别的基因表达矩阵,采用所述预训练模型提取所述已知类别的基因表达矩阵中预设基因的深度特征;
6、将所述预设基因的深度特征迁移至语义嵌入空间中,以得到深度特征在语义嵌入空间中的表示向量,分析所述深度特征在语义嵌入空间中的表示向量与所述预设基因关联的真实基因类别的相似度以及其他类别的相似度;
7、当所述真实基因类别的相似度与其他类别的相似度差值满足预设间隔时,完成所述初始预测模型的训练。
8、在一个具体的实施例中,所述构建初始预测模型,具体包括:获取所述预设基因的特征表示,分别计算所述预设基因的特征表示与所有已知类别属性之间的相似度,以得到相似度队列;选取所述相似度队列中相似度最高的已知类别属性作为所述预设基因关联的预测基因类别。
9、在一个具体的实施例中,所述基于卷积神经网络对所述初始预测模型进行预训练,以得到预训练模型,具体包括:采用所述卷积神经网络中卷积层提取所述已知类别的基因表达矩阵中的局部特征;设置所述卷积神经网络中全连接层将所述局部特征映射到预设低维特征空间,以得到所述预训练模型。
10、在一个具体的实施例中,对所述已知类别的基因表达矩阵进行标准化处理,采用所述预训练模型提取标准化处理后的所述已知类别的基因表达矩阵中的所述预设基因关联的深度特征。
11、在一个具体的实施例中,采用所述预训练模型提取所述已知类别的基因表达矩阵中预设基因的深度特征,具体包括:采用所述预训练模型提取标准化处理后的已知类别的基因表达矩阵中的基因特征矩阵;设置所述基因特征矩阵中的高维特征映射到低维空间,以得到正常基因特征;获取所述已知类别的基因表达矩阵中的标注数据,结合所述标注数据和预设损失函数对所述正常基因特征进行调整以得到深度特征。
12、在一个具体的实施例中,获取所述已知类别的基因表达矩阵中的预设基因关联的真实基因类别,具体包括:获取所述预设基因的已知类别的功能描述信息,对所述功能描述信息进行预处理;使用预设词向量模型将预处理后的所述功能描述信息映射到词向量空间,以形成所述功能描述信息中的词组信息对应至少一个词向量表示;组合所有所述词向量表示形成所述预设基因关联的真实基因类别。
13、在一个具体的实施例中,将所述预设基因的深度特征迁移至语义嵌入空间中,具体包括:标记出所述已知类别的基因表达矩阵中的背景噪音区域;配置所述语义嵌入空间中具有预设固定向量,所述预设固定向量用于所述背景噪音区域的静态表示;获取预设投影矩阵,并采用所述预设投影矩阵将所述深度特征映射至所述语义嵌入空间中。
14、在一个具体的实施例中,所述预设固定向量设置为高维向量,且设置所述预设固定向量与所述语义嵌入空间中的其他功能模块向量具有预设距离。
15、在一个具体的实施例中,采用所述预设投影矩阵将每个边界框中的特征投影至所述语义嵌入空间中,以得到所述已知类别的基因表达矩阵中深度特征在所述语义嵌入空间中向量化表示。
16、在一个具体的实施例中,采用所述预设投影矩阵将每个边界框中的特征投影至所述语义嵌入空间中的计算公式(1)如下:
17、(1)
18、其中,表示深度特征在语义嵌入空间中的表示向量;表示预设投影矩阵;表示已知类别的基因表达矩阵中深度特征;表示基因表达矩阵中的第个基因表达样本。
19、在一个具体的实施例中,所述基因表达矩阵包括若干基因表达样本,每个所述基因表达样本与其关联的深度特征一一对应。
20、在一个具体的实施例中,获取所述已知类别的基因表达矩阵中的所述基因表达样本,并提取所述基因表达样本的深度特征;计算所述基因表达样本的深度特征在语义嵌入空间中的表示向量与每个真实基因类别之间的相似度。
21、在一个具体的实施例中,所述基因表达样本的深度特征在语义嵌入空间中的表示向量与每个真实基因类别之间的相似度的计算公式(2)如下:
22、(2)
23、其中,表示相似度值;表示基因表达样本的深度特征在语义嵌入空间中的表示向量;表示基因表达矩阵中的第个基因表达样本;表示所有真实基因类别中的第个真实基因类别;表示第个真实基因类别的语义嵌入向量。
24、在一个具体的实施例中,设置所述基因表达样本的深度特征在语义嵌入空间中的表示向量与所述语义嵌入空间中的所述预设固定向量相似度对比;若所述深度特征在语义嵌入空间中的表示向量与所述预设固定向量的相似度大于等于预设阈值,则标记所述基因表达样本属于背景噪音。
25、在一个具体的实施例中,通过最大间隔损失函数,计算所述基因表达样本的深度特征与真实基因类别的语义嵌入向量之间的第一相似度,以及所述基因表达样本的深度特征与其他基因类别的语义嵌入向量之间的第二相似度;
26、计算所述第一相似度和所述第二相似度的差值;
27、并最小化所述最大间隔损失函数,以使所述第一相似度和所述第二相似度的差值大于等于所述预设间隔。
28、在一个具体的实施例中,通过最小化所述最大间隔损失函数,以使所述第一相似度和所述第二相似度的差值大于等于所述预设间隔的计算公式(3)如下:
29、(3)
30、其中,表示最大间隔损失函数;表示第个基因表达样本的深度特征;表示第个基因表达样本的真实基因类别;表示初始预测模型中的可训练参数;表示预设间隔;表示所述第个基因表达样本的深度特征与真实基因类别的语义嵌入向量之间的第一相似度;表示第个基因表达样本的深度特征与其他基因类别的语义嵌入向量之间的第二相似度。
31、在一个具体的实施例中,获取待分类基因样本数据,输入所述待分类基因样本数据至训练后的初始预测模型中,以以输出基因类别预测结果。
32、第二方面,提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
33、步骤a:构建初始预测模型,并基于卷积神经网络对所述初始预测模型进行预训练,以得到预训练模型;
34、步骤b:获取已知类别的基因表达矩阵,采用所述预训练模型提取所述已知类别的基因表达矩阵中预设基因的深度特征;
35、步骤c:将所述预设基因的深度特征迁移至语义嵌入空间中,以得到深度特征在语义嵌入空间中的表示向量,分析所述深度特征在语义嵌入空间中的表示向量与所述预设基因关联的真实基因类别的相似度以及其他类别的相似度;
36、步骤d:当所述真实基因类别的相似度与其他类别的相似度差值满足预设间隔时,完成所述初始预测模型的训练。
37、第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
38、步骤a:构建初始预测模型,并基于卷积神经网络对所述初始预测模型进行预训练,以得到预训练模型;
39、步骤b:获取已知类别的基因表达矩阵,采用所述预训练模型提取所述已知类别的基因表达矩阵中预设基因的深度特征;
40、步骤c:迁移至语义嵌入空间中,以得到深度特征在语义嵌入空间中的表示向量,分析所述深度特征在语义嵌入空间中的表示向量与所述预设基因关联的真实基因类别的相似度以及其他类别的相似度;
41、步骤d:当所述真实基因类别的相似度与其他类别的相似度差值满足预设间隔时,完成所述初始预测模型的训练。
42、第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
43、步骤a:构建初始预测模型,并基于卷积神经网络对所述初始预测模型进行预训练,以得到预训练模型;
44、步骤b:获取已知类别的基因表达矩阵,采用所述预训练模型提取所述已知类别的基因表达矩阵中预设基因的深度特征;
45、步骤c:迁移至语义嵌入空间中,以得到深度特征在语义嵌入空间中的表示向量,分析所述深度特征在语义嵌入空间中的表示向量与所述预设基因关联的真实基因类别的相似度以及其他类别的相似度;
46、步骤d:当所述真实基因类别的相似度与其他类别的相似度差值满足预设间隔时,完成所述初始预测模型的训练。
47、本技术实施例具有如下有益效果:
48、1.本技术实施例提供的方案,通过对基因表达矩阵进行数据标注得到已知类别的基因表达矩阵,构建初始预测模型,并基于卷积神经网络对初始预测模型进行预训练,进行了预训练的模型能够快速提取基因表达的深度特征,减少后续训练流程,以及通过在预训练阶段学习通用特征,以使得模型能够在预测过程中顺利地将迁移到新任务或者数据集上,以实现对基因类别的精确分类,并且通过对模型进行预训练,能够在没有大量标注数据的情况下,利用预训练网络捕捉到的语义特征进行分类,以减少预测模型对于标注数据的依赖。
49、2.本方案中通过对预测模型的训练中引入一个背景噪音区域,并将背景噪音作为一个独立的类别,以及通过一个特定的固定向量在语义空间中进行表示,使模型在对基因类别进行预测分类时,能够有效区分基因表达数据中的功能模块和背景噪声不分,从而有效地减少背景噪声对模型识别的干扰,提高预测模型对于未知类别基因数据类别预测的准确性。
技术研发人员:张闯,童浩南
技术所有人:苏州元脑智能科技有限公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
