一种功能性染色质调控区域及靶基因鉴定方法及系统

本发明提出了一种功能性染色质调控区域及靶基因鉴定方法及系统,属于生物。
背景技术:
1、在复杂疾病的遗传调控中,基因组非编码区存在的大量调控元件发挥重要作用,它们的激活和抑制能够影响疾病风险。目前认为这些调控元件主要通过调控附近和远端基因的表达来影响疾病的发生,但是这些调控元件受到何种遗传因素影响,又是如何调控基因的表达情况,具体机制仍不清楚。目前已经在数十种组织中鉴定了大量的表达数量性状基因座(expression quantitative trait loci,eqtl)位点,从而能够解析单核苷酸多态性(single nucleotide polymorphism,snp)对基因表达的影响,但是eqtl仍然无法检测具体的基因组元件如何调控靶基因。
2、要得到基因组调控元件如何调控基因表达,最直接的方法是在人群样本中同时进行转录组测序和染色质可及性测序(assay for transposase-accessible chromatinwith high-throughput sequencing,atac-seq)或多种组蛋白/转录因子的染色质免疫共沉淀测序(chromatin immunoprecipitation sequencing,chip-seq),但是atac-seq或chip-seq的成本远高于转录组测序,在群体样本中测序成本过高,难以在实际研究中应用,这给研究突变位点、调控元件功能和基因表达之间的关系带来阻碍。
技术实现思路
1、为了克服现有技术存在的不足,本发明提供一种功能性染色质调控区域及靶基因鉴定方法及系统。利用该方法可系统性探究基因组调控元件功能及其影响的靶基因。
2、为了解决上述技术问题,本发明采用的技术方案为:
3、第一方面,本发明提供一种功能性染色质调控区域及靶基因鉴定方法,包括:
4、筛选基因组上的调控元件区域;利用训练的gapped-kmer svm模型对所有调控元件区域内的所有snp的两种等位基因型上下游9bp序列预测活性得分;
5、对eqtl群体的每个个体,根据每个snp的基因型信息,根据每种等位基因型的活性得分对所有pre的活性进行计算;
6、对每个基因,用线性回归模型计算基因与其启动子上下游预设范围内所有pre活性的关联,计算线性回归的效应值β,进而得到显著性p值;
7、根据显著性p值的检测总数进行多重检验校正,筛选出统计显著的结果,作为最终的调控元件-靶基因调控结果。
8、作为本发明进一步改进,所述筛选基因组上的调控元件区域,包括:
9、将基因组上所有的atac-seq/chip-seq峰区域作为候选的调控元件区域,并过滤掉以下pre区域:
10、a)pre区域内存在碱基插入和缺失突变;
11、b)pre内区域内的独立snp数量少于2个,独立性阈值为连锁不平衡r2>0.3;
12、c)pre内存在两个snp之间距离<10bp。
13、作为本发明进一步改进,所述训练的gapped-kmer svm模型的训练过程,包括:
14、取atac-seq/chip-seq的峰区域峰点上下游100bp范围的序列作为阳性集,随机取相同数量的atac-seq/chip-seq的非峰区域序列作为阴性集;
15、用阴性集和阳性集序列作为训练集,对gapped-kmer svm模型用5折交叉方式进行训练,搜索最优化的超参数,取验证集精准率-召回率曲线下的面最高的模型作为训练的gapped-kmer svm模型。
16、作为本发明进一步改进,所述非峰区域序列是呼叫峰p值>0.2区域,所述阴性集中随机取得阴性集序列的长度、重复率、gc含量与阳性集分布相同。
17、作为本发明进一步改进,所述根据每种等位基因型的活性得分对所有pre的活性进行计算,计算方式为:
18、
19、其中cas为pre活性,n为该pre区域的snp数量,m为snp i的等位基因数量,g为等位基因j的剂量效应,s为gapped-kmer svm模型预测的等位基因j的得分。
20、作为本发明进一步改进,所述线性回归模型为:
21、ex]pres810110×cas+covariates
22、其中,expression为该基因经标准化之后的表达值,cas为该pre的活性,covariates为群体协变量,β为该pre对基因表达的效应值。
23、第二方面,本发明提供一种功能性染色质调控区域及靶基因鉴定系统,包括:
24、活性得分预测模块,用于筛选基因组上的调控元件区域;利用训练的gapped-kmersvm模型对所有调控元件区域内的所有snp的两种等位基因型上下游9bp序列预测活性得分;
25、活性计算模块,用于对eqtl群体的每个个体,根据每个snp的基因型信息,根据每种等位基因型的活性得分对所有pre的活性进行计算;
26、显著性p值计算模块,用于对每个基因,用线性回归模型计算基因与其启动子上下游预设范围内所有pre活性的关联,计算线性回归的效应值β,进而得到显著性p值;
27、结果筛选模块,用于根据显著性p值的检测总数进行多重检验校正,筛选出统计显著的结果,作为最终的调控元件-靶基因调控结果。
28、第三方面,本发明提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述功能性染色质调控区域及靶基因鉴定方法。
29、第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述功能性染色质调控区域及靶基因鉴定方法。
30、第五方面,本发明提供一种计算机程序产品,所述计算机程序产品包括计算机指令,其特征在于,所述计算机指令指示计算机执行所述功能性染色质调控区域及靶基因鉴定方法。
31、本发明相对于现有技术具备的有益效果为:
32、本发明无需对大样本群体的atac-seq或chip-seq进行高成本测序,只需要群体的基因型和单个样本的atac-seq或chip-seq数据,即可获得群体中所有个体的调控元件活性。大大降低了传统方案测序所需的成本。本发明可以充分利用目前已有的大量eqtl数据和公共数据库中的atac-seq或chip-seq数据,无需重新对这些样本进行配套的测序,能够直接对大量组织的调控元件活性及靶基因进行检测,大大节约了样本收集所需的时间和经济成本。本发明结合基因组调控元件及易感变异在多种疾病中的调控作用,可用该方法系统性鉴定人类复杂疾病基因组调控元件及易感变异的功能,广泛应用于基础研究,对未来生物医学领域中相关疾病的遗传机制研究与药物开发提供理论依据。
技术特征:
1.一种功能性染色质调控区域及靶基因鉴定方法,其特征在于,包括:
2.根据权利要求1所述的一种功能性染色质调控区域及靶基因鉴定方法,其特征在于,所述筛选基因组上的调控元件区域,包括:
3.根据权利要求1所述的一种功能性染色质调控区域及靶基因鉴定方法,其特征在于,所述训练的gapped-kmer svm模型的训练过程,包括:
4.根据权利要求3所述的一种功能性染色质调控区域及靶基因鉴定方法,其特征在于,所述非峰区域序列是呼叫峰p值>0.2区域,所述阴性集中随机取得阴性集序列的长度、重复率、gc含量与阳性集分布相同。
5.根据权利要求1所述的一种功能性染色质调控区域及靶基因鉴定方法,其特征在于,所述根据每种等位基因型的活性得分对所有pre的活性进行计算,计算方式为:
6.根据权利要求1所述的一种功能性染色质调控区域及靶基因鉴定方法,其特征在于,所述线性回归模型为:
7.一种功能性染色质调控区域及靶基因鉴定系统,其特征在于,包括:
8.一种电子设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-6任一项所述功能性染色质调控区域及靶基因鉴定方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一项所述功能性染色质调控区域及靶基因鉴定方法。
10.一种计算机程序产品,所述计算机程序产品包括计算机指令,其特征在于,所述计算机指令指示计算机执行权利要求1-6任一项所述功能性染色质调控区域及靶基因鉴定方法。
技术总结
本发明公开一种功能性染色质调控区域及靶基因鉴定方法及系统,属于生物技术领域。该方法包括:筛选基因组上的调控元件区域;利用训练的gapped‑kmer SVM模型对所有调控元件区域内的所有SNP的两种等位基因型上下游9bp序列预测活性得分;对eQTL群体的每个个体,根据每个SNP的基因型信息,根据每种等位基因型的活性得分对所有PRE的活性进行计算;对每个基因,用线性回归模型计算基因与其启动子上下游预设范围内所有PRE活性的关联,计算线性回归的效应值β,进而得到显著性P值;根据显著性P值的检测总数进行多重检验校正,筛选出统计显著的结果,作为最终的调控元件‑靶基因调控结果。利用该方法可系统性探究基因组调控元件功能及其影响的靶基因。
技术研发人员:杨铁林,江丰,郭燕
受保护的技术使用者:西安交通大学
技术研发日:
技术公布日:2024/12/10
技术研发人员:杨铁林,江丰,郭燕
技术所有人:西安交通大学
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除