首页  专利技术  医药医疗技术的改进;医疗器械制造及应用技术

一种用于检测高通量测序数据中融合基因的方法与流程

2025-05-16 11:00:06 112次浏览
一种用于检测高通量测序数据中融合基因的方法与流程

本发明涉及生物检测,尤其涉及一种用于检测高通量测序数据中融合基因的方法。


背景技术:

1、融合基因是指2个或多个不相关的基因发生重排,使得这些基因在同一套调控原件的控制下,形成新的基因产物嵌合基因,并获得新的特征和功能。融合基因在癌症的发生和发展中起着重要的作用,可以导致抑癌基因失活或原癌基因激活,促进癌细胞的生长和转移。

2、传统的融合基因鉴定方法包括免疫组学化学、荧光原位杂交和pcr技术。随着测序技术的发展,通过使用高通量测序技术对基因组区域进行测序,并利用生物信息学的方法可以有效对融合基因进行分析,可以一次同时检测多个存在的融合基因。

3、目前,常用的检测融合基因的软件包括factera、delly和genefuse等,但是由于融合检测算法的不同,可能会出现以下问题:(1)不同算法对不同类型的潜在融合事件过度检测,导致假阳性融合基因的检出;(2)某些融合事件发生频率较低,可能会被其他高频事件覆盖或忽略,导致低频率融合基因难以检出。


技术实现思路

1、基于以上问题,本发明提出一种用于检测高通量测序数据中融合基因的方法,该发明根据比对的参数信息筛选异常比对序列并进行过滤,并通过计算融合置信度以获取置信度较高的融合基因对,可以有效提高融合基因的检出率和正确性。

2、一种用于检测高通量测序数据中融合基因的方法,具体步骤如下:

3、步骤s1:获取高通量测序数据,对测序数据进行质控过滤,获取过滤后的测序数据;

4、步骤s2:将过滤后的测序数据与参考基因组进行比对,获取比对文件;

5、步骤s3:根据比对文件筛选异常比对序列,并对异常比对序列进行匹配,得到候选融合序列片段及候选融合基因;

6、步骤s4:根据每个候选融合基因统计融合信息;

7、步骤s5:根据融合信息进行融合事件筛选,得到潜在融合基因对;

8、步骤s6:计算融合基因对的融合置信度;

9、步骤s7:根据融合置信度判断是否为真阳性融合基因,并输出结果。

10、作为优选,步骤s1所述的质控过滤包括:过滤低质量的测序数据和接头序列信息。

11、作为优选,步骤s3所述异常比对序列的情况包括:情况1:双端测序中读长的其中一部分比对到参考基因组的位置1上,另一部分比对到参考基因组的位置2上;情况2:双端测序中读长1比对到参考基因组上,读长2比对到其他参考基因组上;情况3:双端测序中,读长1和读长2分别比对到相同的参考基因组上,但读长对的比对方向相同。

12、作为优选,步骤s3所述的筛选原则包括:(1)若双端测序中的读长对质量不符合质控要求,则删除该异常比对序列信息;(2)若双端测序中读长对中至少有一条属于duplicates,则删除该异常比对序列信息;(3)若双端测序中读长对属于异常比对序列的情况1,则删除比对部分较短的异常比对序列信息;(4)若双端测序中的读长对分别比对到参考基因的不同位置上,若位置距离小于过滤阈值1,则删除该异常比对序列信息。

13、作为优选,步骤s4所述的候选融合基因统计步骤为:根据候选融合基因从比对文件选择出所有比对到该基因上的测序数据,并根据该候选基因上的测序数据进行统计,统计信息包括:候选基因的平均测序深度、基因覆盖度、融合断点数、对应融合断点的测序深度、完全匹配数和异常比对数。

14、其中,融合断点数指该基因检测到的异常比对序列中包含断点信息的数量,该信息包括对应基因及其断点数量,用数组表示:<对应基因,断点数量>;完全匹配数是指不属于异常比对序列且比对到该基因的数量;异常比对数为比对到该基因的异常比对序列数量。

15、作为优选,步骤s5中当候选基因的基因覆盖度或者平均测序深度低于基因覆盖度阈值1和平均测序深度阈值1,则认为该候选基因测序存在假阳性的情况,移除该候选融合基因;当候选基因的基因覆盖度和平均测序深度均高于基因覆盖度阈值1和平均测序深度阈值1,则认为该候选融合候选基因可以进入候选基因对的筛选步骤。

16、作为优选,所述基因覆盖度阈值1为所有基因的覆盖度平均值,平均测序深度阈值1为所有基因的测序深度的平均值。

17、其中,候选基因对的筛选步骤包括:

18、(1)获取融合候选基因a的平均测序深度、基因覆盖度、融合断点数、对应融合断点的测序深度、完全匹配数和异常比对数;

19、(2)根据融合候选基因a的断点数进行t检验,判断是否存在显著差异,若存在显著差异,则根据断点数量选择排名第一的基因作为疑似的候选基因b,若不存在显著差异,则将排名前3的基因座位为疑似候选基因b;

20、(3)获取候选基因b的融合断点数参数信息并进行排序,若候选基因b中与融合候选基因a的融合断点数高于断点阈值,则选择候选基因a与候选基因b为候选基因对;

21、(4)若候选基因b中与融合候选基因a的融合断点数排名低于断点阈值,且候选基因b中的断点数经过t检验后存在显著差异,则过滤该候选基因a和候选基因b为融合基因对;

22、(5)若候选基因b中与融合候选基因a的融合断点数排名低于断点阈值,且候选基因b中的断点数经过t检验后不存在显著差异,则选择该候选基因a和候选基因b为融合基因对;

23、(6)若候选基因b中不存在融合断点数量,则判断该基因的测序深度和基因覆盖度,若测序深度和基因覆盖度达到可报出标准,则认为候选基因a与候选基因b不是融合基因对;

24、(7)若候选基因b中不存在融合断点数量,则判断该基因的测序深度和基因覆盖度,若测序深度和基因覆盖度未达到可报出标准,则认为可能是由于测序不全导致的融合断点未检出,认为候选基因a与候选基因b是融合基因对。

25、作为优选,步骤s6中融合置信度计算公式为:

26、

27、作为优选,步骤s7中的判断规则为:若融合置信度≥置信度阈值1,则认为该融合基因对为真实的融合断点;若置信度阈值1<融合置信度≤置信度阈值2,认为该融合基因为潜在的融合断点;若置信度<置信度阈值3,则认为该融合基因为假的融合断点。

28、作为优选,步骤s7中的输出结果包括:融合基因名称、断点位置、融合深度、融合类型、融合置信度。

29、与现有技术相比,本发明的有益效果为:

30、(1)本发明通过将测序数据与参考基因组进行比对筛选,不依靠已知的融合基因信息,可以有效获取未知的融合基因;

31、(2)本发明利用测序深度和基因覆盖度双重特征检验该基因的检测可信度,可以有效过滤因低质量测序结果导致的融合基因检出假阳性;

32、(3)本发明对两个融合基因的比对信息进行双重检验,增加检出融合基因对的可信度和准确率。



技术特征:

1.一种用于检测高通量测序数据中融合基因的方法,其特征在于,步骤包括:

2.根据权利要求1的检测高通量测序数据中融合基因的方法,其特征在于,步骤s3所述的异常比对序列的情况包括:情况1:双端测序中读长的一部分比对到参考基因组的位置1上,另一部分比对到参考基因组的位置2上;情况2:端测序中读长1比对到参考基因组上,读长2比对到其他参考基因组上;情况3:双端测序中,读长1和读长2分别比对到相同的参考基因组上,但读长对的比对方向相同。

3.根据权利要求1的检测高通量测序数据中融合基因的方法,其特征在于,步骤s3所述的筛选原则为:(1)若双端测序中的读长对质量不符合质控要求,则删除该异常比对序列;(2)若双端测序中读长对中至少有一条属于duplicates,则删除该异常比对序列;(3)若双端测序中读长对属于异常比对序列的情况1,则删除比对部分较短的异常比对序列信息;(4)若双端测序的读长对分别比对到参考基因的不同位置上,若位置距离小于过滤阈值1,则删除该异常比对序列信息。

4.根据权利要求1的检测高通量测序数据中融合基因的方法,其特征在于,步骤s4所述的候选融合基因统计步骤为:根据比对文件选择所有比对到该候选融合基因的测序数据,并根据候选融合基因上的测序数据进行统计;

5.根据权利要求1的检测高通量测序数据中融合基因的方法,其特征在于,步骤s5中当候选基因的基因覆盖度或者平均测序深度低于基因覆盖度阈值1和平均测序深度阈值1,则认为该候选基因测序存在假阳性的情况,移除该候选融合基因;当候选基因的基因覆盖度和平均测序深度均高于基因覆盖度阈值1和平均测序深度阈值1,则认为该候选融合候选基因达到可报出标准,可以进入候选基因对的筛选步骤;其中,基因覆盖度阈值1为所有基因的覆盖度平均值,平均测序深度阈值1为所有基因的测序深度的平均值。

6.根据权利要求1的检测高通量测序数据中融合基因的方法,其特征在于,步骤s5所述的融合事件筛选规则为:

7.根据权利要求1的检测高通量测序数据中融合基因的方法,其特征在于,步骤s6所述的融合置信度根据融合置信度计算公式进行计算,计算公式为:

8.根据权利要求1的检测高通量测序数据中融合基因的方法,其特征在于,步骤s7所述的判断融合置信度判断规则为:若融合置信度≥置信度阈值1,则认为该融合基因对为真实的融合断点;若置信度阈值1<融合置信度≤置信度阈值2,认为该融合基因为潜在的融合断点;若置信度<置信度阈值3,则认为该融合基因为假的融合断点。


技术总结
本发明涉及生物检测技术领域,公开了一种用于检测高通量测序中融合基因的方法,步骤包括:步骤S1:获取测序数据并进行质控,获取过滤后测序数据;步骤S2:将高质量测序数据与参考基因组进行比对,获取比对文件;步骤S3:根据比对文件筛选异常比对序列,并获取融合断点序列片段和候选融合基因;步骤S4:根据候选融合基因统计融合信息;步骤S5:筛选融合事件,得到潜在融合基因对;步骤S6:计算融合基因对的融合置信度;步骤S7:根据融合置信度判断是否为真阳性融合基因,输出结果;本发明根据比对的参数信息筛选异常比对序列并进行过滤,并通过计算融合置信度以获取置信度较高的融合基因对,可以有效提高融合基因的检出率和正确性。

技术研发人员:周淑芳,谢展,李姗珊
受保护的技术使用者:浙江洛兮医学检验实验室有限公司
技术研发日:
技术公布日:2024/12/10
文档序号 : 【 40281022 】

技术研发人员:周淑芳,谢展,李姗珊
技术所有人:浙江洛兮医学检验实验室有限公司

备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
周淑芳谢展李姗珊浙江洛兮医学检验实验室有限公司
一种盐酸兰地洛尔药物组合物及其制备方法与流程 一种油溶包裹的祛皱抗衰组合物及其制备方法和应用与流程
相关内容