首页  专利技术  医药医疗技术的改进;医疗器械制造及应用技术

一种基于DNA-based测序数据检测融合基因的方法与流程

2025-05-17 09:20:01 202次浏览
一种基于DNA-based测序数据检测融合基因的方法与流程

本发明涉及基因检测,具体涉及一种基于dna-based测序数据检测融合基因的方法。


背景技术:

1、融合基因是指由于某种机制(如基因组变异)造成两个或多个不同基因的编码区或非编码区的全部或部分序列融合在一起,形成一个新的基因,是由染色体结构重排引起的。融合基因与肿瘤的发生和发展密切相关,通过鉴定相关融合基因可以诊断生物标志物、发现新的治疗靶标以及了解肿瘤发生的分子基础。

2、目前,临床常用融合基因的检测方法有免疫组织化学、fish、pcr和二代测序,二代测序技术检测范围广,检测速度快,能在基因层面和转录组层面同时验证基因是否融合以及准确检测出融合基因的断点,弥补常规检测方法存在的漏检和不能明确融合伴侣基因等问题。其中,使用二代测序检测融合基因的方法包括基于dna-based的二代测序方法和基于rna-based的二代测序方法。

3、基于dna-based检测检测融合基因的方法主要通过将双端测序序列与基因组进行比对,评估双端测序序列的距离与方向是否与建库信息一致进而判断是否为融合基因,常用的软件有genefuse和factera等;基于rna-based检测融合基因的方法包括基于序列比对方法和基于拼接比对的方法,前者通过寻找不一致序列和覆盖断裂点的序列识别融合事件,后者则是通过组装转录本进而比对到参考基因组以鉴定出与染色体重排一致的融合转录本,常用的软件有arriba等。

4、其中,genefuse是一种能够直接从fastq文件中检测到融合基因的基于dna-based测序的工具,通过寻找到能够很好映射到两个不同基因的左右部分,但不能完全映射到整个参考基因组的reads进行支持读码,并通过对每个支持读码进行分析判断是否为融合基因。但是该软件只能聚焦在具有临床意义的基因进行研究,对于未知的融合基因的检测能力较弱。factera是一种用于从dna测序中发现融合基因的软件工具,主要用于检测易位、倒位和缺失的融合基因类型,该软件首先需要对原始fastq文件进行比对和处理得到bam文件,其次使用bam文件作为软件的输入文件,通过寻找不正确配对的读对于相近外显子进行聚类到不同的基因组中,找到断点并定位融合基因。但该软件依赖于bam文件,对检测结果不够敏感,并且缺乏可视化检测融合的功能。arriba是一个使用rna-based测序数据的融合基因检测工具,它可以检测到倒位和重复的融合基因类型,并且快速且灵敏,但是对于缺失的融合基因难以检测。由此可见,每个软件在检测融合基因中均存在弊端,使用单一软件检测融合基因可能会存在假阳性或假阴性的情况。


技术实现思路

1、基于以上问题,本发明提出了一种基于dna-based测序数据检测融合基因的方法,该方法构建一个基于多软件的筛选标准,并使用目前的融合基因主流的检测软件进行过滤筛选,有效避免单个软件检测结果的假阳性或假阴性。

2、一种基于dna-based测序数据检测融合基因的方法,其步骤在于:

3、步骤s1:获取dna测序数据,使用软件fastp进行数据过滤,获取过滤后的测序数据;

4、步骤s2:使用软件genefuse对过滤后的测序数据进行融合基因检测,获得第一融合基因结果和第一相关参数信息;

5、步骤s3:使用软件factera对过滤后的测序数据进行融合基因检测,获得第二融合基因结果和第二相关参数信息;

6、步骤s4:使用软件arriba对过滤后的测序数据进行融合基因检测,获得第三融合基因结果和第三相关参数信息;

7、步骤s5:获取融合基因过滤模型,并将第一融合基因结果和第一相关参数,第二融合基因结果和第二相关参数,第三融合基因结果和第三相关参数作为输入数据,通过融合基因过滤模型计算真阳性的融合基因,输出融合基因结果。

8、作为优选,步骤s2中所述的第一相关参数信息包括断点数量和断点序列的碱基质量,其中断点数量分为total数和unique数,碱基质量分别为高质量、中质量、低质量和极低质量。

9、作为优选,步骤s3中所述的第二相关参数信息包括break_support、break_depth、proper_pair_support和total_depth,其中break_support分为break_support1和break_support2。

10、作为优选,步骤s4中所述的第三相关参数信息包括split_read、coverage和confidence,其中split_read分为split_read1和split_read2,coverage分为coverage1和coverage2,confidence分为low、medium和high。

11、作为优选,步骤s5所述的融合基因过滤模型步骤为:

12、步骤s51:分别获取第一融合基因结果及第一相关参数信息、第二融合基因结果及第二相关参数信息和第三融合基因结果及第三相关参数信息,并根据上述融合基因结果及相关参数信息获得潜在融合基因表,潜在融合基因表包括:融合基因对,融合基因1,融合基因2,检出软件,序列信息和相关参数;

13、步骤s52:若融合基因对在两个及两个以上的融合基因检出软件中检出,则将该融合基因对设置为融合基因列表,并获取相关参数信息;

14、步骤s53:若融合基因对仅在一个融合基因检出软件中检出,而其对应的融合基因1或融合基因2在多个融合基因检出软件中检出,则提取多软件中对应的融合基因对序列信息,根据dna测序数据获取异常比对序列,使用软件bwa将异常比对序列与参考基因组进行比对,根据比对质量获得融合基因的结果;若多个异常比对序列的比对结果一致,则根据比对结果获取融合基因对,将该融合基因对设置为融合基因列表,并获取相关参数信息;若多个异常比对序列的比对结果不一致,则根据比对质量选择质量较高的比对结果获取融合基因对,将该融合基因对设置为融合基因列表并获取相关参数信息;若多个异常比对序列的比对结果不一致且比对质量一致,则根据碱基质量选择质量较高的结果获取融合基因对,则将该融合基因对设置为融合基因列表并获取相关参数信息;

15、步骤s54:若融合基因对仅在第一融合基因结果中检出,且融合基因1和融合基因2在其他融合基因对中均未检出,则获取第一融合基因结果和相关参数进行判断:若断点数量中的total数≥20,则认为该融合基因对为真阳性,设置为融合基因列表,并获取相关参数信息;若10≤断点数量的total数<20且碱基质量中低质量和极低质量的数量小于整个融合基因对长度的15%时,则根据融合基因对序列从dna测序数据中提取异常比对序列.fastq文件,使用samtools软件和picard软件对异常比对序列.fastq文件进行比对和去重,获取异常比对序列.bam文件,分别使用factera软件和arriba软件从异常比对序列.bam文件和异常比对.fastq文件中检测融合基因,若其中一个软件中检出相同的融合基因对,则认为该融合基因对为真阳性,设置为融合基因列表,并获取相关参数信息;

16、步骤s55:若融合基因对仅在第二融合基因结果中检出,且融合基因1和融合基因2在其他融合基因对中均未检出,则获取第二融合基因结果的相关参数进行判断:若break_support≥20且break_depth和proper_pair_support均大于100时,则认为该融合基因对为真阳性,设置为融合基因列表,并获取相关参数信息;若10≤break_support<20,且break_depth、proper_pair_support和total_depth均大于100时,则提取该融合基因对的序列信息,并从dna测序数据中提取异常比对序列.fastq文件,使用genefuse软件和arriba软件从异常比对序列.fastq文件中检测融合基因,若其中一个软件中检测出相同的融合基因对,则认为该融合基因对为真阳性,并获取相关参数信息;

17、步骤s56:若融合基因对仅在第三融合基因结果中检出,且融合基因1和融合基因2在其他融合基因结果中均未检出,则获取第三融合基因结果的相关参数进行判断:若confidence为high,且split_read≥20和coverage≥200时,则认为该融合基因对为真阳性,设置为融合基因列表,并获取参数信息;若confidence为medium或者low,10≤split_read<20,coverage≥200时,提取该融合基因对的序列信息,并根据该信息从dna测序数据中提取异常比对序列.fastq文件,使用软件bwa和软件picard对异常比对序列.fastq文件进行分析,获得异常比对序列.bam文件,分别使用软件genefuse和软件factera对异常比对序列.fastq文件和异常比对序列.bam文件进行融合基因检测,若任一软件检出相同的融合基因对,则认为该融合基因对为真阳性,设置为融合基因列表,并获取相关参数信息;

18、步骤s57:获取融合基因列表,输出结果。

19、与现有技术相比,本发明具有以下有益效果:

20、(1)本发明使用三种基于不同检测算法和不同检测数据的软件(genefuse、factera和arriba)检测融合基因,可以弥补单一软件检测不同融合基因类型的检测差异,并且纳入一个基于rna-based的软件从dna-based测序数据中检测融合基因,可以有效增加不同算法中检测融合基因的检出率;

21、(2)本发明通过每个软件的有效参数设置了融合基因的过滤阈值并构建了融合基因过滤模型,提高了每个软件检出的融合基因的准确性,能够更有效的为指导临床诊断及用药提供数据支持。

文档序号 : 【 40280977 】

技术研发人员:鲍乾,李姗珊,汪文铃
技术所有人:杭州洛兮医学检验实验室有限公司

备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
鲍乾李姗珊汪文铃杭州洛兮医学检验实验室有限公司
一种经皮神经电刺激治疗仪的制作方法 皂草黄苷在制备降血压产品中的应用
相关内容