一种基于密度曲线的DNA拷贝数检测方法及系统与流程
技术特征:
1.一种基于密度曲线的dna拷贝数检测方法,所述方法用于染色体的拷贝数识别,其特征在于,包括如下步骤:
2.根据权利要求1所述的方法,其特征在于,所述步骤s2中,采用算法包括但不限于用varbin、gingo、hmm copy等程序进行。
3.根据权利要求1所述的方法,其特征在于,所述步骤s2中,所述基因组为人类基因组,所述bin区的数量从1kbins到100kbins,对应的bin区长度约为3000kbp到30kbp。
4.根据权利要求1所述的方法,其特征在于,所述步骤s4中,向每个bin的原始覆盖数(bincount)加上1,然后根据每个bins所在序列的gc含量使用lowess平滑方法对每个bin的原始覆盖数(bincount)进行归一化处理,生成标准化的拷贝数nrc(normalized readcount)。
5.根据权利要求4所述的方法,其特征在于,所述步骤s4中,需要针对不同分辨率的bins下的数据,将着丝粒和端粒对应的序列所在bins的数据屏蔽,这种屏蔽通用于特定物种特定分辨率的任意数据。
6.根据权利要求1所述的方法,其特征在于,所述步骤s5中算法工具包括但不限于kolmogorov-smirnov(ks)、循环二元分割算法circular binary segmentation(cbs)、高斯核平滑密度图(gaussian kernel smoothed densityplots)等程序,对“近似nrc值”的定义视具体程序工具而定。
7.根据权利要求1所述的方法,其特征在于,所述步骤s5中,能代表该segment区的所有nrc的集中趋势的量数包括但不限于算术平均数、几何平均数、中位数、众数。
8.根据权利要求1所述的方法,其特征在于,所述步骤s6中,打分公式为:
9.根据权利要求8所述的方法,其特征在于,排除了nrcd值大于0.25的样本,并将nrcd值小于0.25的样本进行下一步分析。
10.根据权利要求1所述的方法,其特征在于,所述步骤s7中,根据snrc频率计算整个基因组的snrc密度分布,得到snrc频率的综合信息,公式如下所示:
11.根据权利要求1所述的方法,其特征在于,所述步骤s8中,密度图中的主峰区(majorpeak zone)为波峰(peak)和两侧波谷(vally)之间的区域,缓冲区(buffer zone)为相邻主峰区之间的区域,其中主峰区与染色体片段的整数型拷贝数相对应,缓冲区与模糊值相对应。
12.根据权利要求11所述的方法,其特征在于,确定波峰和波谷的方法为,先检索极值点,再按照筛选标准来定义波峰和波谷。
13.根据权利要求11所述的方法,其特征在于,筛选规则包括但不限于:1)波峰为极大值;2)波谷为极小值;3)波峰对应的密度值应大于1%;4)波峰的数量应小于或等于研究对象预期dna片段拷贝变异数的上限;5)波峰之间的距离应大致相等,优选地这个距离为1;6)波峰两侧的波谷之间的间隔(即主峰区的范围大小)应大于一个特定值,优选地这个特定值是0.5。
14.根据权利要求1所述的方法,其特征在于,所述步骤s8中,整数型拷贝数1的峰对应的分界线有上限,整数型拷贝数2的峰对应的分界线有上限和下限,整数型拷贝数3的峰对应的分界线仅有下限。
15.一种基于权利要求1-14任一项所述方法的密度曲线的dna拷贝数检测系统,其特征在于,包括:上游分析模块,用于对样本进行高通量测序后,对测序数据进行质量控制,对测序所得的分别进行过滤,去除掉接头序列和低质量碱基;序列比对模块,将序列比对到参考基因组,并对序列进行筛选以去除重复;滑动窗口模块,用于确定基因组的间隔—bins,以保证每一个bin具有相似的可映射性以及gc碱基含量;序列统计模块,与所述滑动窗口模块相连,对每个bin的序列进行统计计算并进行标准化;基因组分割模块,用以合并相同性质的bins;阈值确定模块,用于根据不同分辨率下的nrc和snrc数据确定样本数据的离散程度;密度计算模块,用于计算拷贝数信号值snrc的局部密度(localdensity)并以此绘制密度曲线图;峰值确定模块,用于寻找密度图中的波峰和波谷,并展示基因组上的拷贝数变异区域。
技术总结
本发明公开了一种基于密度曲线的DNA拷贝数的检测方法及系统,涉及生物信息学技术领域,该方法包括以下步骤:分选单细胞或群体细胞后用全基因组预扩增或无预扩增所产生的DNA来构建测序文库;在特定分辨率下计算每个原始DNA测序数据的拷贝数信号值SNrc(SegmentedNormalized read counts);然后计算SNrc值的局部密度(Local density)并以此绘制密度曲线图;在密度图中找出主峰区(Majorpeak zone)和缓冲区(Bufferzone)分别作为整数型拷贝数(Integer copy number)和模糊值(Fuzzy value)。其中模糊值用以判断群体细胞组织样品中是否出现异质性或嵌合体,或单细胞样品是否出现游离DNA污染等问题。该方法提高了DNA拷贝数变异(CNV)判定的客观性和精准度。
技术研发人员:潘星华,徐萌昌,林贯川
受保护的技术使用者:广州序科码生物技术有限责任公司
技术研发日:
技术公布日:2024/11/18
技术研发人员:潘星华,徐萌昌,林贯川
技术所有人:广州序科码生物技术有限责任公司
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除