一种基于密度曲线的DNA拷贝数检测方法及系统与流程

2025-01-04 14:40:01 683次浏览

技术特征：

1.一种基于密度曲线的dna拷贝数检测方法，所述方法用于染色体的拷贝数识别，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤s2中，采用算法包括但不限于用varbin、gingo、hmm copy等程序进行。

3.根据权利要求1所述的方法，其特征在于，所述步骤s2中，所述基因组为人类基因组，所述bin区的数量从1kbins到100kbins，对应的bin区长度约为3000kbp到30kbp。

4.根据权利要求1所述的方法，其特征在于，所述步骤s4中，向每个bin的原始覆盖数(bincount)加上1，然后根据每个bins所在序列的gc含量使用lowess平滑方法对每个bin的原始覆盖数(bincount)进行归一化处理，生成标准化的拷贝数nrc(normalized readcount)。

5.根据权利要求4所述的方法，其特征在于，所述步骤s4中，需要针对不同分辨率的bins下的数据，将着丝粒和端粒对应的序列所在bins的数据屏蔽，这种屏蔽通用于特定物种特定分辨率的任意数据。

6.根据权利要求1所述的方法，其特征在于，所述步骤s5中算法工具包括但不限于kolmogorov-smirnov(ks)、循环二元分割算法circular binary segmentation(cbs)、高斯核平滑密度图(gaussian kernel smoothed densityplots)等程序，对“近似nrc值”的定义视具体程序工具而定。

7.根据权利要求1所述的方法，其特征在于，所述步骤s5中，能代表该segment区的所有nrc的集中趋势的量数包括但不限于算术平均数、几何平均数、中位数、众数。

8.根据权利要求1所述的方法，其特征在于，所述步骤s6中，打分公式为：

9.根据权利要求8所述的方法，其特征在于，排除了nrcd值大于0.25的样本，并将nrcd值小于0.25的样本进行下一步分析。

10.根据权利要求1所述的方法，其特征在于，所述步骤s7中，根据snrc频率计算整个基因组的snrc密度分布，得到snrc频率的综合信息，公式如下所示：

11.根据权利要求1所述的方法，其特征在于，所述步骤s8中，密度图中的主峰区(majorpeak zone)为波峰(peak)和两侧波谷(vally)之间的区域，缓冲区(buffer zone)为相邻主峰区之间的区域，其中主峰区与染色体片段的整数型拷贝数相对应，缓冲区与模糊值相对应。

12.根据权利要求11所述的方法，其特征在于，确定波峰和波谷的方法为，先检索极值点，再按照筛选标准来定义波峰和波谷。

13.根据权利要求11所述的方法，其特征在于，筛选规则包括但不限于：1)波峰为极大值；2)波谷为极小值；3)波峰对应的密度值应大于1％；4)波峰的数量应小于或等于研究对象预期dna片段拷贝变异数的上限；5)波峰之间的距离应大致相等，优选地这个距离为1；6)波峰两侧的波谷之间的间隔(即主峰区的范围大小)应大于一个特定值，优选地这个特定值是0.5。

14.根据权利要求1所述的方法，其特征在于，所述步骤s8中，整数型拷贝数1的峰对应的分界线有上限，整数型拷贝数2的峰对应的分界线有上限和下限，整数型拷贝数3的峰对应的分界线仅有下限。

15.一种基于权利要求1-14任一项所述方法的密度曲线的dna拷贝数检测系统，其特征在于，包括：上游分析模块，用于对样本进行高通量测序后，对测序数据进行质量控制，对测序所得的分别进行过滤，去除掉接头序列和低质量碱基；序列比对模块，将序列比对到参考基因组，并对序列进行筛选以去除重复；滑动窗口模块，用于确定基因组的间隔—bins，以保证每一个bin具有相似的可映射性以及gc碱基含量；序列统计模块，与所述滑动窗口模块相连，对每个bin的序列进行统计计算并进行标准化；基因组分割模块，用以合并相同性质的bins；阈值确定模块，用于根据不同分辨率下的nrc和snrc数据确定样本数据的离散程度；密度计算模块，用于计算拷贝数信号值snrc的局部密度(localdensity)并以此绘制密度曲线图；峰值确定模块，用于寻找密度图中的波峰和波谷，并展示基因组上的拷贝数变异区域。

技术总结
本发明公开了一种基于密度曲线的DNA拷贝数的检测方法及系统，涉及生物信息学技术领域，该方法包括以下步骤：分选单细胞或群体细胞后用全基因组预扩增或无预扩增所产生的DNA来构建测序文库；在特定分辨率下计算每个原始DNA测序数据的拷贝数信号值SNrc(SegmentedNormalized read counts)；然后计算SNrc值的局部密度(Local density)并以此绘制密度曲线图；在密度图中找出主峰区(Majorpeak zone)和缓冲区(Bufferzone)分别作为整数型拷贝数(Integer copy number)和模糊值(Fuzzy value)。其中模糊值用以判断群体细胞组织样品中是否出现异质性或嵌合体，或单细胞样品是否出现游离DNA污染等问题。该方法提高了DNA拷贝数变异(CNV)判定的客观性和精准度。

技术研发人员：潘星华,徐萌昌,林贯川
受保护的技术使用者：广州序科码生物技术有限责任公司
技术研发日：
技术公布日：2024/11/18

文档序号 : 【 40050610 】

技术研发人员：潘星华,徐萌昌,林贯川
技术所有人：广州序科码生物技术有限责任公司

备注：该技术已申请专利，仅供学习研究，如用于商业用途，请联系技术所有人。
声明 ：此信息收集于网络，如果你是此专利的发明人不想本网站收录此信息请联系我们，我们会在第一时间删除

潘星华丨徐萌昌丨林贯川丨广州序科码生物技术有限责任公司