高通量测序中的GC含量质量控制
原文标题: Summarizing and correcting the GC content bias in high-throughput sequencing
原文地址: https://academic.oup.com/nar/article/40/10/e72/2411059
GC含量偏倚(bias)指的是illumina测序数据中的read覆盖率和GC含量存在关系. 这种偏倚会对依赖于基因组覆盖丰度(abundance)的分析方法造成影响. 这种偏倚在不同样本间是不一致的, 也就没有比较好的方法在单个样本中把这个偏倚去除.
作者对GC含量偏倚模式里的规律(regularities)进行了分析,发现能用一种单峰曲线家族对其描述. 也就是DNA全长片段的GC含量,不仅仅是测序片段的GC含量, 会对测序结果有影响.
这种经验观察又一次证实了PCR是GC偏倚的主要因素.
为什么要看这篇文章呢. 主要是看到Deeptools里面的computeGCBias
和correctGCBias
这两个工具引用了上面这篇文章. 我需要知道一下这个工具为什么要用, 以及以后在分析的哪一步可用.