ChIP-seq 分析:评估片段长度与处理(6)

简介: ChIP-seq 分析:评估片段长度与处理(6)

1. 片段长度评估

片段长度的预测是 ChIPseq 的重要组成部分,它会影响峰识别、峰识别和覆盖概况。

使用互相关或交叉覆盖可以评估按链进行的读取聚类,从而衡量质量。

fragment

  • 在 ChIPseq 中,通常是 dsDNA 的短单端读取。
  • 片段的 5' 将在“+”链上测序
  • 片段末端的 3' 将位于“-”链上。
  • 虽然我们只有部分链序列,但根据预测的片段长度,我们可以预测整个片段
  • “+”读数应仅在正方向延伸
  • “-”只读负数

ChIPseq

2. 交叉覆盖图

Cross-coverage

plotCC 函数可用于绘制我们的交叉覆盖图, plotCC() 函数接受我们的 ChIPQC 样本对象列表和一个 facetBy 参数,以允许我们对交叉覆盖配置文件进行分组。

plotCC(myQC, facetBy = "Sample")

myQC

我们可以将元数据包含为 data.frame,其中第一列是我们的样本名称,以允许我们以不同的方式对我们的图进行分组。

myMeta <- data.frame(Sample = names(myQC), Tissue = c("Ch12", "Ch12", "MEL", "MEL",
    "MEL", "Ch12"), Antibody = c(rep("Myc", 4), rep("Input", 2)))
myMeta

myMeta

我们现在可以将我们的元数据包含到 addMetaData 参数中,这将允许我们对提供的元数据列进行 facetBy。

此外,我们在这里使用 colourBy 参数为抗体组添加颜色。

plotCC(myQC, facetBy = "Tissue", addMetaData = myMeta, colourBy = "Antibody")

myQC

ChIPQC 中的所有图实际上都是在 ggplot2 中构建的,因此我们可以像所有 ggplot 对象一样编辑和更新我们的图。

plotCC(myQC, facetBy = "Tissue", addMetaData = myMeta, colourBy = "Antibody") + theme_bw() +
    ggtitle("ChIPQC results")

plotCC

3. 黑名单和SSD

3.1. 黑名单

ChIPseq 通常会显示常见伪影的存在,例如超高信号区域。这些区域可能会混淆峰识别、片段长度估计和 QC 指标。 Anshul Kundaje 创建了 DAC 黑名单作为参考,以帮助处理这些地区。

  • 黑名单影响的指标

3.2. SSD

SSD 是其中一种对列入黑名单的工件敏感的措施。 SSD 是衡量整个基因组信号标准偏差的指标,较高的分数反映出大量的读数堆积。因此,SSD 可用于评估超高信号的范围和信号。但首先必须删除列入黑名单的区域。

SSD

ChIPQC 在移除来自黑名单区域的信号之前和之后计算 SSD。plotSSD() 函数以红色绘制样本的黑名单前分数,以蓝色绘制黑名单后分数。

预先列入黑名单的 SSD 的较高分数可以表明该样本的黑名单区域中有很强的背景信号。

plotSSD(myQC) + xlim(0, 5)

SSD

由于 SSD 分数受到黑名单的强烈影响,因此可能需要更改轴以查看黑名单后分数样本之间的任何差异。

更高的列入黑名单后的 SSD 分数反映了具有更强峰值信号的样本。

plotSSD(myQC) + xlim(0.2, 0.8)

SSD

相关文章
|
存储 编解码 算法
LDPC 在 5G-NR 中的标准进展之基本图 | 带你读《5G-NR信道编码》之十三
本章节将带读者走进5G LDPC 码基本图矩阵,带你了解LDPC有哪些基本图的设计。
LDPC 在 5G-NR 中的标准进展之基本图 | 带你读《5G-NR信道编码》之十三
|
存储 编解码 算法
准循环 LDPC 码(QC-LDPC) | 带你读《5G-NR信道编码》之九
本节将为你介绍准循环 LDPC 码(QC-LDPC)的基本内容。
准循环 LDPC 码(QC-LDPC) | 带你读《5G-NR信道编码》之九
|
4天前
|
存储 编解码 数据可视化
单细胞分析|整合 scRNA-seq 和 scATAC-seq 数据
单细胞分析|整合 scRNA-seq 和 scATAC-seq 数据
18 0
|
存储 编解码 5G
LDPC 在 5G-NR 中的标准进展 | 带你读《5G-NR信道编码》之十二
本章节带你了解LDPC 在 5G-NR 中的标准进展 ,观察5G是如何通过LDPC起作用的。
LDPC 在 5G-NR 中的标准进展  | 带你读《5G-NR信道编码》之十二
|
Serverless
ChIP-seq 分析:Differential Peaks(15)
ChIP-seq 分析:Differential Peaks(15)
236 0
|
数据可视化 Go 数据库
ChIP-seq 分析:基因集富集(11)
转录因子或表观遗传标记可能作用于按共同生物学特征(共享生物学功能、RNAseq 实验中的共同调控等)分组的特定基因组。
231 0
ChIP-seq 分析:数据与Peak 基因注释(10)
今天,我们将继续回顾我们在上一次中研究的 Myc ChIPseq。这包括用于 MEL 和 Ch12 细胞系的 Myc ChIPseq。
122 0
ChIP-seq 分析:TF 结合和表观遗传状态(13)
ChIP-seq 分析:TF 结合和表观遗传状态(13)
66 0
ChIP-seq 分析:文库的复杂性和丰富性(7)
ChIPseq 中的一个潜在噪声源是 ChIPseq 库在 PCR 步骤中的过度放大。这可能会导致大量重复读取,从而混淆峰值调用。
82 0
|
数据采集 数据可视化 Java
ChIP-seq 分析:原始数据质控(2)
染色质免疫沉淀,然后进行深度测序 (ChIPseq) 是一种成熟的技术,可以在**全基因组范围内识别转录因子结合位点和表观遗传标记**。
183 0