RNA-seq 差异分析的细节详解 (5)

简介: RNA-seq 差异分析的细节详解 (5)

引言

本系列将开展全新的转录组分析专栏,主要针对使用DESeq2时可能出现的问题和方法进行展开。

往期复习

结果列的详细信息

您可以通过执行 mcols 函数来获取结果对象中涉及的变量和测试的详细信息。

mcols(res)$description

对于一个特定的基因,如果处理组与未处理组的对数变化倍数(log2 fold change)为-1,这意味着处理使得基因表达水平相对于未处理组下降了一半(即乘法变化为0.5)。如果关注的变量是连续变量,那么报告的对数变化倍数表示该变量每变化一个单位时的倍数变化。

关于 p 值设为 NA 的说明:结果表中的某些值可能因为以下原因被设为 NA:

  • 如果一行中的所有样本计数都为零,那么 baseMean 列将显示为零,对应的对数变化倍数估计值、p 值和调整后的 p 值都会设为 NA。
  • 如果一行中的样本存在极端计数异常值,那么 p 值和调整后的 p 值会被设为 NA。这些异常值是通过 Cook's distance 检测出来的。下文将介绍如何自定义异常值过滤以及如何替换异常值和重新拟合。
  • 如果一行因为自动独立过滤而被筛选掉,因为其平均标准化计数较低,那么只有调整后的 p 值会被设为 NA。下文将介绍独立过滤的描述和自定义方法。

结果的丰富可视化和报告

  • regionReport:使用 regionReport 包可以生成包含图表的结果 HTML 和 PDF 摘要。DESeq2Report 函数应在经过 DESeq 函数处理的 DESeqDataSet 上运行。
  • Glimma:使用 Glimma 包可以生成包括 MA-plots(也称为 MD-plots)在内的 DESeq2 输出的交互式可视化。
  • pcaExplorer:使用 pcaExplorer 包可以生成包括 PCA 图、计数箱线图和其他有用摘要的 DESeq2 输出的交互式可视化。
  • iSEE:iSEE 提供了创建基于 Shiny 的交互式图形用户界面的函数,用于探索存储在 SummarizedExperiment 对象中的数据,包括行和列级别的元数据。特别关注 SingleCellExperiment 对象中的单细胞数据,并可视化降维结果。

  • iSEEde 包提供了额外的面板,以促进 iSEE 应用程序中差异表达结果的交互式可视化。

  • DEvis:DEvis 是一个强大的、集成的解决方案,用于分析差异表达数据。该包包括一系列用于操作和聚合数据的工具,以及一系列可定制的可视化和项目管理功能,简化了 RNA-Seq 分析,并提供了多种探索和分析数据的方法。

导出 CSV 文件

可以使用 R 基础函数 write.csv 或 write.delim 将结果导出为纯文本文件。建议使用描述性的文件名,以指示被测试的变量和水平。

write.csv(as.data.frame(resOrdered), file="condition_treated_results.csv")

仅导出通过调整后的 p 值阈值的结果可以使用 subset 函数,然后使用 write.csv 函数来完成。

resSig <- subset(resOrdered, padj < 0.1)
resSig

多因素实验设计

当实验受到多个因素的影响时,可以使用包含额外变量的设计公式来分析这些实验。实际上,DESeq2能够处理任何可以用固定效应项来描述的实验设计,包括多因素设计、包含交互作用的设计、涉及连续变量的设计、样条函数等。

通过在设计公式中加入额外的变量,可以控制计数数据中的额外变异。例如,如果实验条件样本在不同实验批次中分布均匀,将批次作为一个因素纳入设计中,可以提高发现由条件引起的差异的敏感性。当这些额外变量本身也是研究的重点,而不仅仅是控制变量时,有多种分析方法可供选择。

大规模样本实验:在样本数量众多的实验中(例如50个或100个样本),技术变异很可能会影响观察到的计数数据。如果忽视这种技术变异,可能会导致错误的结果。有许多方法可以用来模拟这种技术变异,并且这些方法可以轻松地整合到DESeq2的设计中,以便在估计感兴趣的效应的同时控制技术变异。

pasilla包中的数据包含了感兴趣的条件(“条件”列),以及关于进行的测序类型的信息(“类型”列),如下所示:

colData(dds)

创建 DESeqDataSet 的副本,以便可以使用多因素设计重新运行分析

ddsMF <- dds

将 type 的水平调整为仅包含字母(设计因子水平中也可以包括数字、下划线和句点)。更改水平名称时,请务必保持与当前顺序一致,以避免出错。

levels(ddsMF$type)
## [1] "paired-end"  "single-read"

levels(ddsMF$type) <- sub("-.*", "", levels(ddsMF$type))
levels(ddsMF$type)
## [1] "paired" "single"

能够考虑不同测序技术的差别,并更清楚地揭示由处理引起的差异。条件作为关注的主要变量,被放在了公式的最后部分。因此,默认情况下,结果函数会提取与条件相关的结果,除非用户特别指定了对比或命名参数。

接下来,可以再次执行 DESeq 分析:

design(ddsMF) <- formula(~ type + condition)
ddsMF <- DESeq(ddsMF)

再次,使用 results 函数访问结果。

resMF <- results(ddsMF)
head(resMF)

还可以获取设计中最后一个变量以外的其他变量的 log2 倍数变化、p 值以及调整后的 p 值。以 type 为例,尽管它仅仅表示测序协议之间的差异,缺乏生物学意义,但在某些假设设计中,例如 ~genotype + condition + genotype:condition,可能对不同 genotype 之间的基线表达差异感兴趣,而 genotype 并非设计中的最后一个变量。

通常情况下,函数 results 的 contrast 参数要求一个包含三个元素的字符向量:变量名称、作为 log2 比率分子的因子水平名称,以及作为分母的因子水平名称。

resMFType <- results(ddsMF,
                     contrast=c("type", "single", "paired"))
head(resMFType)

对于连续变量或交互项(详见交互项部分),可以通过设置 results 函数的 name 参数来提取结果,其中 name 应对应于 resultsNames(dds) 返回的某个元素。

相关文章
|
9天前
|
编解码 前端开发 算法
R中单细胞RNA-seq分析教程 (7)
R中单细胞RNA-seq分析教程 (7)
40 20
R中单细胞RNA-seq分析教程 (7)
|
2月前
|
数据可视化 C++
RNA-seq 差异分析的点点滴滴(3)
RNA-seq 差异分析的点点滴滴(3)
57 27
RNA-seq 差异分析的点点滴滴(3)
|
25天前
|
前端开发 数据挖掘 测试技术
R中单细胞RNA-seq分析教程 (6)
R中单细胞RNA-seq分析教程 (6)
55 12
R中单细胞RNA-seq分析教程 (6)
|
30天前
|
数据挖掘
R中单细胞RNA-seq分析教程 (5)
R中单细胞RNA-seq分析教程 (5)
49 13
R中单细胞RNA-seq分析教程 (5)
|
1月前
|
并行计算 数据可视化 开发者
RNA-seq 差异分析的点点滴滴(4)
RNA-seq 差异分析的点点滴滴(4)
39 3
RNA-seq 差异分析的点点滴滴(4)
|
1月前
|
SQL 机器学习/深度学习 编解码
R中单细胞RNA-seq分析教程 (4)
R中单细胞RNA-seq分析教程 (4)
42 6
R中单细胞RNA-seq分析教程 (4)
|
2月前
|
Python
RNA-seq 差异分析的点点滴滴(2)
RNA-seq 差异分析的点点滴滴(2)
54 10
RNA-seq 差异分析的点点滴滴(2)
|
2月前
|
存储
RNA-seq 差异分析的点点滴滴(1)
RNA-seq 差异分析的点点滴滴(1)
42 1
RNA-seq 差异分析的点点滴滴(1)
|
6月前
|
数据处理 索引
联合 RNA 和 ATAC 分析:SNARE-seq
联合 RNA 和 ATAC 分析:SNARE-seq
54 0
联合 RNA 和 ATAC 分析:SNARE-seq
|
7月前
|
数据可视化 Java 数据处理
单细胞|RNA-seq & ATAC-seq 联合分析
单细胞|RNA-seq & ATAC-seq 联合分析
79 3

热门文章

最新文章