差异分析②-阿里云开发者社区

开发者社区> 夜神moon> 正文

差异分析②

简介: 样品的无监督聚类 检查基因表达分析最重要的探索性策略之一是多维定标(MDS)图或类似的图。该图以无监督的方式显示了样本之间的相似性和不相似性,以便人们可以了解在进行正式测试之前可以检测差异表达的程度。
+关注继续查看

样品的无监督聚类

检查基因表达分析最重要的探索性策略之一是多维定标(MDS)图或类似的图。该图以无监督的方式显示了样本之间的相似性和不相似性,以便人们可以了解在进行正式测试之前可以检测差异表达的程度。理想情况下,样本会在感兴趣的主要条件下很好地聚类,并且可以识别任何偏离其群组的样本,并追踪误差来源或额外变化。


lcpm <- cpm(x, log=TRUE)
par(mfrow=c(1,2))
col.group <- group
levels(col.group) <- brewer.pal(nlevels(col.group), "Set1")
col.group <- as.character(col.group)
col.lane <- lane
levels(col.lane) <- brewer.pal(nlevels(col.lane), "Set2")
col.lane <- as.character(col.lane)
plotMDS(lcpm, labels=group, col=col.group)
title(main="A. Sample groups")


plotMDS(lcpm, labels=lane, col=col.lane, dim=c(3,4))
title(main="B. Sequencing lanes")

img_11a5e9bb0c0a71b14c15b9d7d3498f68.png

这种方法可以使用plotMDS函数在limma包中进行。第一个维度解释了数据中最大的变化比例,其后的维度具有较小的影响并且与之前的维度正交。当实验设计涉及多个因素时,建议在多个维度上检查每个因子。如果样本以任何这些维度中的给定因子聚类,则表明该因子有助于表达差异,并且值得包括在线性建模中。另一方面,影响很小或没有影响的因素可能会被排除在下游分析之外。在这个数据集中,可以看到样本在维度1和维度2内的实验组内很好地聚类。虽然所有样本都是按照群组聚集的,但是观察到在基础和LP之间以及基线和ML在维度1上的最大转录差异。由于这个原因,预计细胞群体之间的配对比较将导致用于比较的更多数量的DE基因涉及基础样本,并且在比较ML和LP时涉及相对少量的DE基因。

  • 另外,Glimma软件包提供了可以探索多个维度的交互式MDS图的便利。 glMDSPlot函数在左侧面板中生成一个带有MDS图的html页面(如果launch = TRUE,则在浏览器中打开该页面),并显示右侧面板中每个维度解释的变化比例的barplot。 单击条形图的条形图会更改MDS图形中绘制的一对维度,然后悬停在各个点上可以显示样本标签。 颜色方案也可以改变以突出细胞群或测序泳道(批次)。 这个数据集的交互式MDS图可以在http://bioinf.wehi.edu.au/folders/limmaWorkflow/glimma-plots/MDS-Plot.html找到。
library(Glimma)
glMDSPlot(lcpm, labels=paste(group, lane, sep="_"), groups=x$samples[,c(2,5)],
          launch=T)
img_fd48003ec3d6f368e0b2de4e8b1c4afa.png

差异表达分析

创建一个设计矩阵和对比

在这项研究中,我们感兴趣的是看到哪些基因在三种细胞群体之间的不同水平上表达。 在我们的分析中,假设基础数据是正态分布的,假设线性模型符合数据。 为了开始,设计矩阵与细胞群体和测序泳道(批次)信息一起建立。


design <- model.matrix(~0+group+lane)
colnames(design) <- gsub("group", "", colnames(design))
design
contr.matrix <- makeContrasts(
  BasalvsLP = Basal-LP,
  BasalvsML = Basal - ML, 
  LPvsML = LP - ML,
  levels = colnames(design))
contr.matrix

从计数数据中去除杂波

已经显示,对于RNA-seq计数数据,方差并不依赖于平均值13 - 原始计数或转换为对数CPM值时,情况属实。使用负二项分布模型计数的方法假定二次均方差关系。在limma中,对log-CPM值进行线性建模,log-CPM值假定为正态分布,并使用由voom函数计算的精确权重来适应均值 - 方差关系。在DGEList对象上运行时,voom通过自动从x本身提取库大小和规范化因子,将原始计数转换为log-CPM值。可以使用normalize.method参数在voom中指定对日志CPM值的其他标准化。

v <- voom(x, design, plot=TRUE)
v

vfit <- lmFit(v, design)
vfit <- contrasts.fit(vfit, contrasts=contr.matrix)
efit <- eBayes(vfit)
plotSA(efit)
img_d3fedf9f344f30e3cac87bbd23d28500.png

左图显示了该数据集的log-CPM值的均值 - 方差关系。典型地,“voom-plot”显示由测序实验中的技术变化和来自不同细胞群的重复样品之间的生物变异的组合导致的均值和变化之间的下降趋势。具有高生物学变异的实验通常导致更平坦的趋势,其中方差值在高表达值时平稳。低生物变异的实验倾向于导致急剧下降的趋势。右图表示基因方差不受基因平均值影响。

检查DE基因的数量

为了快速了解差异表达水平,可以在表格中总结显着上调和下调基因的数目。 显着性是使用默认设置为5%的调整后的p值截止值来定义的。 为了比较Basal和LP中的表达水平总共8,425个DE基因。 在Basal和ML之间发现总共8,510个DE基因(4,338个下调基因和4,172个上调基因),并且在LP和ML之间发现总共5,340个DE基因(2,895个下调和2,445个上调)。 观察到的涉及基础群体的较大数量的DE基因与我们对MDS图的观察结果一致。

summary(decideTests(efit))
       BasalvsLP BasalvsML LPvsML
Down        4127      4338   2895
NotSig      5740      5655   8825
Up          4298      4172   2445

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
9496 0
差异分析①
加载数据 setwd("D:\\diff") # Reading in count data files
1093 0
自动化测试|录制回放效果差异检测
闲鱼技术-深宇 概述   回归测试是指修改了旧代码后,重新进行测试以确认修改没有引入新的错误或导致其他的代码出现错误。传统的自动化回归测试需要手动编写脚本获得页面元素的视图树,与原有的元素视图树进行比对。
8178 0
文件夹差异文件对比工具 meld
/***************************************************************************************** * 文件夹差异文件对比工具 meld * 说明: * 之前就听说Lee使用文件夹文本差异对比软件winmerge,不过如果要在Linux下使用,那么就要 * 装wine才行了,索性还是换一个在Linux下通用的比较好,于是选择了meld。
1249 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
13185 0
差异分析②
样品的无监督聚类 检查基因表达分析最重要的探索性策略之一是多维定标(MDS)图或类似的图。该图以无监督的方式显示了样本之间的相似性和不相似性,以便人们可以了解在进行正式测试之前可以检测差异表达的程度。
869 0
+关注
夜神moon
南方医科大学外科硕士
83
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载