R 实战 | 使用clusterProfiler进行多组基因富集分析

本文涉及的产品
函数计算FC,每月15万CU 3个月
简介: R 实战 | 使用clusterProfiler进行多组基因富集分析

示例数据


library(clusterProfiler)
data(gcSample) #载入
str(gcSample) #数据集格式
lapply(gcSample, head) #查看数据集
> str(gcSample)
List of 8
 $ X1: chr [1:216] "4597" "7111" "5266" "2175" ...
 $ X2: chr [1:805] "23450" "5160" "7126" "26118" ...
 $ X3: chr [1:392] "894" "7057" "22906" "3339" ...
 $ X4: chr [1:838] "5573" "7453" "5245" "23450" ...
 $ X5: chr [1:929] "5982" "7318" "6352" "2101" ...
 $ X6: chr [1:585] "5337" "9295" "4035" "811" ...
 $ X7: chr [1:582] "2621" "2665" "5690" "3608" ...
 $ X8: chr [1:237] "2665" "4735" "1327" "3192" ...
> lapply(gcSample, head)
$X1
[1] "4597"  "7111"  "5266"  "2175"  "755"   "23046"
$X2
[1] "23450" "5160"  "7126"  "26118" "8452"  "3675" 
$X3
[1] "894"   "7057"  "22906" "3339"  "10449" "6566" 
$X4
[1] "5573"  "7453"  "5245"  "23450" "6500"  "4926" 
$X5
[1] "5982" "7318" "6352" "2101" "8882" "7803"
$X6
[1] "5337"  "9295"  "4035"  "811"   "23365" "4629" 
$X7
[1] "2621" "2665" "5690" "3608" "3550" "533" 
$X8
[1] "2665" "4735" "1327" "3192" "5573" "9528"

富集分析


多个基因集的富集分析

xx <- compareCluster(gcSample, fun="enrichKEGG",
                     organism="hsa", pvalueCutoff=0.05)
table(xx@compareClusterResult$Cluster) #每个基因集富集个数
head(as.data.frame(xx)) #查看完整结果
> table(xx@compareClusterResult$Cluster)
X1 X2 X3 X4 X5 X6 X7 X8 
 0  3  3 18 10  1 15 19 
> head(as.data.frame(xx))
  Cluster       ID                            Description GeneRatio
1      X2 hsa04110                             Cell cycle    18/384
2      X2 hsa05169           Epstein-Barr virus infection    23/384
3      X2 hsa05340               Primary immunodeficiency     8/384
4      X3 hsa04512               ECM-receptor interaction     9/187
5      X3 hsa04060 Cytokine-cytokine receptor interaction    17/187
6      X3 hsa04151             PI3K-Akt signaling pathway    19/187
   BgRatio       pvalue    p.adjust      qvalue
1 126/8105 2.441211e-05 0.007470105 0.006989572
2 202/8105 7.911793e-05 0.012105043 0.011326356
3  38/8105 3.297441e-04 0.033633898 0.031470314
4  88/8105 1.815667e-04 0.045098637 0.042158192
5 295/8105 4.490651e-04 0.045098637 0.042158192
6 354/8105 5.048355e-04 0.045098637 0.042158192
                                                                                                     geneID
1                   991/1869/890/1871/701/990/10926/9088/8317/9700/9134/1029/2810/699/11200/23594/8555/4173
2 4067/3383/7128/1869/890/1871/578/864/637/9641/6891/355/9134/5971/916/956/6850/7187/3551/919/4734/958/6772
3                                                                       100/6891/3932/973/916/925/958/64421
4                                                              7057/3339/1299/3695/1101/3679/3910/3696/3693
5                      2919/4982/3977/6375/8200/608/8792/3568/2057/1438/8718/655/652/10220/50615/51561/7042
6             894/7057/6794/2247/1299/3695/2252/2066/1101/8817/1021/5105/3679/3082/2057/3910/3551/3696/3693
  Count
1    18
2    23
3     8
4     9
5    17
6    19
dotplot(xx) #气泡图

image.png

多个分组的富集分析

示例数据

data(geneList, package="DOSE") #载入DOSE包中的数据
head(geneList) #查看数据 包含基因名及其foldchange
mydf <- data.frame(Entrez=names(geneList), FC=geneList)
# 以下内容目的是构建分组 也可以用别的分组
# 将FC大于1的标注为上调 反之为下调
mydf <- mydf[abs(mydf$FC) > 1,]
mydf$group <- "upregulated"
mydf$group[mydf$FC < 0] <- "downregulated"
# 将FC绝对值大于2 的标注为B 反之为A
mydf$othergroup <- "A"
mydf$othergroup[abs(mydf$FC) > 2] <- "B"
head(mydf) # 查看示例数据(两个分组)
> head(mydf)
      Entrez       FC       group othergroup
4312    4312 4.572613 upregulated          B
8318    8318 4.514594 upregulated          B
10874  10874 4.418218 upregulated          B
55143  55143 4.144075 upregulated          B
55388  55388 3.876258 upregulated          B
991      991 3.677857 upregulated          B

分析及其可视化

# 可以进行单组或多组分析,在 + 号后添加即可
formula_res <- compareCluster(Entrez~group+othergroup, 
                              data=mydf, 
                              fun='enrichKEGG')
dotplot(formula_res)

image.png

# 同样可以进行分面操作
dotplot(formula_res, x=~group) + 
  ggplot2::facet_grid(~othergroup) #对于只用一次该包的功能可以这么写

image.png

基本用法

最后附上用法参数。

compareCluster(geneClusters, fun = "enrichGO", data = "", ...)

参数


image.png

image.png

References


Chapter 11 Biological theme comparison | clusterProfiler: universal enrichment tool for functional and comparative study (hiplot.com.cn)


相关实践学习
【AI破次元壁合照】少年白马醉春风,函数计算一键部署AI绘画平台
本次实验基于阿里云函数计算产品能力开发AI绘画平台,可让您实现“破次元壁”与角色合照,为角色换背景效果,用AI绘图技术绘出属于自己的少年江湖。
从 0 入门函数计算
在函数计算的架构中,开发者只需要编写业务代码,并监控业务运行情况就可以了。这将开发者从繁重的运维工作中解放出来,将精力投入到更有意义的开发任务上。
相关文章
【SPSS】生存-寿命表分析详细操作教程(附案例实战)
【SPSS】生存-寿命表分析详细操作教程(附案例实战)
867 0
|
2月前
|
人工智能 自然语言处理 监控
一文看懂开源Coze如何让测试效率飙升
Coze是测试工程师的AI引擎,支持私有部署与零代码测试,提升效率并降低成本。覆盖智能用例生成、数字员工值守、缺陷分析、多模态报告与安全测试五大场景,助力测试智能化转型。
|
数据格式
Front Immunol 复现 | 4. 使用estimate包评估肿瘤纯度
Front Immunol 复现 | 4. 使用estimate包评估肿瘤纯度
891 0
Front Immunol 复现 | 4. 使用estimate包评估肿瘤纯度
|
数据挖掘 数据格式
跟着Cell学作图 | 6.时间序列分析(Mfuzz包)
这篇2020年发表在cell上关于新冠的组学文章里面有大量的生信内容。今天带大家复现其中的一个Supplemental Figure:时间序列分析图。
1065 0
跟着Cell学作图 | 6.时间序列分析(Mfuzz包)
|
数据可视化 数据挖掘 Python
"揭秘Visium HD黑科技:空间数据分析大揭秘,可视化与整合的艺术之旅!"
【8月更文挑战第20天】近年来,空间转录组技术,特别是Visium HD技术,因其高分辨率与高通量特性,在单细胞生物学领域受到广泛关注。本文通过Python演示了Visium HD数据的全流程分析:从数据准备(读取表达矩阵和空间坐标)、空间数据分析(计算基因表达统计量)、数据可视化(绘制基因表达热图和空间点分布图),到多样本数据整合,为读者提供了实用的分析指南,助力深入探索空间转录组学的奥秘。
279 4
|
数据可视化 关系型数据库 数据挖掘
scRNA分析|一(尽)文(力)解决你的单细胞火山图问题
scRNA分析|一(尽)文(力)解决你的单细胞火山图问题
1283 0
|
存储 JSON JavaScript
【嵌入式开源库】cJSON的使用,高效精简的json解析库
【嵌入式开源库】cJSON的使用,高效精简的json解析库
479 0
|
存储 移动开发 Shell
单细胞分析(Signac): PBMC scATAC-seq 预处理
单细胞分析(Signac): PBMC scATAC-seq 预处理
|
编译器 C++
C++ max函数与min函数
C++ max函数与min函数
577 0
|
监控 数据可视化 项目管理
WBS任务分解拆解:项目管理中的效率秘诀探讨
WBS(Work Breakdown Structure)是项目管理中将大型复杂项目分解为可管理的小任务的方法。它帮助清晰定义项目目标,确保100%覆盖所有工作,并遵循任务独立性及适当工作包大小原则。WBS通过简化项目、明确责任人、制定工作清单、估算时间和分配资源,促进项目跟踪与控制。使用工具如Zoho Projects,可按阶段创建任务,细化子任务,设定依赖关系,分配资源,以及设置提醒和里程碑,从而有效管理项目执行。
1218 1