maftools|TCGA肿瘤突变数据的汇总,分析和可视化

简介: maftools|TCGA肿瘤突变数据的汇总,分析和可视化

本文首发于“生信补给站”公众号 https://mp.weixin.qq.com/s/WG4JHs9RSm5IEJiiGEzDkg


之前介绍了使用maftools | 从头开始绘制发表级oncoplot(瀑布图) R-maftools包绘制组学突变结果(MAF)的oncoplot或者叫“瀑布图”,以及一些细节的更改和注释。

本文继续介绍maftools对于MAF文件的其他应用,为更易理解和重现,本次使用TCGA下载的LIHC数据。

数据部分

#载入R包和数TCGA-LIHC的maf数据
library(maftools)
laml.maf = read.csv("TCGA.LIHC.mutect.maf.csv",header=TRUE)
#本次只展示maf的一些统计绘图,只读入组学数据,不添加临床数据
laml = read.maf(maf = laml.maf)
#查看数据的基本情况
laml
An object of class  MAF
                       ID summary   Mean Median
1:             NCBI_Build       1     NA     NA
2:                 Center       1     NA     NA
3:                Samples     364     NA     NA
4:                 nGenes   12704     NA     NA
5:        Frame_Shift_Del    1413  3.893      3
6:        Frame_Shift_Ins     551  1.518      1
7:           In_Frame_Del     277  0.763      0
8:           In_Frame_Ins     112  0.309      0
9:      Missense_Mutation   28304 77.972     63
10:      Nonsense_Mutation    1883  5.187      4
11:       Nonstop_Mutation      45  0.124      0
12:            Splice_Site    1051  2.895      2
13: Translation_Start_Site      65  0.179      0
14:                  total   33701 92.840     75
#可以将MAF文件的gene ,sample的 summary 的信息,输出到laml前缀的summary文件
write.mafSummary(maf = laml, basename = 'laml')
laml_geneSummary.txt

laml_sampleSummary.txt

分析,可视化


1,绘制MAF文件的整体结果图

plotmafSummary(maf=laml, rmOutlier=TRUE, addStat='median', dashboard=TRUE, titvRaw=FALSE)

2,绘制oncoplot图

#oncoplot for top 20 genes.

oncoplot(maf=laml, top=20)

添加SCNA信息,添加P值信息,添加临床注释信息,更改颜色等可参考 maftools | 从头开始绘制发表级oncoplot(瀑布图)

3, 绘制Oncostrip

可以使用 oncostrip 函数展示特定基因在样本中的突变情况,此处查看肝癌中关注较多的'TP53','CTNNB1', 'ARID1A'三个基因,如下:

oncostrip(maf=laml, genes=c('TP53','CTNNB1', 'ARID1A'))

4 Transition , Transversions

titv函数将SNP分类为Transitions_vs_Transversions,并以各种方式返回汇总表的列表。汇总数据也可以显示为一个箱线图,显示六种不同转换的总体分布,并作为堆积条形图显示每个样本中的转换比例。

laml.titv=titv(maf=laml, plot=FALSE, useSyn=TRUE)

#plot titv summary

plotTiTv(res=laml.titv)

5 Rainfall plots

使用rainfallPlot参数绘制rainfall plots,展示超突变的基因组区域。detectChangePoints设置为TRUE,rainfall plots可以突出显示潜在变化的区域.

rainfallPlot(maf=laml, detectChangePoints=TRUE, pointSize=0.6)

6 Compare mutation load against TCGA cohorts

通过tcgaComapre函数实现laml(自有群体)与TCGA中已有的33个癌种队列的突变负载情况的比较。

#cohortName 给输入的队列命名

laml.mutload=tcgaCompare(maf=laml, cohortName='LIHC-2')

7 Genecloud

使用 geneCloud参数绘制基因云,每个基因的大小与它突变的样本总数成正比。

geneCloud(input=laml, minMut= 15)

8 Somatic 交互性

癌症中的许多引起疾病的基因共同发生或在其突变模式中显示出强烈的排他性。可以使用somaticInteractions函数使用配对Fisher 's精确检验来分析突变基因之间的的co-occurring 或者exclusiveness。

 

#exclusive/co-occurance event analysis on top 10 mutated genes.
Interact <- somaticInteractions(maf = laml, top = 25, pvalue = c(0.05, 0.1))
#提取P值结果
Interact$gene_sets
                 gene_set       pvalue
 1:   AXIN1, TP53, CTNNB1 0.0001359059
 2:  TP53, CTNNB1, ARID1A 0.0017044866
 3:     AXIN1, TP53, APOB 0.0083559763
 4:      AXIN1, TP53, ALB 0.0166487594
 5: AXIN1, CTNNB1, ARID1A 0.0354069454
 6:      AXIN1, ALB, APOB 0.0503831670

可以看到TP53和CTNNB1之间有较强的exclusiveness,也与文献中的结论一致。


9 两个队列比较(MAFs)

由于癌症的突变模式各不相同,因此可是 mafComapre参数比较两个不同队列的差异突变基因,检验方式为fisher检验。


 

#输入另一个 MAF 文件
Our_maf <- read.csv("Our_maf.csv",header=TRUE)
our_maf = read.maf(maf = Our_maf)
#比较最少Mut个数为5的基因
pt.vs.rt <- mafCompare(m1 = laml, m2 = our_maf, m1Name = 'LIHC', m2Name = 'OUR', minMut = 5)
print(pt.vs.rt)

  • result部分会有每个基因分别在两个队列中的个数以及P值和置信区间等信息。
  • SampleSummary 会有两个队列的样本数。

1) Forest plots

比较结果绘制森林图

forestPlot(mafCompareRes=pt.vs.rt, pVal=0.01, color=c('royalblue', 'maroon'), geneFontSize=0.8)

10 Oncogenic 通路

OncogenicPathways 功能查看显著富集通路

OncogenicPathways(maf=laml)

#会输出统计结果
Pathway alteration fractions
      Pathway  N n_affected_genes fraction_affected
1:    RTK-RAS 85               68         0.8000000
2:        WNT 68               55         0.8088235
3:      NOTCH 71               52         0.7323944
4:      Hippo 38               30         0.7894737
5:       PI3K 29               24         0.8275862
6: Cell_Cycle 15               11         0.7333333
7:        MYC 13               10         0.7692308
8:   TGF-Beta  7                6         0.8571429
9:       TP53  6                5         0.8333333
10:       NRF2  3                2         0.6666667

可以对上面富集的通路中选择感兴趣的进行完成的突变展示:

PlotOncogenicPathways(maf = laml, pathways = "PI3K")

好了,以上就是使用maftools包对MAF格式的组学数据的汇总,分析,可视化。

相关文章
|
3月前
|
存储 编解码 监控
针对3-15分钟视频的抽帧策略:让Qwen2.5 VL 32B理解视频内容
针对3-15分钟视频,提出高效抽帧策略:通过每5-10秒定间隔或关键帧检测方法,提取30-100帧关键图像,结合时间均匀采样与运动变化捕捉,降低冗余,提升Qwen2.5 VL 32B对视频内容的理解效率与准确性。
|
数据库
rpm yum 等命令无响应的解决方法
yum 安装查询任何东西, rpm 安装查询任何东西,执行后无任何反应,直接卡住,也没任何错误信息给出,只能杀掉进程 # yum install XXXX # yum clean all # rpm -qa # rpm -ivh XXX 执行全部无响应,只能kill 掉 原来是由于 rpm 的数据库出现异常了导致直接卡死了,造成这种异常通常是因为之前不正常的安装或查询。
4252 0
|
11月前
|
人工智能 搜索推荐 数据挖掘
Agent 从想法到实现之六顶思考帽
本文简要介绍六顶思考帽的概念及其优势,讲解智能体的概念和智能体平台,讲解该智能体的创建过程,带领大家从想法走向实现。
325 16
|
C语言 开发者
优化与定制:进阶FFplay开发者的实用技巧
【10月更文挑战第15天】FFplay 是 FFmpeg 项目的一部分,它提供了一个简单的命令行界面来播放多媒体文件。对于那些希望更深入地了解如何优化和定制 FFplay 的开发者而言,本文将介绍如何通过集成外部库来支持更多的媒体格式、调整播放性能参数以及通过修改源代码实现自定义功能。
240 1
|
机器学习/深度学习 数据采集 数据库
使用Python实现智能食品营养分析的深度学习模型
使用Python实现智能食品营养分析的深度学习模型
581 6
|
芯片 开发者
脉冲宽度调制
脉冲宽度调制(PWM)是一种通过调整脉冲信号的占空比来控制功率、亮度或速度等参数的技术,广泛应用于电机控制、电源转换和照明等领域。
|
JSON JavaScript 数据格式
文本-----wangEditor的使用,设置和获取内容,展示HTML无样式怎么办????console同步展示怎样写,Vue的配置在Vue3配置文件中的配置,是editor中的v-model绑定的值
文本-----wangEditor的使用,设置和获取内容,展示HTML无样式怎么办????console同步展示怎样写,Vue的配置在Vue3配置文件中的配置,是editor中的v-model绑定的值
|
弹性计算 Serverless 开发者
Next.js 建站的生死抉择:Serverless FC 与 Serverless 应用引擎的激烈碰撞,何去何从?
【8月更文挑战第7天】在选择Serverless FC或Serverless应用引擎部署Next.js网站时,需考量便捷性、性能与成本。Serverless应用引擎提供直观界面简化部署管理,而Serverless FC需深入了解函数配置;性能上,应用引擎表现更稳定,尤其高并发场景,但FC按需伸缩;成本方面,FC适合低流量应用,应用引擎大规模使用更经济。两者均具良好扩展性,但体验各异。最终选择应基于具体需求、预算和技术背景。
338 3
|
开发者 Python
神秘编程世界惊现强大调试法宝!FastAPI 究竟藏着怎样的秘密?带你解决 Web 应用问题大揭秘!
【8月更文挑战第31天】在 Web 应用开发中,调试至关重要,有助于迅速定位并解决问题,确保应用稳定运行。不同于传统框架依赖打印日志和手动检查代码的方式,FastAPI 作为现代 Python Web 框架,提供了内置开发服务器和自动重载功能,极大提升了开发效率。结合 Python 调试器,开发者可通过设置断点来逐步执行代码,直观精确地观察变量值与执行流程,快速定位问题。此外,FastAPI 还提供详细错误信息和日志记录,帮助开发者更高效地解决应用问题,提升应用质量。
239 0
|
存储 缓存 安全
站在巨人WordPress的肩膀上学架构
WordPress 可能是很多学习搭建云计算网站的第一课,写了篇 Hello World 就匆匆结束了对 WordPress 的体验。在全球前 1,000 万的网站中,三分之一都使用了 WordPress,像国外的白宫官网、纽约邮报、微软新闻中心、国内的爱范儿等等。因此开源社区的 WordPress 有着大量的开发者贡献代码和思路,帮助我们构建一个强大而成熟的网站。 我们要实现一个架构其实最重要的是三个目标,快、稳和省。 前端访问要快,后端运行要稳,但是实现前两者不能无节制的上升成本,我们要节省成本让利益最大化。。
1729 0
站在巨人WordPress的肩膀上学架构

热门文章

最新文章