跟着Science学作图:R语言ggplot2作图展示基因组局部区域的共线性

简介: R语言ggplot2作图展示基因组局部区域的共线性

论文

Convergent selection of a WD40 protein that enhances grain yield in maize and rice

science.abg7985.pdf

https://www.science.org/doi/10.1126/science.abg7985

今天的推文我们来试着复现一下论文中的Fig3b

image.png

jcvi这个工具可以做这个基因组局部的共线性,jcvi的链接

https://github.com/tanghaibao/jcvi

入股有数据用ggplot2来做可能可定制性会高一些

准备数据

每个区间的bed文件

水稻

Chr4    28500000    28600000

玉米

2    17650000    18050000

然后用bed文件和对应的gff文件取交集提取区间内的基因

bedtools intersect -a ../../maize/PhytozomeV13/Zmays/RefGen_V4/annotation/Zmays_493_RefGen_V4.gene.gff3 -b maize.bed | awk '$3=="gene" {print}' > maize.gene.gff

bedtools intersect -a ../../rice/Phytozome/PhytozomeV12/Osativa/annotation/Osativa_323_v7.0.gene.gff3 -b rice.bed | awk '$3=="gene" {print}' > rice.gene.gff

这个区间内的共线性关系如果有现成的就好了,我这里的处理方式是把两段区间内的序列提取出来,然后做blast,然后用blast的结果作为共线性的关系(我这里仅仅是为了获得作图数据,不太确定这种方式作为共线性是否合理)

samtools faidx ../../maize/PhytozomeV13/Zmays/RefGen_V4/assembly/Zmays_493_APGv4.fa 2:17650000-18050000 > maize.fa

samtools faidx ../../rice/Phytozome/PhytozomeV12/Osativa/assembly/Osativa_323_v7.0.fa Chr4:28500000-28600000 > rice.fa

blast

makeblastdb -in rice.fa -dbtype nucl -out rice
blastn -query maize.fa -db rice -outfmt 6 > rice.maize.blastn

作图

library(tidyverse)
library(gggenes)
library(ggforce)

rice<-read_delim("D:/R_4_1_0_working_directory/env001/data/20230503/rice.gene.gff",
                 delim = "\t",
                 col_names = FALSE) %>% 
  mutate(X9=str_replace(str_sub(X9,1,17),"ID=",""),
         X7=case_when(
           X7 == "-" ~ -1,
           TRUE ~ 1
         ),
         X10=case_when(
           X9 == "LOC_Os04g47990" ~ "A",
           TRUE ~ "B"
         ),
         X1=2) %>% 
  select(X4,X5,X7,X9,X10,X1)

rice

maize<-read_delim("D:/R_4_1_0_working_directory/env001/data/20230503/maize.gene.gff",
                 delim = "\t",
                 col_names = FALSE) %>%  
  mutate(X9=str_replace(str_sub(X9,1,17),"ID=",""),
         X7=case_when(
           X7 == "-" ~ -1,
           TRUE ~ 1
         ),
         X10=case_when(
           X9 == "Zm00001d002641" ~ "A",
           TRUE ~ "B"
         ),
         X1=1) %>% 
  select(X4,X5,X7,X9,X10,X1)

maize

rice.maize.blastn<-read_delim("D:/R_4_1_0_working_directory/env001/data/20230503/rice.maize.blastn",
                              col_names = FALSE,
                              delim = "\t") %>% 
  mutate(X7=X7+17650000-1+10700000,
         X8=X8+17650000-1+10700000,
         X9=X9+28500000-1,
         X10=X10+28500000-1) %>% 
  select(X7,X8,X9,X10)

rice.maize.blastn

myabc<-function(df){
  x1<-c()
  
  for(i in 1:nrow(df)){
    
    x1<-append(x1,c(t(df)[,i][c(3,1,2,4)] %>% as.vector()))
  }
  return(x1)
}

x1<-myabc(rice.maize.blastn)
x1
y1<-rep(c(2,1,1,2),nrow(rice.maize.blastn))
y1
group1<-rep(as.character(1:400)[1:nrow(rice.maize.blastn)],each=4)
group1

ggplot()+
  geom_diagonal_wide(data = data.frame(x=x1,y=y1,group=group1),
                     aes(x=x,y=y,group=group),color="grey",fill="grey")+
  annotate(geom="segment",x=28500000,xend=28600000,y=2,yend=2)+
  geom_gene_arrow(data=rice,
                  aes(xmin=X4,xmax=X5,y=X1,
                      forward=X7,fill=X10),
                  arrowhead_height = unit(3, "mm"), 
                  arrowhead_width = unit(1, "mm"),
                  show.legend = FALSE)+
  annotate(geom="segment",x=28500000-150000,xend=28600000+160000,y=1,yend=1)+
  geom_gene_arrow(data=maize,
                  aes(xmin=X4+10700000,xmax=X5+10700000,y=X1,
                      forward=X7,fill=X10),
                  arrowhead_height = unit(3, "mm"), 
                  arrowhead_width = unit(1, "mm"),
                  show.legend = FALSE)+
  theme_bw()+
  theme(panel.grid = element_blank(),
        panel.border = element_blank(),
        axis.title = element_blank(),
        axis.text.y = element_blank(),
        axis.text.x = element_blank(),
        axis.ticks.x = element_blank())+
  scale_fill_manual(values = c("#f0505a","#65b691"))

image.png

怎么添加上下的刻度,另外再写推文介绍吧

还有一个问题是 水稻这一段序列看起来和下面这个是反向的,那么如果水稻序列取反向互补,那么原来的基因位置坐标应该如何转换,这个暂时想不明白

推文记录的是自己的学习笔记,内容可能会存在错误,请大家批判着看,欢迎大家指出其中的错误

示例数据和代码可以给推文点赞,然后点击在看,最后留言获取

欢迎大家关注我的公众号

小明的数据分析笔记本

小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!
相关文章
|
7月前
【视频】什么是非线性模型与R语言多项式回归、局部平滑样条、 广义相加GAM分析工资数据|数据分享(上)
【视频】什么是非线性模型与R语言多项式回归、局部平滑样条、 广义相加GAM分析工资数据|数据分享
|
4月前
|
数据可视化 数据挖掘 图形学
R语言基础可视化:使用ggplot2构建精美图形的探索
【8月更文挑战第29天】 `ggplot2`是R语言中一个非常强大的图形构建工具,它基于图形语法提供了一种灵活且直观的方式来创建各种统计图形。通过掌握`ggplot2`的基本用法和美化技巧,你可以轻松地将复杂的数据转化为直观易懂的图形,从而更好地理解和展示你的数据分析结果。希望本文能够为你探索`ggplot2`的世界提供一些帮助和启发。
|
4月前
|
数据可视化
R语言自定义图形:ggplot2中的主题与标签设置
【8月更文挑战第30天】`ggplot2`作为R语言中功能强大的绘图包,其自定义能力让数据可视化变得更加灵活和多样。通过合理使用`theme()`函数和`labs()`函数,以及`geom_text()`和`geom_label()`等几何对象,我们可以轻松创建出既美观又富有表达力的图形。希望本文的介绍能够帮助你更好地掌握`ggplot2`中的主题与标签设置技巧。
|
7月前
|
运维 算法 C++
R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测
R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测
|
7月前
|
机器学习/深度学习
R语言用局部加权回归(Lowess)对logistic逻辑回归诊断和残差分析
R语言用局部加权回归(Lowess)对logistic逻辑回归诊断和残差分析
|
7月前
|
存储 数据可视化 数据挖掘
R语言可视化:ggplot2冲积/桑基图sankey分析大学录取情况、泰坦尼克幸存者数据
R语言可视化:ggplot2冲积/桑基图sankey分析大学录取情况、泰坦尼克幸存者数据
|
7月前
|
算法 数据可视化 数据挖掘
R语言平滑算法LOESS局部加权回归、三次样条、变化点检测拟合电视节目《白宫风云》在线收视率
R语言平滑算法LOESS局部加权回归、三次样条、变化点检测拟合电视节目《白宫风云》在线收视率
|
7月前
【视频】什么是非线性模型与R语言多项式回归、局部平滑样条、 广义相加GAM分析工资数据|数据分享(下)
【视频】什么是非线性模型与R语言多项式回归、局部平滑样条、 广义相加GAM分析工资数据|数据分享
|
7月前
|
数据可视化
R语言非参数模型厘定保险费率:局部回归、广义相加模型GAM、样条回归
R语言非参数模型厘定保险费率:局部回归、广义相加模型GAM、样条回归
|
7月前
|
算法 数据可视化
R语言社区检测算法可视化网络图:ggplot2绘制igraph对象分析物种相对丰度
R语言社区检测算法可视化网络图:ggplot2绘制igraph对象分析物种相对丰度