R包：disgenet2r｜DisGeNET的懒癌福利，一行代码多种可视化-阿里云开发者社区

R包：disgenet2r｜DisGeNET的懒癌福利，一行代码多种可视化

2024-03-29 1062

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： DisGeNET是整合基因-疾病关联数据的综合数据库，用于生物医学研究。disgenet2r是R包，方便访问DisGeNET数据，支持查询、检索和分析。最新版包含超百万基因-疾病关联。安装包时若遇到网络问题，可从GitHub下载源代码手动加载。常用功能包括检索单一疾病相关基因、多疾病联合分析及疾病富集。该包简化了数据获取和初步分析，适合初学者，但可视化定制性有限。

1.前言

DisGeNET是一个综合性的数据库，它集合了关于基因和人类疾病之间关联的信息。这个数据库涵盖了各种疾病和条件，提供了大量有关基因、变异和疾病之间联系的数据。DisGeNET数据集通常用于生物信息学和基因组学研究，特别是在疾病遗传学和药物发现领域。

disgenet2r包是一个用于R语言的工具，专为访问和分析DisGeNET数据库中的数据而设计。DisGeNET是一个包含了人类基因和疾病关联数据的综合性数据库。通过disgenet2r包，研究者可以在R环境中直接查询、检索和分析与基因和疾病相关的信息。

当前版本的 DisGeNET （v7.0）包含 21671 个基因与 30170 个疾病、病症、性状和临床或异常人类表型之间的 1134942 个基因-疾病关联（GDA），以及 194515 个变异与 14155 个疾病、性状和表型之间的 369554 个变异-疾病关联（VDA）。

2.获取R包

# https://github.com/jinfar/disgenet2r
library(devtools)
install_bitbucket("ibi_group/disgenet2r")
library(disgenet2r)

有一位粉丝提到他那边怎么都下载不了，挂不挂梯都试了，网络环境问题。而且该包也没有提供本地包下载，小编提议暂时直接在github上下载压缩包，然后把主函数全部scoure一遍（无奈之策）：

## 报错：
Downloading bitbucket repo ibi_group/disgenet2r@HEAD Error: Failed to install 'disgenet2r' from Bitbucket: error reading from connection

## 无奈之策：
list.files()
# [1] "DESCRIPTION"      "disgenet2r.Rproj" "inst"             "man"             
# [5] "NAMESPACE"        "R"                "README.md"        "vignettes"       
for (i in list.files("./R")) {
   
   
   source(paste0("./R/",i))
}

3.使用方法

加载完R包后先调用API，记得提前在DisGeNET官网中注册一个帐号，随便一个国内邮箱都可以，然后完成设置：

## 调用API
disgenet_api_key <- get_disgenet_api_key(
  email = "xxxx@126.com", 
  password = "******" )
Sys.setenv(DISGENET_API_KEY= disgenet_api_key)

下面列举几个常用的代码，可视化的形式就network，Piechart，DiseaseClass，Venn，Heatmap，ProteinClass，Barplot，Lollipop。与不同用途排列组合起来以及例图太多太多了，使用前可以参考官网文档，都有一一列举。

3.1 检索单一疾病相关基因

可以修改疾病代号，替换参数中的disease和vocabulary即可，这里以精神分裂症（D012559）为例
| disease | vocabulary |
| :---------:| :--: |
|D012559|——|
| 181500| OMIM |
| 295 | ICD9CM |
| C3362 | NCI |
|HP:0100753|HPO|

data4 <- disease2gene( disease  = "181500", vocabulary = "OMIM",
                          database = "CURATED",
                          score    = c(0.4,1 ) )
data4
# Object of class 'DataGeNET.DGN'
# . Search:      single 
# . Type:        disease-gene 
# . Database:     CURATED 
# . Score:        0.4-1 
# . Term:        181500 
# . Results:  227

3.2 多疾病联合

## 疾病列表
diseasesOfInterest <- c("C0036341", "C0002395", "C0030567","C0005586")

## 检索
data5 <- disease2gene(
  disease = diseasesOfInterest,
  database = "CURATED",
  score =c(0.5,1),
  verbose  = TRUE )

## 可视化
plot( data5,
      class = "Network",
      prop = 1,
      verbose = T)
# The network contains 154 nodes and 170 edges.

3.3 疾病富集

list_of_genes <- disease2gene(disease = "C0004352", database = "GENOMICS_ENGLAND")
list_of_genes <- list_of_genes@qresult$gene_symbol
res_enrich <-disease_enrichment( entities =list_of_genes, vocabulary = "HGNC",
                                 database = "CURATED" )
table1 <- res_enrich@qresult[1:10, c("Description", "FDR", "Ratio",  "BgRatio")]
head(table1)
# Description          FDR Ratio  BgRatio
# 5              Autistic Disorder 3.188823e-30 20/20 261/9703
# 143      Intellectual Disability 1.677768e-11 13/20 447/9703
# 91    Global developmental delay 2.796271e-07  7/20 133/9703
# 126 Neurodevelopmental Disorders 9.257204e-07  6/20  93/9703
# 124    Autism Spectrum Disorders 2.067698e-05  5/20  85/9703
# 64             Abnormal behavior 1.107414e-04  3/20  16/9703

4.总结

这个R包是DisGeNET配套的R包，比较适合新手，或者懒癌患者。和官网上下载的结果是一样的，不过会方便很多，基本上一行代码就能出表或者出结果了。缺点就是可调整的参数不多，因此可视化结果会重复。要进阶的小伙伴可以拿这个R包检索结果，自行整理data.frame自行可视化。

赶紧用起来吧～

R包：disgenet2r｜DisGeNET的懒癌福利，一行代码多种可视化

1.前言

2.获取R包

3.使用方法

3.1 检索单一疾病相关基因

3.2 多疾病联合

3.3 疾病富集

4.总结

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

R包：disgenet2r｜DisGeNET的懒癌福利，一行代码多种可视化

1.前言

2.获取R包

3.使用方法

3.1 检索单一疾病相关基因

3.2 多疾病联合

3.3 疾病富集

4.总结

热门文章

最新文章

相关电子书