Genome Biology | 药物基因组学数据库

简介: Genome Biology | 药物基因组学数据库

近日来自Genome Biology的一项研究中提出了一个综合数据库:My Personal Mutanome (MPM),用于加速精准癌症医学方案的开发。MPM提供了基于网络的诊断和药物基因组学方法,用来了解临床环境中复杂的基因型-表型关系和治疗反应,有望促进肿瘤发生的可操作突变的鉴定和人类相互作用组水平的个体化治疗。


image.png

image.png大量的基因组测序数据激发了个性化治疗的新挑战,并促进了肿瘤药物的发现。My Personal Mutanome (MPM)数据库包含了来自The Cancer Genome Atlas的33种癌症类型中超过10,800个肿瘤外显子组的490,245个突变,映射至94,563个结构分辨/预测的蛋白-蛋白相互作用界面(“网络边扰动”)和311,022个功能位点(“网络节点扰动”),包括配体蛋白结合位点和8种类型的蛋白质翻译后修饰。对于这些作图的相互作用,总共获得了8,844个存活结果和1,271,132个药物反应。


随着高通量测序不断发展,已经有数十万个外显子组和基因组发布。癌症基因组图谱(TCGA,https://www.cancer.gov/tcga)计划已对33种癌症类型中超过11,000名患者的基因组/外显子组进行了表征。癌症的体细胞突变目录(COSMIC)和cBioPortal等这些数据和网络资源极大地促进了癌症的研究和药物发现,但对于精准医学发展至关重要的变异体致病性仍没有更好解释。典型的计算方法也只能以临床决策所需的高置信度来识别一小部分致病变体。对因果和临床上可行的突变进行鉴定和优先排序对于了解其在肿瘤发生和疾病进展中的作用、发现新的生物标记并提供生物学相关的药物靶标方面至关重要。


论文小组的所有先前的观察和其他研究提供了人类癌症体细胞突变的节点和边缘效应的功能验证。这些结果激励作者开发一个系统生物学工具,用于查询人类相互作用体中的此类节点突变和边缘突变,这将有助于识别用于精确癌症药物的新的功能突变/基因、药物靶点和药物基因组学生物标志物。


image.png

image.png

图1数据库的总体设计


论文研究小组收集并处理了包括21,759种蛋白质,490,245个体细胞突变和544,692个突变病例的121,172个PPI,在1074个癌细胞系中测试的251种药物的药物反应,41,843种 PDB和535,182个蛋白质功能位点,用于蛋白质-配体结合并跨越7种类型的蛋白质翻译后修饰(PTMs):乙酰化,丙二酸化,甲基化,邻位糖基化,磷酸化,琥珀酰化,泛素化。


以上所有的数据及其结果都已经集成到了关系数据库MPM中。此外,作者的网站利用的几个主要实体(如药物、蛋白质)和各实体之间的关系如下图所示,用户可依据此体系结构找到需要搜索的信息。


image.png

image.png

图2.数据库的信息体系结构


作者表示,将继续把人类相互作用组更新到数据库中,特别是包括更无偏的系统PPIs数据。此外,将为功能站点提供选择较小窗口的功能。MPM的未来更新将侧重于提供更完整、更高质量的人类相互作用体(包括蛋白质-DNA/RNA相互作用)、功能位点和来自CPTAC的蛋白质基因组学数据。作者将整合更多的人类基因组测序数据,包括跨组学精准医疗(TOPMed)计划,阿尔茨海默症测序项目(ADSP),以及国际癌症基因组联盟(ICGC),通过添加更加个性化的基因组分析来改善MPM的实用性。MPM将每年更新一次。



目录
相关文章
|
6月前
|
编解码 人工智能 数据库
世界土壤数据库(HWSD)土壤数据集
世界土壤数据库(HWSD)土壤数据集
397 0
|
6月前
|
存储 机器学习/深度学习 人工智能
向量数据库 | AI时代的航道灯塔
【1月更文挑战第8天】向量数据库 | AI时代的航道灯塔
|
6月前
|
存储 缓存 算法
ICDE2024 |VDTuner:向量数据库自动调优技术
在CodeFuse接入实际业务的过程中,大模型的推理成本以及生成内容的准确性是产品规模落地的两个核心考量因素。为了降低推理成本,我们研发了CodeFuse-ModelCache语义缓存加速功能,通过引入Cache机制,缓存已经计算的结果,当接收到类似请求后直接提取缓存结果返回给用户。另一方面,为了提升代码生成的准确度,我们引入了few shot机制,在输入大模型之前拼接一些类似的代码片段,帮助大模型更好的理解希望生成的目标代码。上述两个核心功能的实现都依赖于向量数据库(Vector Data Management Systems, VDMS)存储并检索相似的请求或者代码片段。
168 1
|
数据库
snpEff构建物种数据库及完成vcf变异文件注释
snpEff构建物种数据库及完成vcf变异文件注释
|
算法 关系型数据库 数据库
数据库优化器原理 - 如何治疗选择综合症
标签 PostgreSQL , 单列索引 , 复合索引 , 优化器 , 成本因子 背景 RBO -> CBO -> 动态优化 经常听到这样的声音:“查询慢?加个索引吧。”,虽然话不专业,但是体现了早期基于RBO(基于规则)的优化器思维。
5402 0
|
数据可视化 OLAP 测试技术
学术加油站|面向HTAP数据库的基准评测工具研究进展
随着在线实时分析需求的增长,HTAP(Hybrid Transaction and Analitical Process)数据库随之出现,其能在同一个系统内实现 OLTP 负载和 OLAP 负载的高效处理,提供了对新鲜数据的分析能力。近年来,工业界和学术界提出了多种 HTAP 数据库架构,因此如何评测各种新型的 HTAP 数据库引起了学界和业界的广泛关注。
319 0
学术加油站|面向HTAP数据库的基准评测工具研究进展
|
自然语言处理 Go 数据库
Q&A | 如何使用clusterProfiler对MSigDB数据库进行富集分析
Q&A | 如何使用clusterProfiler对MSigDB数据库进行富集分析
1056 0
Q&A | 如何使用clusterProfiler对MSigDB数据库进行富集分析
|
关系型数据库 MySQL 数据库
LeetCode(数据库)- 患某种疾病的患者
LeetCode(数据库)- 患某种疾病的患者
121 0
LeetCode(数据库)- 患某种疾病的患者
|
算法 数据处理 数据库
TCGA数据库的利用(三)—做差异分析的三种方法
今天更新TCGA数据库的利用系列第三篇文章,在对TCGA数据进行挖掘时,通常会筛选出来一些表达量显著异常的基因,作为后续研究的对象,这个筛选过程叫做差异分析;本篇文章将分为三大模块对差异分析进行介绍
|
数据采集 JSON 数据库
TCGA数据库的利用(一)—— 数据下载
还有1个多月就要毕业了,而在此之前需要顺利完成自己的毕设,因为对纯生物方向一点也不感兴趣,所以课题方向选的是生信—TCGA数据的利用,虽说本科专业与生物相关,但在整个大学期间基本就是在不挂科的情况下尽可能地与生物对着干,所以大学四年过后么,就有一种虽学生物、但毫不懂生物的状态。为了能够顺利拿到毕业证,经过这段时间的“刻苦钻研”也算是多少对于这方面有点了解,因此特地写个系列来巩固一下这方面知识的掌握。 对于数据的利用的第一步就是获取数据,对于数据的下载与利用,在这里我下载TCGA数据的主要方法就是通过官网的下载工具gdc-client进行下载的;