Genome Biology | 基于RNA-seq的孟德尔疾病变异分析

简介: Genome Biology | 基于RNA-seq的孟德尔疾病变异分析

今天给大家介绍的是沙特阿卜杜拉国王科技大学(KAUST)高欣教授课题组(http://sfb.kaust.edu.sa)发表在Genome Biology的一篇文章,“Analysis of transcript-deleterious variants in Mendelian disorders: implications for RNA-based diagnostic“。在全外显子组测序(Whole-exome sequencing, WES) 后,至少有50%的疑似孟德尔疾病患者仍未确诊,而未被WES捕获的非编码变体在多大程度上导致了这个比例还不清楚。全转录组测序(RNA-seq)是一种很有前途的WES的补充,但关于RNA分析对孟德尔疾病诊断的大规模贡献的经验数据很少。在这个研究中,作者对疑似孟德尔疾病的5647个家族进行了研究,描述了关于“转录有害变异(transcript-deleterious variants,TDVs)”的经验,为即将实施的RNA-seq结合基因组测序的临床诊断提供了非常需要的经验数据。

image.png

图1 整个研究的流程图及其不同的组成部分


1


研究背景


新一代测序技术(next-generation sequencing,NGS)的出现使基因组测序成为可能,改变了孟德尔疾病诊断领域的格局。WES是最流行的NGS诊断应用,在孟德尔疾病谱系中诊断率达到了25-52%。全基因组测序(whole-genome sequencing,WGS)相对于WES提供的诊断效率的微小提升表明,瓶颈不在于测序阶段的因果变异的捕获/调用,而在于它们的解释。一些研究也表明了谨慎地重新解释“negative”WES的价值,以及对WES中因果变量的误读是一个WGS无法回避的重大挑战。因此,人们对于探索转录组学以改善变异体解释的兴趣越来越大。事实上,已发表的研究数据表明,对于不容易通过计算机模拟预测的隐性剪接变化,“negative”WES病例有所增加。


编码基因组变异通过对蛋白质的影响来调节表型,而非编码变异(NCV)通过RNA直接(转录水平)或间接(染色质水平)介导其影响。在孟德尔疾病的背景下,关于影响剪接的变异对整个突变池的贡献的估计差异很大。两个主要的挑战阻碍了对这类重要的致病突变的精确估计:1)许多被认为在蛋白水平上发挥致病性的“编码”变异体实际上是剪接变异体,其对剪接的影响从未得到经验上的确定。2)是文献中明确的报告偏差。影响一致剪接编码的变异更有可能被测试和报告,而对孟德尔疾病有明显贡献的深层内含子、UTR和启动子/增强子变异不太可能被传统的Sanger或WES发现,即使被WGS捕获,也很难用计算机工具解释。


转录组学在描述孟德尔表型方面具有很好的作用,孟德尔表型是由在转录水平有害的变异引起的。从现有的一些研究中也可以清楚地看到,这项技术面临着独特的计算挑战,尽管已经开发出了一些计算工具,但越来越需要对转录有害变体的性质有更深入的了解,以便提供更好的工具。在这项研究中,作者提供了基于5647个可疑孟德尔表型家族的综合定位图谱,详细概述了转录水平的有害变异及其对人类孟德尔表型的贡献。然后,通过探索基于RNA的方法在临床WES阴性结果患者中的作用来探讨该知识的转化潜力。


2


方法


2.1 受试者


该研究中描述的受试者代表根据独立的IRB批准的研究方案招募的。在每个研究方案中,作者招募的受试者至少是具有下列特征之一的个体: a)与孟德尔疾病遗传相一致的阳性家族史, b)表型表现与先前发表的孟德尔疾病一致。所有受试者在入组前均获得知情同意,收集所有受试者的表型数据。在EDTA管中收集血液进行DNA提取,在肝素钠管中收集血液建立淋巴母细胞样细胞系(LCL)。有时在PAXGene试管中收集的血液是唯一的RNA来源。在一组病例中,培养的皮肤源性成纤维细胞和尿源性肾上皮细胞也作为RNA的额外来源。


2.2位置映射、WES和变异识别


使用WES将位置映射和变量识别结合起来的方法已经在其他地方描述过。简而言之,所有样本在Axiom SNP平台上进行基因分型,只要表型和家族史与常染色体隐性遗传相容,就确定纯合性(ROH)区域,指导寻找可能的因果变异。如前所述进行WES,通过常染色体坐标对产生的变异体进行筛选。使用gnomAD和本地人口数据库(2379个外显子)对等位基因频率<0.001的变异进行筛选,并按照ACMG指南进行解释,以确定可能的因果变异。尽管蛋白截断变异体可能通过NMD在最终转录水平发挥致病作用,但作者选择排除它们,因为很难把它们对蛋白质的影响与对RNA的影响区分开来。如果变异在频率和分离方面与致病性潜能兼容,并且涉及以下六种类型之一,则这些变异被强调为候选转录有害变异(TDVs):这六种类型分别是:a、标准剪接供体或受体位点;b、外显子的第一个或最后一个bp;c、非标准剪接位点内含子变异;d、编码第一个或最后一个bp之外的外显子变体;e、UTR (5’和 3’)和f、启动子/增强子元素。c、d、e和f类的变异只在没有发现其他候选变异的情况下才予以考虑。


2.3 RTPCR


利用cDNA特异性引物和来自血液(LCL或PAXgene)、皮肤(成纤维细胞)和/或尿液(肾上皮细胞)的RNA,利用RTPCR检测在转录水平被怀疑为有害的变异。当变异的纯合子指标不可用时,作者尝试对纯合子亲本进行测试。RTPCR以标准数量的35个循环和2000ng的RNA为模板。如果该标准方案导致凝胶上出现可见条带,则认为该基因表达。如果需要额外的周期或更高数量的RNA,则认为该基因表达不良,否则,该基因被标记为未表达。直接用Sanger测序对产物进行分析,如果存在多产物的证据,克隆后进行Sanger测序。在未发现异常剪接的病例中,作者尝试使用q-RTPCR对转录本进行定量。


2.4 RNA-Seq和计算分析


受试者RNA样本在KFSHRC(费萨尔国王专科医院及科研中心)制备,送至KAUST核心实验室进行RNA测序。利用Agilent 2100生物分析仪,根据RNA完整性数(RIN)确定每个RNA样品的质量。那些得分为RIN<6.0的样本没有进一步考虑。测序文库采用Illumina TruSeq Stranded mRNA。在Illumina NovaSeq6000上产生了150bp的配对读数。从基因型和表现型数据库(dbGaP)下载GTEx RNA-Seq血液和皮肤组织类型样本,使用SRA工具包转换成fastq格式。RIN<8.0的样本不包括在作者的GTEx控制中。患者和GTEx的RNA-Seq读数也使用STAR 2.6[26][25]和two-pass选项与hg38进行比对。只考虑1-22号染色体和X染色体上的读序列。将SAMtools和BEDTools应用于BAM文件,以量化带注释和未带注释的拼接连接的出现,并计算映射到内部区域的非分割读。Splicing junctions with < 5 read supports被过滤掉。为了量化转录本的丰度水平,还使用Kallisto将RNA-Seq reads映射到hg38的参考转录本序列。使用生成的BAM文件和转录本丰度水平,作者们在另一个预印本工作中提出了Omega算法来定量估计无错误的正常转录本丰度水平[1]。具体的计算公式如下:

image.png

较低的值可以表明低丰度离群值或逃脱无义界导的mRNA降解机制的异常剪切。


从GTEx数据中,分别选择了Cells-EBV转化的淋巴细胞和Cells-Cultured的成纤维细胞组织类型的RNA-Seq数据集作为分别来自血液和皮肤组织类型的病例的对照。确保对每个病人使用一组适当的对照样本,作者测量了GTEx数据集中所有血液和皮肤组织类型的每个编码基因值的中位数,并确认所选择的组织类型与患者数据的相关性最高。


基于对应对照中值的第二百分位数,测量和两个分值,分析每个患者g基因的转录畸变的严重程度。和两个分值计算公式如下:

image.png

每个编码基因g被选为每个病人i的候选病因,需要这些分数同时满足下列条件:

image.png

3


结果


在这个工作中作者主要得到了以下的结果:


1)量化有害转录变异的贡献(图2)。


2)探讨RNA作为工具来解决“Negative” WES病例(图3)。


3)描述了孟德尔疾病中有转录有害变异的景观(图4)。


4)分析了计算机预测的作用;


5)寻找组织特异性异常转录本。

image.png

图2 TDVs对隐性孟德尔突变贡献的无偏估计

image.png

图3 对阴性临床WES进行重新分析的结果

image.png

图4 6类TDVs分类的总结


4


讨论


长期以来,RNA一直被怀疑会改变最终转录本变异的影响。技术的进步使得RNA样本中所有转录本的无偏测序(RNA-seq)最近才成为可能。因此,将RNA-Seq作为基因组测序的辅助测试来诊断孟德尔疾病和其他适应症也成了新的方向。因为目前RNA-Seq应用中获益最多的领域是孟德尔疾病,本研究的目标也是在这个背景下研究变异体。与相对同质的DNA不同,RNA在时间和空间上都是高度异构的。此外,即使在一个给定的细胞中,不同转录本的丰度也有明显的差异。最后,致病性变异对RNA的影响远比描述DNA变异的简单存在或不存在微妙得多。这些因素使得RNA-Seq在临床诊断中的应用具有挑战性。本研究试图对基于RNA的孟德尔疾病诊断的做出贡献。在这个研究中作者通过对大量孟德尔家族相关数据的分析得出几个结论:


1)作者估计TDVs至少占整个孟德尔突变库的15%,作者基于单基因座家庭的无偏估计表明贡献更高,有18.9%。


2)作者发现了对照组中检测到数据库中未描述的异常转录本,这概括了以往研究在解释RNA-Seq时从噪声中识别信号所面临的挑战。


3)尽管在开发利用计算机的预测工具上投入了大量的资金,但这些工具仍然远远不够完美。该研究的数据清楚地表明,至少有25%的转录有害变异会被测试过的工具遗漏。这表明这些工具不能取代RNA-Seq,后者很可能成为WES/WGS阴性病例的标准临床测试。


4)作者的数据似乎也减轻了人们对获取相关组织的担忧,因为接受了测试基因的人只有不到3%在作者研究中可获得的三种RNA来源中完全不表达。


5)作者展示了几个例子的异常剪接没有导致的显型以及正常剪接显型明确的疾病基因。


6)虽然作者的研究并没有专门针对剪接与其他类型的变异进行比较,但作者认为研究中所遇到的纯合子与复合杂合子调控变异表型表达的例子是值得注意的。


综上所述,该研究报告了最多的孟德尔表型受试者队列,并对其潜在的TDVs进行了综合分析。从这个队列中获得的经验教训扩展了这类变异的知识,并为RNA-Seq作为一种有前途的基因组测序辅助工具的临床应用提供了急需的经验数据。


目录
相关文章
|
数据挖掘
Seurat 4.0 | 单细胞转录组数据整合(scRNA-seq integration)
Seurat 4.0 | 单细胞转录组数据整合(scRNA-seq integration)
1769 0
Seurat 4.0 | 单细胞转录组数据整合(scRNA-seq integration)
|
11天前
|
前端开发 数据挖掘 测试技术
R中单细胞RNA-seq分析教程 (6)
R中单细胞RNA-seq分析教程 (6)
38 12
R中单细胞RNA-seq分析教程 (6)
|
16天前
|
数据挖掘
R中单细胞RNA-seq分析教程 (5)
R中单细胞RNA-seq分析教程 (5)
45 13
R中单细胞RNA-seq分析教程 (5)
|
19天前
|
SQL 机器学习/深度学习 编解码
R中单细胞RNA-seq分析教程 (4)
R中单细胞RNA-seq分析教程 (4)
35 6
R中单细胞RNA-seq分析教程 (4)
|
5月前
|
数据处理 索引
联合 RNA 和 ATAC 分析:SNARE-seq
联合 RNA 和 ATAC 分析:SNARE-seq
53 0
联合 RNA 和 ATAC 分析:SNARE-seq
|
6月前
|
数据可视化 Java 数据处理
单细胞|RNA-seq & ATAC-seq 联合分析
单细胞|RNA-seq & ATAC-seq 联合分析
77 3
|
7月前
|
数据可视化 数据挖掘 Serverless
单细胞分析(Signac): PBMC scATAC-seq 聚类
单细胞分析(Signac): PBMC scATAC-seq 聚类
68 0
|
7月前
|
机器学习/深度学习 SQL 数据可视化
单细胞分析(Signac): PBMC scATAC-seq 整合
单细胞分析(Signac): PBMC scATAC-seq 整合
85 0
|
7月前
|
存储 编解码 数据可视化
单细胞分析|整合 scRNA-seq 和 scATAC-seq 数据
单细胞分析|整合 scRNA-seq 和 scATAC-seq 数据
107 0
|
7月前
|
SQL 数据可视化 算法
单细胞Seurat - 降维与细胞标记(4)
单细胞Seurat - 降维与细胞标记(4)
105 2