文献丨转录组RNA seq——青年阶段!(上)

简介: 文献丨转录组RNA seq——青年阶段!

RNA测序(RNA-seq)已经成为分析基因差异表达和mRNAs差异剪接不可或缺的工具。随着下一代测序技术的发展,RNA-seq也在发展。

目前,RNA-seq方法可用于研究RNA生物学的许多不同方面,包括单细胞基因表达、翻译和RNA结构。随着直接RNA-seq技术和更好的数据分析工具的出现,RNA-seq的发展有助于更全面地理解生物科学,本文分享一篇2019年发表在Nature的RNA-sequencing综述。

DGE:基因差异表达

流程

RNA提取→mRNA富集或rRNA耗尽→cDNA合成→适配器连接→测序文制备→ 高通量平台(通常是Illumina)上进行测序,每个样本的读深度为1000万-3000万。

将测序读数对齐组合到一个反义读数→量化与转录本重叠的读数→样本之间的过滤和归一化→构建样本组之间单个基因或转录本表达水平的显著变化的统计模型。早期的RNA-SEQ实验从大量组织中产生了DGE数据,并证明了它在广泛的生物和系统中的应用。

RNA-SEQ经常被用作不同的生物学应用,DGE分析(差异表达分析)仍然是RNA-SEQ的主要应用。

本文中,首先介绍了DGE的“基本准则”短读RNA-SEQ分析,然后将标准短读方法与新兴的长读RNA-SEQ和dRNA-SEQ技术进行比较。描述了短读排序建库的发展、实验设计和工作流。还有单细胞测序和空间分辨转录组分析。以及转录和翻译动力学、RNA结构、RNA-RNA和RNA-蛋白质相互作用的分析。最后,讨论了RNA-SEQ未来可能的发展前景,单细胞测序和空间RNA-SEQ方法是否会像DGE分析一样成为常规?RNA-SEQ分析的长读可能在什么领域取代短读?

短读测序技术

目前短读测序技术已经成为常用的转录组检测方法,主要的核心步骤:RNA提取→cDNA合成→接头连接→PCR扩增→测序分析。由于片段化产生的cDNA长度通常小于200bp。例如illumina技术

长度测序技术

能够对单个RNA分子进行测序,减少序列测定中的歧义性,降低假阳性率。例如pacbio技术

长读直接测序技术

dRNA-seq,直接用RNA进行测序,消除逆转录过程的偏差,产生超过100bp的读取长度。

优点:改进了异构体检测性能、可用于估计polyA尾长。

比较长读和短读技术

  • 长读:缺点是通量低、错误率高。优点是能够读取单个转录本。
  • 短读:优点是通量高,测序规模大,差异基因表达敏感性强。

长读测序的一个重要的问题——错误率比较高,如果每个样品被单独多次测序,再通过计算处理成一致序列,那么分子测序的次数的越多,错误程度越低。长度测序的灵敏度受到三个因素影响:长RNA分子以全长转录组形式存在,即使低水平的RNA降解也会限制测序;文库制备技术限制,常用的逆转录酶无法满足实验需求;测序平台发展限制。

改进构建文库方法

RNA-seq最初用于分析聚腺苷酸转录本,方法源自于表达序列标签和微阵列研究。然而这些技术具有一定局限性。

  • cDNA合成前对RNA进行片段化处理,提升丰度估计的准确性。
  • 链特异性文库,测序时利用oligo-dT富集、UMIs特异性标注,利于实验分析。

富集poly(A)尾巴

多数转录组测序结果都是从oligo-dT富集mRNA中获得,它含有多聚poly A的尾巴,测序的重点在转录组的蛋白质编码区。

许多非编码RNA(比如miRNA和enhancer RNA)不是多聚核苷酸,因此无法用该法研究。我们可以选择用oligo-dT法或者rRNA降解法(WTA),前者不能获取短的非编码RNA,后者需要特定的miRNA.

WTA通过编码和一些非编码RNAs产生RNA-seq数据,它与降解样品相容,导致poly A和转录本分离,rRNA的去除通过RNase H酶特异性实现。oligo-dT和rRNA降解法(WTA)都可以用于DGE研究,后者可以检测到更多转录本,但是贵!

富集3'端用于标记和选择

短读测序需要每个样本1000万-3000万的读数才能进行高质量的DGE分析,对于资源有限的朋友来说,可以考虑用3'-tag计数,降低成本同时得到更多数据。

每个转录本从3'端开始生成一个片段,标签的丰度与RNA浓度呈正比,这称为标签测序协议。

富集转录起始位点5'末端

TSS:转录起始位点

该法利用生物素化模板转换寡聚核苷酸产生cDNA,然后在5'端附近片段化,产生短cDNA标签。如果只用该法会产生大量假阳性TSS峰,建议使用正交法进行验证确认。

应用分子标识符检测PCR重复

RNA-seq数据通常具有很高的重复率,许多读数映射到转录组的同一位置。

在全基因组测序中,重复读数代表PCR失误而被删除。而转录组测序中,重复代表真实的生物信号被保留。后者需注意只有一对片段的一段必须相同,才能确定其为重复序列。

UMIs:独特分子识别符,在文库制备过程中添加的短序列,其直接与RNA连接。

UMIs改善数据分析的错误率,放大偏差,消除可能导致等位基因频率计算错误的人工扩增制品,其正成为单细胞测序文库制备的标准工具之一。

改进降解RNA分析方法

文库制备的发展改善了对低质量或降解RNA的分析,以往的低质量RNA会导致基因覆盖不均匀、DGE假阳性高、重复率高。转录组文库构建可以用来降低RNA降解的影响。

设计更好的转录组实验

实验的设计对结论和数据至关重要,需要考虑复制次数、测序读取深度、单末端或者双末端读取的选择。

确定复制次数

足够多的生物复制能够获得更加精确的信息,解读生物变异性,任何高通量RNA实验都必须以复制的方式进行,在确定最佳复制次数时应该考虑到:效应大小、组内变异、预期假阳性率、最大样本量等。

确定正确的复制次数并不容易,对于高度多样化的样本,需要更多的复制,以确定变化规律。

确定读取深度

建库完成后,需要决定进行多深的测序?读取深度指每个样本获得的序列读取目标数目。真核生物DGE实验每个样本大约需要1000万-3000万左右。每个样本的读数能提供转录本丰度估计值,如果有足够的复制次数,那么较少的测序即可解决实验问题。

选择合适的参数

  • 读取长度越长,测序DNA覆盖程度越高。对于定量分析如DGE时,长读没有太大作用。但对定性分析如异构体,则可能有帮助。
  • 单末端读取和双末端读取也相类似,前者每个cDNA片段只产生一个序列,后者产生俩。若需要更多核苷酸覆盖度分析,长读和双末端测序是首选!DGE分析只需要计算读数映射,单末端测序即可确定大部分基因的源头,另外,双末端测序可以帮助解决映射歧义问题。

RNA-seq数据分析流程

↓ ↓ ↓转录组差异表达分析常用软件工具

分析序列读数的方法非常多,不同的工具和方法对结果产生不同影响,使用最佳的工具能帮助我们解决更多问题。DGE差异表达分析常用四个步骤,分别是:对齐、组装、量化、归一化、构建模型。

第一步:序列对齐与组装

测序产生fastq格式原始文件,首先将序列映射到已知的转录组或者基因组,这个过程使用TopHat,STAR,HISAT等工具完成。测序的cDNA来自RNA,因此可能跨过外显子边界,执行剪切对比时,允许读数间隙。

如果没有高质量基因组注释可用或者希望映射到转录本时,可以使用StringTie,SOAPdenovo-Trans工具。

  • 流程A:hisat→htseq→TMM→edgeR
  • 流程B:Kallisto→TXI→TMM→DESeq2
  • 流程C:tophat→cufflinks→cuffdiff2
    tips:如果基因组注释缺失或者不完整时,选择从头组装的工具。
    新软件:Sailfish118, Kallisto119,Salmon【计算效率高、免费、直接映射不需要单独量化步骤、适用于较长的转录本、在低丰度转录本方面不准确】

第二步:转录本丰度量化

一旦序列读数被映射到转录组或基因组的位置上,即可将其分配到基因组或转录本确定丰度。量化采用的方法会对结果产生重大影响,利用转录组注释信息与已知的基因重叠信息进行计数,得出单个基因所有转录本异构体的丰度信息。

短读序列不会跨过剪接链接,因此不能分配明确的异构体,不同基因长度的异构体之间差异表达可能导致更准确的结果。

常用的工具:e RSEM,CuffLinks,MMSeq,HTSeq同源和重叠的转录本可能从分析中排除。

表达矩阵:Express Matrix

每一行是表达特征(基因或者转录本) 每一列是一个样本 值是实际读数或者估计丰度

第三步:过滤和归一化

通常,量化之后的读数也需要进行过滤和归一化,用来说明读取深度、表达模式、技术偏差之间的差异。

  • 过滤:去除低丰度重复、改善检测结果
  • 归一化:规范表达矩阵,转化丰度量,校正细微差异

尖峰控制:在处理前添加已知浓度的外源核酸序列,它们能够以不同浓度分布,用于检测反应效率和误差假阳性校正。

归一化的两个关键假设:

  1. 多数基因表达水平在复制组间保持稳定
  2. 不同样本在总mRNA水平没有显著差异

若以上两个假设不成立,则需要借助TMM均值修剪法,包括edgeR差异表达分析来弥补。选择合适的归一化方法:尝试运用多种方式进行分析,对比结果的一致性,若差异较大,应进一步探索,找出差异来源。

另外一种解决方式是尖峰控制RNAs:在文库制备过程中,预先引入合适的外来RNA序列,尖峰插入RNA变异体,由于尖峰的浓度已知,读数和浓度呈正相关,因此可以用于校准样本的表达水平。

但是,实际过程中,在预定水平一致的插入尖峰很困难,在基因层面的读数比转录层面更可靠,因为异构体可以在样本中以不同的浓度表达。目前,尖峰控制并没有广泛使用,少量应用于单细胞测序领域。

第四步:差异表达建模

当序列被处理成表达矩阵后,实验即可被建模,从而确定哪些复制信息可能影响到表达水平。一些模型读取基因水平表达的计数,另一些模型依赖于转录水平的估计。前者以利于对齐的计数,并使用广义线性模型来进行评估。

工具:edgeR, DESeq2 and limma+voom 建模差异亚型表达量的工具:CuffDiff,MMSEQ,Ballgown。需要更多的计算量,结果也有较大变化。但是实际上前期的对齐、过滤、归一化等步骤对结果的影响更大!

相关文章
|
2月前
|
算法 数据挖掘 Go
文献速读|5分生信+免疫组化单细胞联合bulk转录组肿瘤预后模型
研究摘要: 在《Cancer Immunology Immunotherapy》上发表的一篇文章,通过整合Bulk和单细胞RNA-seq数据,探讨了非小细胞肺癌(NSCLC)中癌相关纤维细胞(CAF)的作用。研究者识别出CAF的预后标志物,构建了一个基于CAF的模型,该模型在四个独立队列中区分了预后良好的和较差的患者。WGCNA分析鉴定出CAF标记基因,而CAF分数与免疫微环境和免疫治疗反应相关。高CAF分数关联较差的免疫治疗反应,FBLIM1被发现为CAF的主要来源,其高表达预测了免疫疗法的不良反应。该研究揭示了CAF在NSCLC免疫抑制和治疗策略中的重要地位。
81 1
|
数据挖掘
Seurat 4.0 | 单细胞转录组数据整合(scRNA-seq integration)
Seurat 4.0 | 单细胞转录组数据整合(scRNA-seq integration)
1450 0
Seurat 4.0 | 单细胞转录组数据整合(scRNA-seq integration)
|
2月前
|
搜索推荐 数据挖掘 Java
文献速读|7分的干湿结合胃癌单细胞联合bulk转录组+线粒体自噬
研究人员通过单细胞和bulk RNA测序,鉴定出18个线粒体自噬相关基因(MRGs),在胃癌中的预后作用。这些基因可能成为新的生物标志物和治疗靶点。分析显示GABARAPL2和CDC37在上皮细胞中高度表达,与免疫浸润和预后相关。构建的风险模型在多个独立队列中验证有效,表明MRGs可改善预后预测,并提示免疫治疗潜力。研究强调了单细胞分析在理解疾病复杂性和指导个性化治疗中的价值。
27 3
|
29天前
|
机器学习/深度学习 弹性计算 数据可视化
玩ST、肿瘤研究的来学习一下!16分Nature子刊的单细胞空间转录组+机器学习
Nature Communications 发表了一项关于空间转录组和机器学习在肿瘤研究中的应用。研究聚焦于HPV阴性口腔鳞状细胞癌,通过整合单细胞和空间转录组分析,揭示了肿瘤核心(TC)和前沿边缘(LE)的独特转录特征。TC和LE的基因表达模式与多种癌症的预后相关,其中LE基因标志关联不良预后,而TC则与较好预后相关。利用机器学习,研究人员建立了预测模型,识别出跨癌症类型的保守TC和LE特征。此外,他们还分析了RNA剪接动态,发现了潜在的治疗脆弱性。这项工作为肿瘤生物学和靶向治疗提供了新见解,并为药物开发提供了依据。
26 0
|
4月前
|
机器学习/深度学习 人工智能
【论文速递】PeRConAI2022 - 使用教师助理的多阶段模型压缩和基于提示的训练的蒸馏
【论文速递】PeRConAI2022 - 使用教师助理的多阶段模型压缩和基于提示的训练的蒸馏
|
9月前
|
编解码 芯片
文献丨转录组RNA seq——青年阶段!(下)
文献丨转录组RNA seq——青年阶段!(下)
|
9月前
|
存储 数据可视化 数据挖掘
文献丨转录组表达数据的生信挖掘研究
文献丨转录组表达数据的生信挖掘研究
|
9月前
|
数据挖掘 Go
文献丨群体转录组分析锁定关键转录因子
文献丨群体转录组分析锁定关键转录因子
|
9月前
|
数据可视化 数据挖掘 Go
RNA-seq丨转录组分析标准流程与常用工具
RNA-seq丨转录组分析标准流程与常用工具
|
9月前
|
算法 数据挖掘 Windows
靶向RNA-seq全面解决方案和加速分析,只看这篇就够了!
靶向RNA-seq全面解决方案和加速分析,只看这篇就够了!
64 0