基因的表达是一个非常重要的过程,转录组测序是检测基因表达的技术,本篇文献对转录组分析流程和数据分析方法进行介绍。
引言速览
- 基因表达特征:时空特异性、空间特异性
- 转录层面研究基因表达的技术:PCR、基因芯片、转录组测序(RNA-seq)、Nanostring等
- 高通量技术:检测样品中的大量基因表达情况
- 关键词:转录组、生信、数据发掘
大规模转录组数据
常规转录组测序
转录组是一个细胞或者样本中全部的基因表达转录本信息,研究转录组是解析基因组中功能元件和生命活动的发生及调控机制的必要基础。
- 普通转录组
多细胞混池的mRNA测序,便宜应用广泛。通常用于分析基因表达、表达差异、可变剪切体、融合基因、检测SNP、RNA编辑变化。
- 小RNA测序
小RNA是指序列比较短的非编 码RNA(noncoding RNA)。用于研究miRNA和piRNA,前者被证明对蛋白质的表达调控有影响。
- 全转录组
研究发现一些非编码RNA有调控功能,因此对细胞内除rRNA外其他所有RNA测序的技术逐渐发展,包括mRNA、IncRNA、环形RNA(cir-cular RNA, circRNA)和小RNA进行测序的技术。
- 全长转录组
三代测序技术能够检测完整的全长RNA序列,如Pacbio等技术,可用于新转录本发现。
数据库
- NCBI GEO和SRA. GEO
简介:储存表达芯片和转录组测序数据(RNA和DNA)
用途:分析多组样本间差异表达基因。
- EBI ArrayExpress
欧洲生物信息研究所(The European Bioinformatics Institute, EBI)用于存储高通量功能基因组实验数据的数据库,主要包括基因表达芯片和转录组测序数据,该数据库也提供工具方便用户上传和下载数据,以及分析芯片数据。
- GSA
国家基因组科学数据中心(NGDC),其主要数据库为GSA(Genome Sequence Archive),用于存储各种高通量测序数据的原始数据,包括DNA-seq和RNA-seq数据.
转录组常规分析
分析流程
- 计算差异表达量
- 差异表达分析(NOIseqW和DEseq)
- 差异表达基因的功能富集分析(Fishier、DAVID(https://david.ncifcrf.gov)、Metascape(http://metas-cape.org/gp/index.html)和PANTHER(http://pantherdb.org/) ,以及clusteprofiler这款R软件包)
根据不同转录组测序的方法,可以分析RNA可变剪切、全长转录本和IncRNA,circRNA,miRNA等非编码RNA,及其竞争性内源RNA(ceRNA)调控关系.
1.Tophat2或STAR比对+Cufflinks系列软件
2.HISAT, StringTie和Ballgown流程
3.免比对(alignment fiee)流程Salmon, Sailfish和Kallis
基因特异表达分析
不同的组织和样本中有特异的表达谱,可以用于检测标志物。工具软件:SEGtool
基因表达的调控分析
基因表达受到DNA甲基化、组蛋白修饰、增强子、染色质开放性和转录因子 (TF)的调控,PlantTFDB是重要的植物转录因子库。
miRNA转录后调控基因表达也非常普遍,转录因子和miRNA分别在转录和转录后进行调控,形成前馈环实现精细调节。
差异共调控分析
差异共调控网络能比较突变和正常之间的调控差异,目前常用的方法和工具是WGCNA,DCGL, DifTCorr和DysRegSig。
- WGCNA
加权基因共表达网络分析,目的是寻找共表达基因模块、基因和表型之间的关系、寻找核心基因。
- DCGL和DiffCorr
芯片表达数据检测差异共表达的R包
- DysRegSig
机器学习方法分析基因失调的框架,从高纬度中发掘信息。
时间序列基因表达分析
基因表达是动态过程,对不同时间点的样品进行转录组测序,然后进行转录组分析,研究表达趋势和规律。
常用软件:STEM、TRAP
细胞组分和丰度分析
普通转录组是混池样本,包含多种细胞类型,不同细胞有不同的功能和基因表达规律,因此,分析组分和丰度至关重要。
常用软件或方法:xCell, CIBERSORTx, Immu-CellAI, TIMER和seq-ImmuCC
转录组新技术
单细胞测序
检测单个细胞中的基因表达,以获得不同细胞的基因表达特征的测序方法。单细胞转录组测序能准确分析每个细胞的基因表达、区分不同细胞群体、发现新的细胞类型等。
常见的单细胞测序方式有Smart- Seq2, 10x Genomics和microwell-seq
单细胞转录组数据分析:
质控、测序片段比对、条形码矩阵生成、数据归一化、降维和聚类、可视化、差异表达、细胞类型鉴定和细胞轨迹推断。
常见方法有Seurat, Scanpy和Cell Ranger
空间转录组
具有不同组织器官的多细胞生物是立体的复杂生命体,其基因表达具有时间特异性和空间特异性。
空间转录组中最难的点是不同空间样本的获取和重定位,一般是结合组织冷冻切片、显微解剖、荧光原位杂交和不同探针条形码等技术来获取和定位样本。
Spa-tialCPie是一个分析空间转录组聚类的R软件包。
SPARK是一个新的统计方法,用于从不同空间转录组数据中发现基因的空间表达模式。
ST Viewer是一个交互式分析和可视化空间转录组数据的工具。
总结
基因表达研究基础而重要,转录组测序作为最常见的高通量表达技术,其数据分析和挖掘也逐渐成熟、深入和延展。分析的方法比较多,目前还在不断完善,还需通过学习进行深入讨论。
文献:基因转录表达数据的生物信息挖掘研究-郭安源-华中科技大学生命科学与技术学院,人工智能生物学中心