转录组测序类型
1. 根据RNA种类
可以分为mRNA测序,SmallRNA测序,LncRNA测序、CircRNA测序、全转录组测序等
2. 根据物种特点
比如真核生物或者原核生物,是否有参考基因组,测序平台的不同,分为真核有参和无参转录组测序,原核转录组测序,全长转录组测序等
3. 根据相互关系
分为互作转录组,比较转录组等等;
此外,基因组甲基化会影响到基因的转录调控,也属于转录调控测序范畴;还有用于研究转录因子与DNA的交互作用或组蛋白修饰在基因组上的分布的ChIP-Seq,研究RNA与蛋白互作关系的RIP-Seq,以及研究RNA甲基化的MeRIP-Seq等。
应用领域
术语概念
基本的术语介绍:
- 转录本:是由一条基因通过转录形成的一种或多种可供编码蛋白质的成熟的mRNA。
- PE 150/SE 150:PE(Pair end)为双端测序的意思,测序文库中的一条序列从两端开始读取,得到read 1与read 2,即通常所说的R1与R2。SE(Single end)为单端测序的意思,即一条序列从一端读取。这里的150为150bp的意思,即读取150bp长度的测序模式。
- Read:测序得到的每一条序列称为一个 Read。
- Raw Data/ Raw Reads:测序下得到的原始图像数据经过base calling转化而来的机的原始数据。
- Clean Data / Clean Reads:去除接头和低质量 Reads 后的数据,后续分析均基于Clean Data。统计指标为Q20/Q30的值,一般平均质量分数< Q20,
- 接头/ Adapter:接头是测序时在序列两端分别加上的一段人工序列,接头上含有与测序引物互补结合的序列,通过和测序引物结合来对目的片段进行测序。当加上接头后的序列片段比实际测序读长短时, 3’端会测到接头序列,接头序列在分析之前需要去除掉。
- RPKM:Reads Per Kilobase of exon modelper Million mapped reads (每千个碱基的转录每百万映射读取的reads),主要用来对单端测序(single-end RNA-seq)进行定量的方法。
- FPKM:Fragments Per Kilobase of exon model per Million mapped fragments(每千个碱基的转录每百万映射读取的fragments),主要是针对pair-end测序表达量进行计算(公式算法基本与上述RPKM一致,两种都是RNAseq中常见的标准化方法,除此还有其他标准化方法后续会再单独介绍)。
- 模糊碱基/ N:测序中不能确定的碱基,以N表示。一条序列中 N 越多说明该序列质量越低,一般该种序列需要剔除掉。
- Read count:比对到一个基因上的 Reads 数目。
- P value:显著性,统计学根据显著性检验方法所得到的P 值,一般以P < 0.05 为显著, P <0.01 为非常显著,其含义是样本间的差异由抽样误差所致的概率小于0.05 或0.01。
- 差异倍数(Fold change):fold change翻译过来就是倍数变化,假设A基因表达值为1,B表达值为3,那么B的表达就是A的3倍。一般我们都用count、TPM或FPKM来衡量基因表达水平,所以基因表达值肯定是非负数,那么fold change的取值就是(0, +∞)。
- log2 Fold Change:同一基因在两个样品中的表达量之商取2的对数,即log2(sampleA/sampleB)。
注意:
为什么我们经常看到差异基因里负数代表下调、正数代表上调?因为我们用了log2 fold change。当expr(A) < expr(B)时,B对A的fold change就大于1,log2 fold change就大于0(见下图),B相对A就是上调;当expr(A) > expr(B)时,B对A的fold change就小于1,log2 fold change就小于0。通常为了防止取log2时产生NA,我们会给表达值加1(或者一个极小的数),也就是log2(B+1) - log2(A+1).
为什么不直接用表达之差,差直接有正负啊?假设A表达为1,B表达为8,C表达为64;直接用差B相对A就上调了7,C就相对B上调了56;用log2 fold change,B相对A就上调了3,C相对B也只上调了3. 通过测序观察我们发现,不同基因在细胞里的表达差异非常巨大,所以直接用差显然不合适,用log2 fold change更能表示相对的变化趋势,但是呢虽然大家都在用log2 fold change,但显然也是有缺点,这里给大家推荐个链接看下,作者解释的很详细~
- 另外我们也要具备基本分子生物学常识如转录、翻译的过程(中心法则),以及何为外显子,内含子,前体RNA,CDS,ORF这些概念,这些课本或网上都有介绍,不再过多赘述。
中心法则
前体RNA
关系:
流程
测序流程
- 样品RNA准备
- 测序文库构建
- DNA成簇(Cluster)扩增
- 高通量测序(Illumina)
- 数据分析
链特异性建库(了解)
目前构建链特异性文库的方法有多种,其中用的最普遍的是dUTP方法,跟普通建库方式相比,链特异性建库会在第二链 cDNA 合成时,用dUTP代替dTTP,加接头后用UDGase处理,降解掉有U的第二条cDNA,这样使得测序后的数据可以确定链的方向性,从而可以判断转录本是来自正义还是反义DNA链。与普通转录组测序相比,它能更准确地统计转录本的数量和确定基因的结构。推荐个帖子感兴趣的可以学习一下该建库方式的原理
下面通过这张建库示意图来看看普通RNA-Seq建库和链特异性建库的差异在什么地方
数据分析流程
数据量大小
转录调控测序所需的数据量随项目类型不同而有所差异,数据量还与基因组大小、复杂度有关目前,为保证数据分析结果的可靠性和准确性,对于Illumina平台、PacBio平台:
真核转录组测序推荐采用6Gb 数据量进行后续分析,如果想检测到更低丰度的转录本,推荐采用8-10Gb数据量;
原核生物转录组,推荐采用4Gb数据量进行后续分析;
关注点
转录组的分析大致有以下几种情况:
- 同一物种在发育过程中的各时间节点的基因表达特点及存在的差异;
- 不同品系之间存在的差异表达基因;
- 不同的外界条件处理,如细菌、真菌、病毒、光照、紫外、干旱、高温、高盐胁迫,对基因表达的影响;
- 同一个体,不同组织之间的基因表达差异。
其他常见问题
生物学重复问题
生物学差异是基因自身表达的特性,与检测技术的选择以及数据处理的方式无关,如果没有生物学重复,或者生物学重复的数量不够,就不能得到有统计意义的实验结果。获得的差异表达基因很可能仅仅是少数个体差异的表现,并不能反映疾病或者某种特定生理状态的群体本质特征,并且有些审稿人会很在意生物学重复这个问题。
- 对于动植物样品,建议5个以上生物学重复,对生物学样品之间做相关性检验,提高实验结果的可信度。
- 对于细胞样品,生物学重复之间的差异性相对较小,建议3个以上生物学重复。
- 对于临床样品,由于供试者的基因型、生活方式、生活环境、年龄、性别可能存在差异,需要更多的生物学重复,一般要求10个生物学重复以上。
对于有无生物学重复后续计算差异基因时候算法也是不同的,目前主流差异分析软件DEseq2,limma,edgeR等基本都是针对有重复的转录组数据。至于没有重复的转录组数据,edgeR包中其实也有一种方法去计算,或者我们可以简单算两组的fold change然后根据阈值去筛选,另外同济大学之前也发布过一款软件GFOLD软件可以针对无重复数据计算(后续再说)。
差异倍数很大但P值>0.05不显著
对于差异倍数较大,但P值也较大,差异不显著的原因,可能有两个:
- 生物学重复不好,即生物学个体之间差异比较大,从统计学角度讲,就是同一个基因在组内的差异较大,误差线比较大,这样往往差异不显著。比如,某个基因在A组的三个生物学重复的表达量分别为100、200、300,在另一组中为110、150、30,虽然平均值差异倍数大于2,但因为组内重复不好,可能会导致无差异;而另外一个基因,在一组中为100、110、120,另一组为45、50、55,可能就是显著差异的。
- BaseMean值比较低,即基因的丰度比较低,比如某个基因,在A组中的表达量均值为16,在B中的平均表达量为2,虽然差了8倍,但由于丰度低,可信度就低,很有可能也会判定为无差异。
解决方法:
- 对于第一种情况,尽量控制单一变量,比如取同一性别,同一亲本,同一发育时期的小鼠,并增加生物学重复;
- 对于第二种情况,建议增加数据量。
差异基因数目过多或者过少
通常差异基因的鉴定标准为|log2 Fold Change|>1,即差异倍数在两倍以上,以及 P value<0.05。当获得的差异基因数目较多,造成分析困难,想挖掘差异更显著的差异基因时,可以将我们的阈值调整的更加严格,例如 |log2 Fold Change|>2,P value < 0.01等;当我们获得的差异基因较少时,我们可适当放宽鉴定阈值,例如 |log2Fold Change| > 0.5,但是P值需小于0.05才有显著意义。
为什么不同基因ID有着相同的蛋白注释?且为什么有相同蛋白注释信息的基因有的上调表达有的下调表达?
这是在分析结果中比较多见的现象,主要原因有两个:
- 多因一能:不同的基因通过注释具有相同的功能,而不同的基因其差异情况并不一样;
- 许多酶是复合物:组成酶的复合物包含了一个家族的多个基因和不同的调控因子,它们之间的调控机制尚不清楚,反映在图上会有部分上调,部分下调。
如何选取qPCR定量验证基因
- 根据GO或者是KEGG富集结果,或者是科研人员关注的基因,选取有代表性的进行qRT-PCR验证。
- 根据FPKM值,选择FPKM值差异倍数大,同时P值小的基因进行qRT-PCR验证。
qPCR结果和转录组测序结果不一致
RNA测序后,往往需要通过qPCR来进行验证。由于这两种实验的目的都是在检测基因的相对表达量。用qPCR验证的目的,是为了检测转录组测序结果的准确性。我们要求转录组和qPCR的结果趋势一样,比如转录组中显著上调,qPCR中也是显著上调。一般推荐先尽量多做几个,拿20-40个基因进行qPCR验证,因为不一定每个基因都会符合,尽管最后有几个不符合转录组的结果,我们舍去也无所谓,注意选取的基因尽量表达量不要太低,如果太低,无论转录组还是qPCR的准确性都会有所下降。
qPCR结果和转录组测序结果不一致,要考虑以下几个问题:
- 用于做转录组的样品和做qPCR的样品是同一个样品吗?不同生物学个体,虽然同样的处理,但个体差异也会导致不同。
- 样品在-80℃冰箱保存的时间或在液氮中保存的时间一样吗?且保存方式是否一样?即使同一个样品,保存时间与保存方式差异较大,也会有影响。
- 样品之间是否弄反?例如对照与处理之间,以及不同处理之间的样品是否出现弄乱的可能。
- 是否尝试过相同条件处理?不同批次的qPCR的测序?即使是相同处理,不同批次的qPCR结果也很可能不同,还有可能是由于生物个体之间本身的差异;
- 所选的基因是否丰度很低?如果丰度偏低,转录组测序和qPCR测序的结果都会受到影响。
- qPCR操作是否规范。定量实验对实验人员的操作,试剂的质量,实验环境都有着严格的要求。还有可能发生同一人员操作,得到两次的定量结果互相不一致的情况。
- 引物设计是否合理。在RNA-Seq中大多数基因会包含不止一个转录本,甚至有一些特别复杂的转录本形式,如果设计引物不合理就会使qPCR结果不准,还可能会有假基因的干扰。所以,qPCR的引物尽可能全都设计在基因的转录本共有外显子上,别是某些特定转录本的;引物设计好以后可以到NCBI做Primer Blast,保证引物不会Blast到一些基因组上的假基因上,避免假基因表达的干扰。
- 两种技术本身的差异。转录组测序与定量实验,都是检测基因表达情况的有效手段,但是两种技术在原理与方法上是不一样的,本身会存在一定概率结果不一致的可能。转录组测序一般是对基因进行定量,即所有来源于该基因的转录本的reads均归入该基因,而我们qPCR的设计的引物扩增片段有可能不能代表所有的转录本
好了,我们先说这么多,内容参考自《转录组学与多组学整合研究指南》,内容比较丰富,适合新手入门了解。电子书可搜索关注本人公众号BioparaMeta 回复 ‘干货’ 中(转录组链接)获取,除转录组也有宏基因组,单细胞转录组及编程资料可以获取,欢迎关注~~