首先,需要明确一点: 数据量大小其实就是碱基的个数。
那么,数据量大小的计算方法是:
- 单端测序
数据量=reads长度 * reads个数 (reads长度很容易得知,reads个数等于测序所得到的fastq文件的总reads数) - 双端测序
数据量=单端reads长度 * 单端reads个数 * 2
通常测序数据量的单位都是用“G"表示,例如1G。需要强调的是,这里所说的G不是说测序文件在硬盘上的大小为1G,而是表示10亿个碱基。这是如何计算的呢?
首先,我们需要知道1个碱基=1 byte ;
其次是,1kb=10^3 byte 1M=10^6 byte 1G=10^9 byte。
所以,1G的数据量=10^9=10亿个碱基。
此外,测序数据量还有另外一种表示方式,即cluster。一个cluster表示一个DNA片段(对于RNA-seq,则表示一个片段化后的RNA分子)。比如说某一个样本测序数据量为30M 的 cluster。如果采用双端测序技术,每个cluster从两端都测一次,每次测150bp, 所以就会得到30M * 2=60M的reads数,然后reads数乘以每条read的长度就是我们最后的测序数据量(碱基数),即为60M * 150=9G的碱基数。
我们知道了测序数据量是如何计算的,那么问题来了,对于一个测序样本,需要测多少G 的数据量才能满足实验要求呢?要回答这个问题,首先要搞清楚几个概念。
1.测序深度(Sequencing depth):是指测序得到的碱基总量(bp)与基因组大小的比值,即测序深度=数据量大小 / 参考基因组大小。或者理解为基因组中每个碱基被测序到的平均次数。
- 测序覆盖度(Sequencing coverage):是指测序获得的序列占整个基因组的比例。或者可以理解为基因组上至少被检测到1次的区域(或者是碱基),占整个基因组的比例。
通常来说,测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。在测序过程中,10X的测序深度就能够满足基本的实验目的。
以上是一些背景知识,回归正题,当我们想做一个单细胞样本的测序,该测多少数据量呢?以10X为例。
10X官方有PBMC单细胞测试数据,4000K细胞,每个细胞平均是50K的reads。
我们一般都在公司测序,那么公司的人一定会推荐你每个样本是3~8K细胞,平均每个细胞15-50K的reads这样的测序策略 。
以上我们就知道了对于单个单细胞样本,平均每个细胞需要测序的reads数,即15-50K reads/cell,通常为50K reads/cell。
为了得到总的数据量,我们必须还要知道reads长度,因为我们的计算公式就是
双端测序:数据量=单端reads长度 * 单端reads个数 * 2
为了知道reads长度,我们就不得不去查一查,10X单细胞测序的测序模式是什么。查阅得知,其测序模式为PE150。这里的PE150就是指双端测序,每条read长度150bp
那有同学就肯定会问了,那单端测序呢,举例:SE150,即 单端测序,每条read长度150bp。
知道了这些,那最开始的那个问题就解决啦。
由于做的是10X单个单细胞样本,测序模式为PE150。单个细胞需测序的reads数推荐为50K reads/cell,以10,000细胞为例。
数据量=150 * 50 * 1000 * 10000 * 2 = 300 * 50000 * 10000 = 150G