10×一个样本测多少数据量(G)合适?

简介: 10×一个样本测多少数据量(G)合适?

首先,需要明确一点: 数据量大小其实就是碱基的个数。

那么,数据量大小的计算方法是:

  1. 单端测序
    数据量=reads长度 * reads个数 (reads长度很容易得知,reads个数等于测序所得到的fastq文件的总reads数)
  2. 双端测序
    数据量=单端reads长度 * 单端reads个数 * 2
    通常测序数据量的单位都是用“G"表示,例如1G。需要强调的是,这里所说的G不是说测序文件在硬盘上的大小为1G,而是表示10亿个碱基。这是如何计算的呢?
    首先,我们需要知道1个碱基=1 byte ;
    其次是,1kb=10^3 byte 1M=10^6 byte 1G=10^9 byte。
    所以,1G的数据量=10^9=10亿个碱基。
    此外,测序数据量还有另外一种表示方式,即cluster。一个cluster表示一个DNA片段(对于RNA-seq,则表示一个片段化后的RNA分子)。比如说某一个样本测序数据量为30M 的 cluster。如果采用双端测序技术,每个cluster从两端都测一次,每次测150bp, 所以就会得到30M * 2=60M的reads数,然后reads数乘以每条read的长度就是我们最后的测序数据量(碱基数),即为60M * 150=9G的碱基数。


我们知道了测序数据量是如何计算的,那么问题来了,对于一个测序样本,需要测多少G 的数据量才能满足实验要求呢?要回答这个问题,首先要搞清楚几个概念。

1.测序深度(Sequencing depth):是指测序得到的碱基总量(bp)与基因组大小的比值,即测序深度=数据量大小 / 参考基因组大小。或者理解为基因组中每个碱基被测序到的平均次数。

  1. 测序覆盖度(Sequencing coverage):是指测序获得的序列占整个基因组的比例。或者可以理解为基因组上至少被检测到1次的区域(或者是碱基),占整个基因组的比例。

微信截图_20230606153534.png

通常来说,测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。在测序过程中,10X的测序深度就能够满足基本的实验目的。

以上是一些背景知识,回归正题,当我们想做一个单细胞样本的测序,该测多少数据量呢?以10X为例。

10X官方有PBMC单细胞测试数据,4000K细胞,每个细胞平均是50K的reads。

我们一般都在公司测序,那么公司的人一定会推荐你每个样本是3~8K细胞,平均每个细胞15-50K的reads这样的测序策略 。

以上我们就知道了对于单个单细胞样本,平均每个细胞需要测序的reads数,即15-50K reads/cell,通常为50K reads/cell。

为了得到总的数据量,我们必须还要知道reads长度,因为我们的计算公式就是

双端测序:数据量=单端reads长度 * 单端reads个数 * 2

为了知道reads长度,我们就不得不去查一查,10X单细胞测序的测序模式是什么。查阅得知,其测序模式为PE150。这里的PE150就是指双端测序,每条read长度150bp

那有同学就肯定会问了,那单端测序呢,举例:SE150,即 单端测序,每条read长度150bp。

知道了这些,那最开始的那个问题就解决啦。

由于做的是10X单个单细胞样本,测序模式为PE150。单个细胞需测序的reads数推荐为50K reads/cell,以10,000细胞为例。

数据量=150 * 50 * 1000 * 10000 * 2 = 300 * 50000 * 10000 = 150G

相关文章
|
人工智能 数据可视化 Go
R绘图实战|GSEA富集分析图
GSEA(Gene Set EnrichmentAnalysis),即基因集富集分析,它的基本思想是使用预定义的基因,将基因按照在两类样本中的差异表达程度排序,然后检验预先设定的基因集合是否在这个排序表的顶端或者底端富集。
2986 0
R绘图实战|GSEA富集分析图
|
算法 数据安全/隐私保护 Windows
|
移动开发 机器学习/深度学习 安全
|
缓存 Linux 开发工具
CentOS 7- 配置阿里镜像源
阿里镜像官方地址http://mirrors.aliyun.com/ 1、点击官方提供的相应系统的帮助 :2、查看不同版本的系统操作: 下载源1、安装wget yum install -y wget2、下载CentOS 7的repo文件wget -O /etc/yum.
255429 0
|
搜索推荐
Edge——如何屏蔽CSDN搜索结果
Edge——如何屏蔽CSDN搜索结果
396 1
Edge——如何屏蔽CSDN搜索结果
|
12月前
|
Android开发 Swift iOS开发
python 基于电脑蓝牙连接获取手机的实时数据
python 基于电脑蓝牙连接获取手机的实时数据
253 0
|
Kubernetes 调度 Perl
在K8S中,说下Pod污点与容忍的理解?
在K8S中,说下Pod污点与容忍的理解?
|
数据可视化 数据挖掘 Linux
转录组下游分析丨利用limma包进行差异表达分析,结果可视化绘制火山图和热图
转录组下游分析丨利用limma包进行差异表达分析,结果可视化绘制火山图和热图
|
消息中间件 存储 SQL
实时计算 Flink版产品使用问题之kafka2hive同步数据时,如何回溯历史数据
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。