10×一个样本测多少数据量(G)合适?

简介: 10×一个样本测多少数据量(G)合适?

首先,需要明确一点: 数据量大小其实就是碱基的个数。

那么,数据量大小的计算方法是:

  1. 单端测序
    数据量=reads长度 * reads个数 (reads长度很容易得知,reads个数等于测序所得到的fastq文件的总reads数)
  2. 双端测序
    数据量=单端reads长度 * 单端reads个数 * 2
    通常测序数据量的单位都是用“G"表示,例如1G。需要强调的是,这里所说的G不是说测序文件在硬盘上的大小为1G,而是表示10亿个碱基。这是如何计算的呢?
    首先,我们需要知道1个碱基=1 byte ;
    其次是,1kb=10^3 byte 1M=10^6 byte 1G=10^9 byte。
    所以,1G的数据量=10^9=10亿个碱基。
    此外,测序数据量还有另外一种表示方式,即cluster。一个cluster表示一个DNA片段(对于RNA-seq,则表示一个片段化后的RNA分子)。比如说某一个样本测序数据量为30M 的 cluster。如果采用双端测序技术,每个cluster从两端都测一次,每次测150bp, 所以就会得到30M * 2=60M的reads数,然后reads数乘以每条read的长度就是我们最后的测序数据量(碱基数),即为60M * 150=9G的碱基数。


我们知道了测序数据量是如何计算的,那么问题来了,对于一个测序样本,需要测多少G 的数据量才能满足实验要求呢?要回答这个问题,首先要搞清楚几个概念。

1.测序深度(Sequencing depth):是指测序得到的碱基总量(bp)与基因组大小的比值,即测序深度=数据量大小 / 参考基因组大小。或者理解为基因组中每个碱基被测序到的平均次数。

  1. 测序覆盖度(Sequencing coverage):是指测序获得的序列占整个基因组的比例。或者可以理解为基因组上至少被检测到1次的区域(或者是碱基),占整个基因组的比例。

微信截图_20230606153534.png

通常来说,测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。在测序过程中,10X的测序深度就能够满足基本的实验目的。

以上是一些背景知识,回归正题,当我们想做一个单细胞样本的测序,该测多少数据量呢?以10X为例。

10X官方有PBMC单细胞测试数据,4000K细胞,每个细胞平均是50K的reads。

我们一般都在公司测序,那么公司的人一定会推荐你每个样本是3~8K细胞,平均每个细胞15-50K的reads这样的测序策略 。

以上我们就知道了对于单个单细胞样本,平均每个细胞需要测序的reads数,即15-50K reads/cell,通常为50K reads/cell。

为了得到总的数据量,我们必须还要知道reads长度,因为我们的计算公式就是

双端测序:数据量=单端reads长度 * 单端reads个数 * 2

为了知道reads长度,我们就不得不去查一查,10X单细胞测序的测序模式是什么。查阅得知,其测序模式为PE150。这里的PE150就是指双端测序,每条read长度150bp

那有同学就肯定会问了,那单端测序呢,举例:SE150,即 单端测序,每条read长度150bp。

知道了这些,那最开始的那个问题就解决啦。

由于做的是10X单个单细胞样本,测序模式为PE150。单个细胞需测序的reads数推荐为50K reads/cell,以10,000细胞为例。

数据量=150 * 50 * 1000 * 10000 * 2 = 300 * 50000 * 10000 = 150G

相关文章
|
6月前
|
算法 数据挖掘
WinBUGS对多元随机波动率SV模型:贝叶斯估计与模型比较
WinBUGS对多元随机波动率SV模型:贝叶斯估计与模型比较
|
Python
Python 金融量化 均线系统交易策略专题(简单移动平均,加权移动平均,指数加权移动平均,异同移动平均MACD等解读与绘图)
Python 金融量化 均线系统交易策略专题(简单移动平均,加权移动平均,指数加权移动平均,异同移动平均MACD等解读与绘图)
1119 0
Python 金融量化 均线系统交易策略专题(简单移动平均,加权移动平均,指数加权移动平均,异同移动平均MACD等解读与绘图)
|
6月前
【数理统计实验(一)】统计量近似分布的随机模拟
【数理统计实验(一)】统计量近似分布的随机模拟
|
3月前
|
搜索推荐
淘宝粗排问题之引入未曝光样本和随机负样本对粗排模型有何影响,如何解决
淘宝粗排问题之引入未曝光样本和随机负样本对粗排模型有何影响,如何解决
|
5月前
偏微分方程有了基础模型:样本需求数量级减少,14项任务表现最佳
【6月更文挑战第16天】研究人员提出Poseidon模型,减少求解偏微分方程(PDEs)的样本需求,提升效率。在15个挑战任务中,该模型在14项表现最优。基于scOT的多尺度架构, Poseidon降低了计算成本,但仍有泛化和资源限制。[论文链接](https://arxiv.org/pdf/2405.19101)**
91 4
|
6月前
|
数据可视化 C语言
使用R语言随机波动模型SV处理时间序列中的随机波动率
使用R语言随机波动模型SV处理时间序列中的随机波动率
|
6月前
R语言中固定与随机效应Meta分析 - 效率和置信区间覆盖
R语言中固定与随机效应Meta分析 - 效率和置信区间覆盖
|
6月前
|
Python
Python随机波动率(SV)模型对标普500指数时间序列波动性预测
Python随机波动率(SV)模型对标普500指数时间序列波动性预测
|
6月前
|
算法 测试技术 vr&ar
用综合信息准则比较随机波动率(SV)模型对股票价格时间序列建模
用综合信息准则比较随机波动率(SV)模型对股票价格时间序列建模
|
6月前
R语言量化:合成波动率指数移动平均策略分析标准普尔500波动率指数(VIX)
R语言量化:合成波动率指数移动平均策略分析标准普尔500波动率指数(VIX)