10×一个样本测多少数据量(G)合适？-阿里云开发者社区

10×一个样本测多少数据量(G)合适？

2023-06-06 447

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 10×一个样本测多少数据量(G)合适？

首先，需要明确一点: 数据量大小其实就是碱基的个数。

那么，数据量大小的计算方法是：

单端测序
数据量=reads长度 * reads个数 (reads长度很容易得知，reads个数等于测序所得到的fastq文件的总reads数)
双端测序
数据量=单端reads长度 * 单端reads个数 * 2
通常测序数据量的单位都是用“G"表示，例如1G。需要强调的是，这里所说的G不是说测序文件在硬盘上的大小为1G，而是表示10亿个碱基。这是如何计算的呢？
首先，我们需要知道1个碱基=1 byte ；
其次是，1kb=10^3 byte 1M=10^6 byte 1G=10^9 byte。
所以，1G的数据量=10^9=10亿个碱基。
此外，测序数据量还有另外一种表示方式，即cluster。一个cluster表示一个DNA片段（对于RNA-seq，则表示一个片段化后的RNA分子）。比如说某一个样本测序数据量为30M 的 cluster。如果采用双端测序技术，每个cluster从两端都测一次，每次测150bp, 所以就会得到30M * 2=60M的reads数，然后reads数乘以每条read的长度就是我们最后的测序数据量（碱基数），即为60M * 150=9G的碱基数。

我们知道了测序数据量是如何计算的，那么问题来了，对于一个测序样本，需要测多少G 的数据量才能满足实验要求呢？要回答这个问题，首先要搞清楚几个概念。

1.测序深度（Sequencing depth）：是指测序得到的碱基总量（bp）与基因组大小的比值，即测序深度=数据量大小 / 参考基因组大小。或者理解为基因组中每个碱基被测序到的平均次数。

测序覆盖度（Sequencing coverage）：是指测序获得的序列占整个基因组的比例。或者可以理解为基因组上至少被检测到1次的区域（或者是碱基），占整个基因组的比例。

微信截图_20230606153534.png

通常来说，测序深度与基因组覆盖度之间是一个正相关的关系，测序带来的错误率或假阳性结果会随着测序深度的提升而下降。在测序过程中，10X的测序深度就能够满足基本的实验目的。

以上是一些背景知识，回归正题，当我们想做一个单细胞样本的测序，该测多少数据量呢？以10X为例。

10X官方有PBMC单细胞测试数据，4000K细胞，每个细胞平均是50K的reads。

我们一般都在公司测序，那么公司的人一定会推荐你每个样本是3~8K细胞，平均每个细胞15-50K的reads这样的测序策略。

以上我们就知道了对于单个单细胞样本，平均每个细胞需要测序的reads数，即15-50K reads/cell，通常为50K reads/cell。

为了得到总的数据量，我们必须还要知道reads长度，因为我们的计算公式就是

双端测序：数据量=单端reads长度 * 单端reads个数 * 2

为了知道reads长度，我们就不得不去查一查，10X单细胞测序的测序模式是什么。查阅得知，其测序模式为PE150。这里的PE150就是指双端测序，每条read长度150bp

那有同学就肯定会问了，那单端测序呢，举例：SE150，即单端测序，每条read长度150bp。

知道了这些，那最开始的那个问题就解决啦。

由于做的是10X单个单细胞样本，测序模式为PE150。单个细胞需测序的reads数推荐为50K reads/cell，以10,000细胞为例。

数据量=150 * 50 * 1000 * 10000 * 2 = 300 * 50000 * 10000 = 150G

10×一个样本测多少数据量(G)合适？

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

10×一个样本测多少数据量(G)合适？

热门文章

最新文章

相关课程

相关电子书

相关实验场景