引言
本系列开启R中单细胞RNA-seq数据分析教程,持续更新,欢迎关注,转发!
简介
当您拿到样本的单细胞RNA测序数据后,下一步就是进行准确的数据分析。 目前已经有很多工具和分析平台被开发出来,专门用于处理单细胞RNA测序(scRNA-seq)数据。这些工具中,有R语言中的Seurat(由Rahul Satija实验室开发),以及Python中的scanpy(由Fabian Theis实验室开发)。这些工具提供了丰富的功能和参数,能够满足大部分常见的scRNA-seq数据分析需求。但需要注意的是,这些分析工具并不能覆盖所有可能的分析类型。因此,了解其他分析工具也是非常有必要的。
本教程面向初学者,主要介绍如何在R语言中使用Seurat来分析scRNA-seq数据。除此之外,还会介绍一些其他的工具,比如presto、destiny、Harmony、simspec等,这些工具提供了一些Seurat中没有的功能。在最新的更新中,还提供了一些高级分析方法的简单示例,比如RNA速度分析。
数据集
本教程假定您已经完成了测序数据的预处理工作,包括碱基识别、序列比对和计数。10x Genomics提供了一个名为Cell Ranger的分析流程,专门用于处理通过10x Genomics Chromium单细胞基因表达解决方案得到的数据。在Cell Ranger流程结束时,您会得到一个计数矩阵。如果您的单细胞RNA测序数据是通过其他技术产生的(比如使用Smart-Seq2的基于孔板的实验等),Cell Ranger流程可能就不适用了,您需要寻找其他方法来生成计数矩阵。
在本教程中,提供了两个数据集(DS1和DS2),它们都是利用10x Genomics技术生成,并且已经通过Cell Ranger进行了预处理。这两个数据集都是公开可用的人类大脑类器官单细胞RNA测序数据,也是这篇论文中展示数据的一部分。本教程的第一部分,涵盖了大部分通用分析流程,是基于DS1数据集进行的;第二部分,专注于数据整合和批次效应校正,则是基于DS1和DS2两个数据集。