分享一篇 Science 里不同批次的单细胞数据整合及批次校正方法

简介: 分享一篇 Science 里不同批次的单细胞数据整合及批次校正方法

处理流程图示


image.png


不同处理后的UMAP图


image.png

LISI指数差异


CD8+T细胞数据整合。


A.UMAP图显示CD8+ T细胞。每个点代表一个单细胞。第一张图显示的是来自所有数据集的细胞,第二张图显示的是黑色素瘤研究中的细胞。这两幅图都由数据集着色。很明显,来自不同数据集的细胞形成了不同的簇,说明批次效应的存在。下面的图显示了所有数据集的细胞,但由5个标记基因的标准化表达着色。


B.对A数据进行z-score标准化后的UMAP图。


C.对B数据应用mini-clusters处理后的UMAP图,也就是说,每个点代表一个小型集群。


D.对C数据应用批次矫正算法Harmony之后的UMAP图。


E.箱线图显示了A、B、C、D数据中的LISI (Local Inverse Simpson’s Index)分布。值得注意的是,在步骤B中,大部分细胞存在LISI > 1,提示未观察到明显的批量效应;在步骤B、C和D中,LISI显著增加,表明改进了数据整合。


数据整合和元集群识别

为了整合来自不同平台和不同研究的异构数据,采用了三个步骤。


对每个细胞进行size-factor normalization,对每个基因进行z-score scaling


为了减少技术噪音,如转录本退出,将单细胞划分为小组(称为微聚类,miniclusters),每个小组包含类似的细胞。这样,原始基因通过细胞表达矩阵转化为微聚类表达矩阵的基因。将所有数据集的矩阵按列组合,只保留所有数据集中存在的基因。合并的矩阵将用于下游分析。


应用批量效应校正算法Harmony对批次效应进行校正。


使用局部逆辛普森指数(local inverse Simpson’s Index,LISI)来评估整合效果。LISI定义了单个细胞附近的数据集的有效数量。LISI值越高,说明邻域的数据集越多,批处理效应越小。从之前的图可以看出z-score scaling 已经消除了由于平台和研究的差异而引起的批量效应,UMAP上数据集的均匀分布和LISI分布表明大多数细胞的LISI大于1证明了这一点。将单个细胞分组成小簇后,某些隐藏的细胞状态变得明显,并显著提高了LISI。使用Harmony进一步显著增加了LISI。


相关文章
|
7月前
R语言用ARIMA模型,ARIMAX模型预测冰淇淋消费时间序列数据
R语言用ARIMA模型,ARIMAX模型预测冰淇淋消费时间序列数据
R语言用ARIMA模型,ARIMAX模型预测冰淇淋消费时间序列数据
|
7月前
|
机器学习/深度学习 前端开发 数据挖掘
工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断(下)
工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断
442 11
|
7月前
|
存储 移动开发 算法
SPSS用KMEANS(K均值)、两阶段聚类、RFM模型在P2P网络金融研究借款人、出款人行为数据规律
SPSS用KMEANS(K均值)、两阶段聚类、RFM模型在P2P网络金融研究借款人、出款人行为数据规律
|
7月前
|
算法 vr&ar Python
R语言隐马尔可夫模型HMM连续序列重要性重抽样CSIR估计随机波动率模型SV分析股票收益率时间序列
R语言隐马尔可夫模型HMM连续序列重要性重抽样CSIR估计随机波动率模型SV分析股票收益率时间序列
|
7月前
Stata广义矩量法GMM面板向量自回归 VAR模型选择、估计、Granger因果检验分析投资、收入和消费数据
Stata广义矩量法GMM面板向量自回归 VAR模型选择、估计、Granger因果检验分析投资、收入和消费数据
|
7月前
|
监控 数据可视化 数据挖掘
对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归|附数据代码
对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归|附数据代码
|
机器学习/深度学习 数据采集 存储
【机器学习6】数据预处理(三)——处理类别数据(有序数据和标称数据)
【机器学习6】数据预处理(三)——处理类别数据(有序数据和标称数据)
288 0
|
7月前
|
机器学习/深度学习
工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断(上)
工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断
|
7月前
ARIMA模型,ARIMAX模型预测冰淇淋消费时间序列数据
ARIMA模型,ARIMAX模型预测冰淇淋消费时间序列数据
|
7月前
工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断2
工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断