Nature Methods | TooManyCells:单细胞聚类和可视化方法

简介: Nature Methods | TooManyCells:单细胞聚类和可视化方法

2020年3月2日宾夕法尼亚大学的Gregory W. Schwartz等研究人员在nature methods上发表了题为TooManyCells identifies and visualizes relationships of single-cell clades的文章,该工作提出了TooManyCells方法,用于有效和无偏地识别和可视化单细胞,为细胞状态分层、探索和检测稀有集群提供灵活的平台。


image.png

1.研究背景

识别和可视化转录相似的细胞有助于准确探索单细胞转录组学揭示的细胞多样性,然而常见的聚类和可视化算法需事先设定细胞簇数,固定的簇数往往阻碍了我们识别和可视化细胞状态的能力。为解决这些问题,宾夕法尼亚大学的Gregory W. Schwartz等研究人员开发了一套基于图的单细胞聚类和可视化算法TooManyCells,用于有效和无偏地识别和可视化细胞类群。相比于现有流行的聚类和可视化算法,TooManyCells可以同时分层稀有和常见的细胞群体并探索它们之间的关系。


2.TooManyCells

TooManyCells实现了一套基于图形的算法和工具,可以高效、全局且无偏地识别和可视化细胞进化枝。TooManyCells可以在不同的聚类解析度下维持并呈现聚类关系,能够准确地识别并清晰显示稀有亚群和丰富亚群。在多个数据集上的实验结果显示:在检测和可视化稀有种群方面,TooManyCells的性能优于其他流行方法。


TooManyCells的功能可以总结为以下三点:


聚类:TooManyCells实现了最初用于文本挖掘的无矩阵分层谱聚类,使用该聚类方法的最终结果是一种树状结构,其中每个内部节点是一个粗略的簇,每个叶子是每个模块化度量中最精细的簇。


可视化:TooManyCells算法使用BirchBeer渲染方法显示单细胞群集层次结构。


差异表达:给定多个群集标识号,TooManyCells可以执行差异表达分析以识别这些群集中细胞的基因表达之间的差异。


3.方法

3.1 聚类

TooManyCells实现了无矩阵分层谱聚类。

image.png

这种方法可以递归地应用于每个划定的群集,直到达到停止标准,最终得到分裂的层次群集结构。


3.2停止标准

TooManyCells使用Newman-Girvan模块化Q作为停止标准,使用Q度量节点划分的强度,Q测量簇内边缘到其它簇的随机分布的距离,Q>0表示非随机群落,Q≤0显示存在随机发现的群落。TooManyCells使用Q来评估一个候选的细胞划分,确定该是继续递归还是将该划分结果作为层次聚类中的一片叶子。


3.3可视化


TooManyCells的聚类算法最终最终产生一种树状结构,其中每个内部节点是一个粗略的簇,每个叶子是每个模块化度量中最精细的簇。TooManyCells使用BirchBeer方法展示单细胞群集层次结构。BirchBeer提供了多种图形功能,可帮助检测和解释细胞簇。在树的叶子上绘制用颜色编码的单细胞,可促进对单细胞解析度的探索。


4.实验

4.1 细胞-分化枝关系的可视化

清晰的可视化对于scRNA-seq数据探索至关重要,对于复杂的细胞混合物,基于投影的算法会呈现许多重叠的细胞,这会降低单细胞的可视化效果。更重要的是,这些算法通常不会报告集群间的定量关系,并且在整个聚类解析度中缺乏可解释的可视化效果。TooManyCells可以解决这些限制,在树数据抽象中对集群间关系进行完全可定制的可视化,TooManyCells可视化和聚类算法如图1。

image.png

图1 TooManyCells可视化和聚类算法


4.2 准确地描述稀有亚群和丰富亚群

TooManyCells聚类不仅可以从常见群体中检测到稀有群集,而且可以区分各个稀有群集。t-SNE投影的可视化结果显示实际细胞类型与其聚类标签之间存在差异, 难以区分混合物中的两个稀有群集,相比之下,TooManyCells能够分离稀有和丰富群集,并且能分离两个稀有群体。TooManyCells通过模块化值指出稀有群集,稀有种群即使在没有细胞类型标签的情况下也很容易被识别。使用常用的聚类方法对两个稀有群集和丰富群集混合物的细胞进行检测的实验结果如图2。

image.png

图2 聚类算法对两个稀有群集和丰富细胞群集混合物的细胞进行检测


5.总结

TooManyCells通过递归技术反复识别在树结构中亚群,其可视化模型结合一系列可视化特性为细胞状态提供一个灵活的平台,跟踪、探索和检测稀有种群。除了聚类和可视化之外,TooManyCells还提供其他功能,包括但不限于异质性评估、聚类测量、多样性和稀有性统计。TooManyCells同时识别稀有和丰富细胞群体的优越性可在三个独立的环境中得到证明,在控制环境中,该方法不仅将两个稀有细胞群体从普通细胞群体中分离出来,而且成功地将两个稀有细胞群体分离。


研究者在设计该方法时还考虑了其灵活性和通用性。TooManyCells是由多种算法组成的通用框架,这些算法可与其他现有算法互换,TooManyCells的聚类和可视化模块也可以分别用于分析其他单细胞基因组或观察特征数据。


目录
相关文章
|
2月前
|
存储 数据可视化 API
使用UMAP降维可视化RAG嵌入
大型语言模型(LLMs)如 GPT-4 已经展示了出色的文本理解和生成能力。但它们在处理领域特定信息方面面临挑战,比如当查询超出训练数据范围时,它们会产生错误的答案。LLMs 的推理过程也缺乏透明度,使用户难以理解达成结论的方式。
36 0
|
8天前
|
机器学习/深度学习 存储 数据可视化
R语言混合效应逻辑回归(mixed effects logistic)模型分析肺癌数据
R语言混合效应逻辑回归(mixed effects logistic)模型分析肺癌数据
12 0
|
8天前
|
vr&ar
R语言如何做马尔可夫转换模型markov switching model
R语言如何做马尔可夫转换模型markov switching model
|
8天前
|
算法 数据可视化 数据挖掘
R语言实现k-means聚类优化的分层抽样(Stratified Sampling)分析各市镇的人口
R语言实现k-means聚类优化的分层抽样(Stratified Sampling)分析各市镇的人口
26 0
|
9天前
|
vr&ar
R语言如何做马尔科夫转换模型markov switching model
R语言如何做马尔科夫转换模型markov switching model
16 0
|
8天前
|
机器学习/深度学习 算法 数据可视化
R语言文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)
R语言文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)
18 0
|
8天前
|
存储 数据中心 索引
SPSS中的多层(等级)线性模型Multilevel linear models研究整容手术数据
SPSS中的多层(等级)线性模型Multilevel linear models研究整容手术数据
14 0
|
9天前
|
算法 数据可视化 数据挖掘
Python Monte Carlo K-Means聚类实战研究
Python Monte Carlo K-Means聚类实战研究
21 1
|
1月前
|
存储 数据可视化 数据挖掘
单细胞分析|将 Seurat 与多模态数据结合使用
单细胞分析|将 Seurat 与多模态数据结合使用
24 0
|
10月前
|
数据可视化
Nomogram(诺莫图) | Logistic、Cox生存分析结果可视化
Nomogram(诺莫图) | Logistic、Cox生存分析结果可视化
113 0