Nat. Mach. Intell. | 基于神经网络的迁移学习用于单细胞RNA-seq分析中的聚类和细胞类型分类...

简介: Nat. Mach. Intell. | 基于神经网络的迁移学习用于单细胞RNA-seq分析中的聚类和细胞类型分类...

今天给大家介绍由美国宾夕法尼亚大学佩雷尔曼医学院生物统计学,流行病学和信息学系Jian Hu等人在《Nature Machine Intelligence》上发表了一篇名为“Iterative transfer learning with neural network for clustering and cell type classification in single-cell RNA-seq analysis”的文章。文中提出了一种迁移学习算法ItClust,这是一种监督的机器学习方法,该方法借鉴了现有的受监督细胞类型分类算法的思想,利用了从源数据中学到的特定细胞类型的基因表达信息,来帮助对新生成的目标数据进行聚类和细胞类型分类。通过使用不同的scRNA-seq数据进行全面的评估,发现ItClust能够显著的提高聚类和细胞类型分类的准确性。随着scRNA-seq在生物医学研究中的日益普及,未来希望ItClust将更好地利用大量现有的经过良好注释的scRNA-seq数据集,并使研究人员能够准确地对研究中的细胞进行聚类和注释。


image.png

image.png

1


背景


随着单细胞RNA测序(scRNA-seq)技术日渐成熟。新兴的scRNA-seq研究改变了我们对细胞生物学和人类疾病的理解。scRNA-seq分析中的重要步骤是通过聚类识别细胞群体或类型。有关细胞类型的知识可以揭示跨组织,发育阶段和生物的细胞异质性,并增进我们对健康和疾病中细胞和基因功能的了解。尽管scRNA-seq具有空前的强大功能,但高维性和高水平技术噪音仍然是鉴定细胞类型的主要障碍。目前流行的scRNA-seq聚类方法对于细胞类型密切相关或测序深度较低的数据效果表现不佳。尽管诸如SAVER和DCA之类的去噪方法可以提供更准确的基因表达估计并有助于聚类,但是这些方法不受监督,并且无法利用特定于细胞类型的基因表达信息。由于已经有大量注释良好的scRNA-seq数据集,许多最新方法开始利用这些注释良好的数据集中的信息来帮助识别新数据中的细胞类型。


源数据和目标数据提供不同数量的特定于细胞类型的基因表达信息,因此希望使用数据驱动的方法来确定每种数据类型在分析中的作用。迁移学习是一种机器学习方法,它专注于存储在解决一个问题时获得的知识并将其应用于其他但相关的问题,非常适合此目的。借这个想法,研究者开发了监督的聚类算法ItClust,它利用了从源数据中学到的特定细胞类型的基因表达信息,来帮助对新生成的目标数据进行聚类和细胞类型分类。实现自动确定目标数据集中的聚类数量,分离源数据中缺少的单元格类型。


2


模型


ItClust模型如下图所示, ItClust需要两个输入数据集,一个源数据集,其中包含带有标注良好的单元格类型标签的单元格,一个目标数据集,其中包含需要进行聚类和注释的单元格。ItClust从构建源网络开始,以从源数据中提取特定细胞类型的基因表达特征。该步骤使得能够使用从源网络估计的参数来初始化第二个网络,即目标网络。然后,使用目标数据中的单元格进一步训练初始化的目标网络,以微调参数,以便捕获目标数据中特定于细胞类型的基因表达特征。一旦微调完成后,目标网络将返回目标数据中的群集单元格。

image.png

3


结果


为了显示从标记良好的源数据中合并细胞类型特异性基因表达信息有助于在目标数据中进行聚类,作者在四个公开的人类胰岛数据集上将ItClust与两种无监督聚类算法(Louvain和DESC)以及SAVER-X(一种基于神经网络的方法)进行了比较。图2a显示了在所有四个单独的目标数据集上,Louvin,DESC和SAVER-X的ARI随着分辨率参数的变化而显着变化。相反,ItClust不需要分辨率参数的规范,即使与Louvain,DESC或SAVER-X使用的性能最佳的分辨率进行比较,也始终具有最高或接近最高的ARI。对于合并的数据集,Louvin,DESC和SAVER-X的ARI大幅下降,因为它们倾向于将来自相同细胞类型但不同数据集的细胞聚类到不同的聚类中,而ItClust保持较高的聚类准确性,并且在存在批处理时具有鲁棒性目标数据中的效果(图2b)。


image.png

image.png

接下来,作者将ItClust与监督型细胞类型分类方法进行了比较。除聚类外,ItClust还为每个聚类提供一个置信度分数,它表示目标数据中聚类与源数据中带注释的单元格类型的相似度。可以基于源数据中的相应注释,为具有高置信度得分的聚类分配单元类型名称。对于置信度得分较低的群集,它们可能代表源数据中不存在的单元类型。为了评估ItClust进行细胞类型分类的性能,首先,作者考虑了源数据和目标数据来自同一物种的情况。使用先前分析的相同的四个人类胰岛数据集作为目标数据,并使用Baron人类数据作为源数据。当分别考虑四个目标数据集的每一个时,ItClust通常获得最佳性能,产生最高或接近最高的分类准确度(图3a)。当将四个目标数据集合并为一个目标数据集时,ItClust仍达到0.95的高精度,每个簇对应一种细胞类型(图3b),这表明其对目标数据中批处理效果的鲁棒性。

image.png

最后,作者考虑了更具挑战性的情况,目标是将从一个物种学到的细胞类型知识转移到在另一个物种中生成的目标数据集。设计了一个实验,将信息从小鼠肾脏转移到人类肾脏。如图4a所示,ItClust实现了最高的细胞类型分类准确度(0.87),远高于第二好的方法Seurat 3.0(0.69)。Moana和scmap使任务失败,分别产生了0.20和0.19的低精度。值得注意的是,Seurat 3.0将超过一半的巨噬细胞(3,566个中的2408个;67.5%)错误地分类为成纤维细胞,而ItClust正确地标记了94.6%的巨噬细胞(图4b)。为了进一步验证这些结果,我们为巨噬细胞和成纤维细胞选择了标记基因,并分别为真实细胞类型和ItClust和Seurat 3.0预测的细胞类型生成了基因表达点图(图4c)。对于ItClust预测的巨噬细胞簇,表达了已知的巨噬细胞标记基因,而成纤维细胞的那些标记基因则表达较低或没有表达。相反,已知的巨噬细胞标记基因在Seurat 3.0预测的成纤维细胞中具有高表达。

image.png

image.png

4


总结


总之,本研究提出了一种采用迁移学习框架的监督性聚类算法ItClust。ItClust不仅借鉴了现有的监督单元类型分类算法的思想,而且也利用目标数据中的信息来减少对源数据质量的依赖。研究中使用来自不同物种的数据集和组织对ItClust进行了广泛的测试表明:相比其他流行的RNA-seq聚类算法,ItClust能够显著底提高聚类和细胞类型分类的准确性。


相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
目录
相关文章
|
4月前
|
机器学习/深度学习 资源调度 算法框架/工具
AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
296 10
|
8月前
|
网络协议 安全 网络安全
NAT网络地址转换
NAT(网络地址转换)是一种关键的网络技术,通过将内部私有地址转换为外部公网地址,实现多设备共享单一公网IP上网。它不仅解决了IPv4地址不足的问题,还增强了网络安全,隐藏了内部网络结构。NAT主要分为静态NAT、动态NAT和NAPT(网络地址端口转换)三种类型,广泛应用于家庭和企业网络中。然而,NAT也存在对某些应用不友好、增加延迟及与IPv6不兼容等缺点。
1142 14
|
存储 网络协议 安全
30 道初级网络工程师面试题,涵盖 OSI 模型、TCP/IP 协议栈、IP 地址、子网掩码、VLAN、STP、DHCP、DNS、防火墙、NAT、VPN 等基础知识和技术,帮助小白们充分准备面试,顺利踏入职场
本文精选了 30 道初级网络工程师面试题,涵盖 OSI 模型、TCP/IP 协议栈、IP 地址、子网掩码、VLAN、STP、DHCP、DNS、防火墙、NAT、VPN 等基础知识和技术,帮助小白们充分准备面试,顺利踏入职场。
1849 2
|
运维 负载均衡 安全
|
网络协议 安全 网络安全
Cisco-网络端口地址转换NAPT配置
Cisco-网络端口地址转换NAPT配置
375 1
|
安全 网络安全 数据安全/隐私保护
Cisco-网络地址转换动态NAT
Cisco-网络地址转换动态NAT
251 1
|
安全 网络安全 数据安全/隐私保护
Cisco-网络地址转换静态NAT
Cisco-网络地址转换静态NAT
216 1
|
机器学习/深度学习 算法 数据挖掘
基于改进K-means的网络数据聚类算法matlab仿真
**摘要:** K-means聚类算法分析,利用MATLAB2022a进行实现。算法基于最小化误差平方和,优点在于简单快速,适合大数据集,但易受初始值影响。文中探讨了该依赖性并通过实验展示了随机初始值对结果的敏感性。针对传统算法的局限,提出改进版解决孤点影响和K值选择问题。代码中遍历不同K值,计算距离代价,寻找最优聚类数。最终应用改进后的K-means进行聚类分析。
329 10
|
虚拟化
VMware NAT 模式 虚拟机网络电缆被拔出,连不上网
VMware NAT 模式 虚拟机网络电缆被拔出,连不上网
646 0
|
存储 运维 网络协议
穿越网络界限:探索NAT IPv4的神秘面纱
穿越网络界限:探索NAT IPv4的神秘面纱
457 1

热门文章

最新文章