Nature Methods | 用深度多任务神经网络探索单细胞数据

简介: Nature Methods | 用深度多任务神经网络探索单细胞数据

image.png

1.研究背景


在生物医学领域,分析大规模、高维度的单细胞数据,并且处理由分批实验效应和不同制备造成的数据噪声是当前的挑战;单细胞数据的大规模、高维度处理比较困难,需要考虑数据中不同程度的噪声、分批效应、人工误差、稀疏异质性。


近年来,深度学习技术在处理生物医学数据方面的应用崭露头角,并取得不错的效果,这给大规模、高维度的单细胞数据分析处理带来了希望;2019年10月,耶鲁大学Smita Krishnaswamy课题组提出多任务神经网络框架SAUCIE,在来自40个科属180个样本的1.1千万的细胞群数据集上执行批量校正(不同批次实验数据去噪)、推断(预测细胞中的两个基因之间关系)、聚类、降维可视化四个任务,相比于对应的单任务学习主流方法表现出更好的效果。


2.方法


2.1 自编码器


自编码器是一种利用反向传播算法使得输出值等于输入值的神经网络,它先将输入压缩成潜在特征空间,然后通过这种表征来重构输出。其由编码器和解码器两部分组成,编码器可以将输入压缩成潜在特征空间表示,解码器能够重构来自潜在空间表示的输入;目前,自编码器的应用主要是数据去噪、可视化两个方面;不同类型的自编码器适用于不同的任务,正则化自编码器可以使得模型具有可解释性,其不需要使用浅层的编码器和解码器以及小的编码维数来限制模型容量,而使用损失函数来鼓励模型学习其他特征,这些特征包括对噪声的鲁棒性、稀疏表征。


2.2 SAUCIE模型


耶鲁大学Smita Krishnaswamy课题组提出SAUCIE模型,该模型由三个编码层、一个嵌入层、三个解码层组成;在编码层中,三个层的神经元数目默认依次是512、216、128,都是采用learky_relu作为激活函数;中间是嵌入层,使用线性激活函数,输出二维的嵌入向量;随后是解码层,其与编码层结构对称,但其最后一层引入了正则化,输出和输入同维度的特征向量;嵌入层的输出二维特征向量可用于批量校正和可视化降维任务,解码层的输出特征向量可用于聚类和推断任务。

网络异常,图片无法展示
|

图1  SAUCIE模型框架


为了执行多个任务,SAUCIE模型使用单一架构(如图1),但按顺序训练与优化;首先,将原始数据输入模型进行去噪和修正批处理效果;然后将预处理好的数据再输入模型进行可视化降维和聚类;两次的训练是优化不同的目标函数;在第一次训练中,输入n*d维度矩阵X(每行是一个样本点,每列是一个特征)到编码器中提取特征,然后再由解码器对其进行重构,得到和输入维度相同的 ,达到对数据去噪和校正批处理效果。第二次训练,预处理好的数据输入编码层学习其嵌入的二维表示,其可以用作对数据可视化;接着将二维表示送入解码层,其输出和输入同维度的向量矩阵,该矩阵可以用于对数据的聚类与推断。第一次训练的损失函数为 ,其中为输入和输出的均方误差, 为正则化项, 为参数。第二次训练损失函数为 ,其中为输入和输出的均方误差,是为了学习二元表示的正则化项,是为聚类提供可解释性的正则化项, 为参数。


3.实验结果


为了评估SAUCIE模型,论文在10个公开单细胞数据集上,分别是5个CyTOF数据集:the dengue dataset、T cell development data、renal cell carcinoma data、breast tumor data、iPSC data,5个scRNA-seq数据集:mouse cortex data、retinal bipolar cells、hematopoiesis data、mouse brain data、the 10x mouse megacell demonstration;执行聚类、分批处理校正、可视化、推断四个任务,并分别和对应任务的主流方法进行对比实验。


3.1 聚类


对于聚类任务,使用人工数据集GMM、两个CyTOF数据集(Shekhar et al, Chevrier et al)、三个scRNA-seq数据集(Ziesel et al, Paul et al, and Setty et al),与minibatch kmeans、Phenograph、single-cell variational inference(scVI)三个模型进行对比,聚类结果如图2。


image.png

图2 聚类结果对比


3.2 分批处理校正


对于分批处理校正任务,使用人工数据集GMM、the dengue dataset、mouse cortex data、Chevrier et al、 Azizi et al and Setty et al数据集,与mutual nearest neighbors(MNN)、canonical correlation analysis(CCA)模型进行对比,实验结果如图3。

image.png

图3 批处理校正效果对比


3.3 可视化


对于可视化任务,使用Artificially generated trees 3, Artificially generated trees 7,Artificially generated trees 20,random tree generated with diffusion limited aggregation (DLA), intersecting half circles, GMM, scRNA-seq hematopoiesis from Paul et al, CyTOF T cell development from Setty et al,  CyTOF ipsc from Zunder at al,  scRNA-seq retinal bipolar cells from Shekhar et al,  scRNAseq mouse cortex from Zeisel et al数据集与PCA、Monocle2 diffusion maps、UMAP、tSNE、PHATE模型进行对比,precision-recall指标结果如图4。

image.png

图4 precision-recall指标结果对比


3.4 推断


对于推断任务,使用10x mouse cortex数据集,与MAGIC、scImpute、nearest neighbors completion(NN Completion)模型进行对比,预测结果如图5。

image.png

图5 推断


输入标题


效果对比


3.5局限性


SAUCIE模型实质上一个正则自编码器,虽然具有一定的可解释性,但是对部分数据,重建输入可能不是理想的指标,并且全局优化较困难。


4 结论


论文提出了一个多任务神经网络框架SAUCIE,其可以处理聚类、分批处理校正、可视化、推断四个重要任务,在多个数据集上分别比对应任务的主流模型表现出更好效果。到目前为止,深度学习主要作为一种黑盒模型应用在生物医学中,网络内部本身缺乏可解释性;但是论文采用正则化自编码器的结构,提高了模型的可解释性,这给未来处理生物医学数据模型提供了一定的指导意义。




目录
相关文章
|
2月前
|
监控 安全 Linux
在 Linux 系统中,网络管理是重要任务。本文介绍了常用的网络命令及其适用场景
在 Linux 系统中,网络管理是重要任务。本文介绍了常用的网络命令及其适用场景,包括 ping(测试连通性)、traceroute(跟踪路由路径)、netstat(显示网络连接信息)、nmap(网络扫描)、ifconfig 和 ip(网络接口配置)。掌握这些命令有助于高效诊断和解决网络问题,保障网络稳定运行。
84 2
|
3月前
|
监控 安全 网络安全
云计算与网络安全:保护数据的关键策略
【9月更文挑战第34天】在数字化时代,云计算已成为企业和个人存储、处理数据的优选方式。然而,随着云服务的普及,网络安全问题也日益凸显。本文将探讨云计算环境中的网络安全挑战,并提供一系列策略来加强信息安全。从基础的数据加密到复杂的访问控制机制,我们将一探究竟如何在享受云服务便利的同时,确保数据的安全性和隐私性不被侵犯。
71 10
|
10天前
|
人工智能 搜索推荐 决策智能
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
近期研究通过调整网络智能体的观察和动作空间,使其与大型语言模型(LLM)的能力对齐,显著提升了基于LLM的网络智能体性能。AgentOccam智能体在WebArena基准上超越了先前方法,成功率提升26.6个点(+161%)。该研究强调了与LLM训练目标一致的重要性,为网络任务自动化提供了新思路,但也指出其性能受限于LLM能力及任务复杂度。论文链接:https://arxiv.org/abs/2410.13825。
45 12
|
2月前
|
安全 算法 网络安全
量子计算与网络安全:保护数据的新方法
量子计算的崛起为网络安全带来了新的挑战和机遇。本文介绍了量子计算的基本原理,重点探讨了量子加密技术,如量子密钥分发(QKD)和量子签名,这些技术利用量子物理的特性,提供更高的安全性和可扩展性。未来,量子加密将在金融、政府通信等领域发挥重要作用,但仍需克服量子硬件不稳定性和算法优化等挑战。
|
2月前
|
存储 安全 网络安全
云计算与网络安全:保护数据的新策略
【10月更文挑战第28天】随着云计算的广泛应用,网络安全问题日益突出。本文将深入探讨云计算环境下的网络安全挑战,并提出有效的安全策略和措施。我们将分析云服务中的安全风险,探讨如何通过技术和管理措施来提升信息安全水平,包括加密技术、访问控制、安全审计等。此外,文章还将分享一些实用的代码示例,帮助读者更好地理解和应用这些安全策略。
|
2月前
|
弹性计算 安全 容灾
阿里云DTS踩坑经验分享系列|使用VPC数据通道解决网络冲突问题
阿里云DTS作为数据世界高速传输通道的建造者,每周为您分享一个避坑技巧,助力数据之旅更加快捷、便利、安全。本文介绍如何使用VPC数据通道解决网络冲突问题。
97 0
|
2月前
|
安全 网络安全 数据安全/隐私保护
网络安全与信息安全:从漏洞到加密,保护数据的关键步骤
【10月更文挑战第24天】在数字化时代,网络安全和信息安全是维护个人隐私和企业资产的前线防线。本文将探讨网络安全中的常见漏洞、加密技术的重要性以及如何通过提高安全意识来防范潜在的网络威胁。我们将深入理解网络安全的基本概念,学习如何识别和应对安全威胁,并掌握保护信息不被非法访问的策略。无论你是IT专业人士还是日常互联网用户,这篇文章都将为你提供宝贵的知识和技能,帮助你在网络世界中更安全地航行。
|
3月前
|
存储 安全 网络安全
云计算与网络安全:如何保护您的数据
【10月更文挑战第21天】在这篇文章中,我们将探讨云计算和网络安全的关系。随着云计算的普及,网络安全问题日益突出。我们将介绍云服务的基本概念,以及如何通过网络安全措施来保护您的数据。最后,我们将提供一些代码示例,帮助您更好地理解这些概念。
|
3月前
|
机器学习/深度学习 存储 自然语言处理
从理论到实践:如何使用长短期记忆网络(LSTM)改善自然语言处理任务
【10月更文挑战第7天】随着深度学习技术的发展,循环神经网络(RNNs)及其变体,特别是长短期记忆网络(LSTMs),已经成为处理序列数据的强大工具。在自然语言处理(NLP)领域,LSTM因其能够捕捉文本中的长期依赖关系而变得尤为重要。本文将介绍LSTM的基本原理,并通过具体的代码示例来展示如何在实际的NLP任务中应用LSTM。
224 4
|
3月前
|
机器学习/深度学习 数据采集 算法
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)
这篇博客文章介绍了如何使用包含多个网络和多种训练策略的框架来完成多目标分类任务,涵盖了从数据准备到训练、测试和部署的完整流程,并提供了相关代码和配置文件。
71 0
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)

热门文章

最新文章