Nat. Commun. | msiPL:质谱数据分析的新工具

本文涉及的产品
公网NAT网关,每月750个小时 15CU
简介: Nat. Commun. | msiPL:质谱数据分析的新工具

image.png

今天给大家介绍来自哈佛医学院、麻省理工学院以及东北大学(美国)团队发表在Nature Communications上的文章,文章提出一个变分自编码器的概率模型(msiPL)用于学习质谱图像的低维嵌入表示。该模型可分析不同类型质谱仪和不同组织类型的质谱图像;并在3个公开的质谱成像(MSI)数据集以及2个由该论文作者收集整理的MSI数据集上进行了实验,实验结果表明msiPL可以有效的分析这些MSI数据集。


1


研究背景


质谱成像(MSI)是一种用于质谱分析的技术,用于可视化分子(比如生物标志物、代谢物、肽和蛋白质)的空间分布。MSI的快速发展,对解剖病理学以及药物研发产生了重要的影响。研究人员使用计算方法来挖掘MSI数据特征,可以识别具有临床重要性的分子特征并发现新的生物标志物。然而,传统的机器学习技术处理具有高维度的MSI数据面临维度灾难的困境。因此,降维技术被广泛应用于MSI数据分子,比如主成分分析(PCA)和非负矩阵分解(NNMF)等。但是,这些方法都是进行了线形降维,未能捕获谱结构的非线性特征。与此同时,非线性降维方法t-SNE近年来被用于组学数据分析。但是t-SNE方法需要将所有数据都加载到内存,这对于MSI的大量数据是没法做到的。最近有研究提出,采用基于神经网络的自动编码方法相比于线形降维模型具有更加有效地捕获非线性特征的能力。因此,该论文提出了一种基于神经网络的变分自动编码方法msiPL,不需要峰值预处理的操作可以直接输入MSI数据到模型中,并且该模型可以分析不同类型的MSI数据。


2


主要贡献


该论文提出了一个基于变分自编码器神经网络的深度学习模型msiPL,该模型可以更加有效的学习MSI数据集的低维嵌入特征表示,用于MSI数据的峰值学习。


3


模型


数据


该论文一共使用了5个MSI数据集,包括3个来自于公开数据库的数据集,分别是1)人结直肠腺癌的3D DESI MSI数据集,2)人口腔鳞状细胞癌的3D MALDI MSI数据集,3)小鼠肾的3D MALDI MSI数据集来自于公开数据库。以及论文作者收集整理的两个MSI数据集,4)人类前列腺癌的2D MALDI MSI数据集,和5)胶质母细胞瘤的PDX小鼠脑模型的3D MALDI FT-ICR MSI数据集。这些MSI数据集需要从标准化格式imzML转换为HDF5格式以输入到msiPL模型中。

image.png

图1 msiPL框架图

方法

模型输入MSI数据的高维度特征表示,输出MSI数据降维之后的特征表示,模型msiPL框架如图1所示。该模型是基于变分自编码器(VAE)的结构,VAE旨在同时优化用于变分推理的概率编码器和概率解码器。将MSI数据表示如下:

image.png

其中N为样本数;假设x可以从一个与低维度的隐变量z有关的分布中随机采样,而z是可以从一个先验分布pθ中采样,x是可以从一个条件概率分布采样,则真实的pθ后验分布可以获得MSI数据的低维表示;由于x的高维特性使得后验分布pθ在计算上难以处理,因此引入了一个qψ分布来近似pθ分布,并且假定qψ是从一个均值为μ和方差为σ的分布中采样得到:

image.png

然后变分参数ψ是通过使得qψ和后验分布pθ更加接近来估计的。这里采用KL散度来衡量两个分布的接近程度:

image.png

其中VAE的编码器和解码器的参数都是通过神经网络优化损失函数来计算的,优化的损失函数如下:

image.png

该损失函数的第一项充当编码器的正则化器,它计算近似后验和先验之间的接近度,第二项为交叉熵的预测误差的期望值。该模型的VAE网络结构如图2,其由5层全连接层组成,即输入层,三个隐含层和输出层;神经元数分别是512,5,512,则隐含层h2的输出为MSI数据的低维嵌入表示。

image.png

图2 VAE结构图


4


实验


为验证模型的有效性,在3个公开的MSI数据集以及2个由该论文作者收集整理的MSI数据集上进行了实验。限于篇幅,这里主要介绍在2个由论文作者收集整理的MSI数据集上的实验。


分析来自人前列腺癌组织标本的FT-ICR MSI 数据


来自人前列腺癌组织标本的FT-ICR MSI数据含有12716个像素,每个像素是一个高维度的数据点,其含有730403个m/z(质荷比)值。使用msiPL模型在该数据集上进行降维和可视化实验,其VAE网络损失函数下降结果如图3(a),即模型在不到100次迭代后收敛;图3(b)给出了原始数据和预测数据的光谱分布,它们的叠加反映了模型的高质量估计;图3(c)表示模型在该数据集上的非线性嵌入的可视化结果。

image.png

图3 在人前列腺癌组织标本的FT-ICR MSI 数据上的实验结果


在胶质母细胞瘤的PDX小鼠脑模型中识别肿瘤特异性代谢特征


从胶质母细胞瘤(GBM12)小鼠脑模型中采集了四个12µm厚度的连续组织切片,并通过MALDI FT-ICR MSI进行分析。该MSI数据非常稀疏,由3570个光谱组成,每个光谱661402个m/z值。使用msiPL模型在该数据集上进行降维和可视化实验,图4(a)表面VAE网络的损失在不到100次迭代内达到稳定收敛,图4(b)表示在误差内预测数据的光谱分布;图4(c)表示模型在该数据集上的非线性嵌入的可视化结果;将学习到的低维嵌入特征使用高斯混合模型(参数k=8)进行聚类,聚类图像(图4 d)揭示了分子上不同的组织区域,例如异质性肿瘤区域(簇2和簇8)和肿瘤边缘(簇4);图4(e)给出了原始数据和预测数据的光谱分布。

image.png

图4 在胶质母细胞瘤的PDX小鼠脑模型中识别肿瘤特异性代谢特征的实验结果


5


总结


研究计算方法来挖掘MSI数据特征,可以识别具有临床重要性的分子特征并发现新的生物标志物。然而,现有的计算模型处理高维稀疏的MSI数据存在一定的局限性。因此,该论文提出了一种基于VAE神经网络结构的模型msiPL,用于分析和学习来自不同类型质谱仪和组织类型的MSI数据。并在五个不同的MSI数据集上进行了实验,结果表明msiPL在分析这些MSI数据集上是有效的。该论文作者表示其未来研究方向是设计模型来完成直接从质谱数据中对肿瘤类型和等级进行分类和预测的任务。


相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
目录
相关文章
|
9天前
|
机器学习/深度学习 并行计算 数据挖掘
R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域
【10月更文挑战第21天】R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域。本文将介绍R语言中的一些高级编程技巧,包括函数式编程、向量化运算、字符串处理、循环和条件语句、异常处理和性能优化等方面,以帮助读者更好地掌握R语言的编程技巧,提高数据分析的效率。
27 2
|
9天前
|
数据采集 数据可视化 数据挖掘
R语言与Python:比较两种数据分析工具
R语言和Python是目前最流行的两种数据分析工具。本文将对这两种工具进行比较,包括它们的历史、特点、应用场景、社区支持、学习资源、性能等方面,以帮助读者更好地了解和选择适合自己的数据分析工具。
16 2
|
5月前
|
文字识别 算法 数据挖掘
视觉智能开放平台产品使用合集之对于统计研究和数据分析,有哪些比较好的工具推荐
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
6月前
|
数据可视化 数据挖掘 BI
数据分析工具
【5月更文挑战第17天】数据分析工具
67 6
|
4月前
|
机器学习/深度学习 数据可视化 数据挖掘
Python数据分析工具有哪些
【7月更文挑战第3天】Python数据分析工具有哪些
164 58
|
3月前
|
SQL 数据挖掘 关系型数据库
|
4月前
|
人工智能 数据挖掘 Python
提升办公生产力工具——AI数据分析应用小浣熊
办公小浣熊广泛应用于日常数据分析、财务分析、商业分析、销售预测、市场分析等多个领域,为用户提供了强大的支持。
提升办公生产力工具——AI数据分析应用小浣熊
|
4月前
|
数据挖掘 大数据 Linux
探索Linux中的snice命令:一个虚构但启发性的数据分析工具
`snice`是一个想象中的Linux命令,用于低优先级地从大数据集中抽样数据。它结合`nice`和`sampling`,支持多种抽样策略,如随机和分层。参数包括指定样本数、策略、输入输出文件和进程优先级。示例:`snice -n 1000 -s random -i large_log.txt -o sample_log.txt`。使用时注意资源管理、数据完整性及权限,并与其它工具结合使用。虽然虚构,但体现了Linux工具在数据分析中的潜力。
|
4月前
|
数据可视化 数据挖掘 API
数据可视化秘籍聚焦Python的Matplotlib和Seaborn库,它们是数据分析的得力工具。
【7月更文挑战第5天】数据可视化秘籍聚焦Python的Matplotlib和Seaborn库,它们是数据分析的得力工具。Matplotlib是基础库,提供高度自定义的2D图表,而Seaborn在其上构建,提供美观的统计图形。文章介绍了如何用两者画线图、散点图、条形图、饼图和直方图,展示数据趋势和关系。
41 1
|
5月前
|
数据可视化 数据挖掘 知识图谱
精选:15款顶尖Python知识图谱(关系网络)绘制工具,数据分析的强力助手
这里有15款免费工具推荐:NetworkX(Python基础),Graph-tool(C++速度),Graphviz(可视化库),ipycytoscape(Jupyter集成),ipydagred3,ipySigma(NetworkX + Web),Netwulf(交互式),nxviz(Matplotlib绑定),Py3plex(复杂网络分析),Py4cytoscape(Python+Cytoscape),pydot(Graphviz接口),PyGraphistry(GPU加速),python-igraph,pyvis(交互式图形),SNAP(大规模网络分析)。绘制和理解网络图从未如此简单!
314 0