Nat. Commun. | msiPL:质谱数据分析的新工具

本文涉及的产品
公网NAT网关,每月750个小时 15CU
简介: Nat. Commun. | msiPL:质谱数据分析的新工具

image.png

今天给大家介绍来自哈佛医学院、麻省理工学院以及东北大学(美国)团队发表在Nature Communications上的文章,文章提出一个变分自编码器的概率模型(msiPL)用于学习质谱图像的低维嵌入表示。该模型可分析不同类型质谱仪和不同组织类型的质谱图像;并在3个公开的质谱成像(MSI)数据集以及2个由该论文作者收集整理的MSI数据集上进行了实验,实验结果表明msiPL可以有效的分析这些MSI数据集。


1


研究背景


质谱成像(MSI)是一种用于质谱分析的技术,用于可视化分子(比如生物标志物、代谢物、肽和蛋白质)的空间分布。MSI的快速发展,对解剖病理学以及药物研发产生了重要的影响。研究人员使用计算方法来挖掘MSI数据特征,可以识别具有临床重要性的分子特征并发现新的生物标志物。然而,传统的机器学习技术处理具有高维度的MSI数据面临维度灾难的困境。因此,降维技术被广泛应用于MSI数据分子,比如主成分分析(PCA)和非负矩阵分解(NNMF)等。但是,这些方法都是进行了线形降维,未能捕获谱结构的非线性特征。与此同时,非线性降维方法t-SNE近年来被用于组学数据分析。但是t-SNE方法需要将所有数据都加载到内存,这对于MSI的大量数据是没法做到的。最近有研究提出,采用基于神经网络的自动编码方法相比于线形降维模型具有更加有效地捕获非线性特征的能力。因此,该论文提出了一种基于神经网络的变分自动编码方法msiPL,不需要峰值预处理的操作可以直接输入MSI数据到模型中,并且该模型可以分析不同类型的MSI数据。


2


主要贡献


该论文提出了一个基于变分自编码器神经网络的深度学习模型msiPL,该模型可以更加有效的学习MSI数据集的低维嵌入特征表示,用于MSI数据的峰值学习。


3


模型


数据


该论文一共使用了5个MSI数据集,包括3个来自于公开数据库的数据集,分别是1)人结直肠腺癌的3D DESI MSI数据集,2)人口腔鳞状细胞癌的3D MALDI MSI数据集,3)小鼠肾的3D MALDI MSI数据集来自于公开数据库。以及论文作者收集整理的两个MSI数据集,4)人类前列腺癌的2D MALDI MSI数据集,和5)胶质母细胞瘤的PDX小鼠脑模型的3D MALDI FT-ICR MSI数据集。这些MSI数据集需要从标准化格式imzML转换为HDF5格式以输入到msiPL模型中。

image.png

图1 msiPL框架图

方法

模型输入MSI数据的高维度特征表示,输出MSI数据降维之后的特征表示,模型msiPL框架如图1所示。该模型是基于变分自编码器(VAE)的结构,VAE旨在同时优化用于变分推理的概率编码器和概率解码器。将MSI数据表示如下:

image.png

其中N为样本数;假设x可以从一个与低维度的隐变量z有关的分布中随机采样,而z是可以从一个先验分布pθ中采样,x是可以从一个条件概率分布采样,则真实的pθ后验分布可以获得MSI数据的低维表示;由于x的高维特性使得后验分布pθ在计算上难以处理,因此引入了一个qψ分布来近似pθ分布,并且假定qψ是从一个均值为μ和方差为σ的分布中采样得到:

image.png

然后变分参数ψ是通过使得qψ和后验分布pθ更加接近来估计的。这里采用KL散度来衡量两个分布的接近程度:

image.png

其中VAE的编码器和解码器的参数都是通过神经网络优化损失函数来计算的,优化的损失函数如下:

image.png

该损失函数的第一项充当编码器的正则化器,它计算近似后验和先验之间的接近度,第二项为交叉熵的预测误差的期望值。该模型的VAE网络结构如图2,其由5层全连接层组成,即输入层,三个隐含层和输出层;神经元数分别是512,5,512,则隐含层h2的输出为MSI数据的低维嵌入表示。

image.png

图2 VAE结构图


4


实验


为验证模型的有效性,在3个公开的MSI数据集以及2个由该论文作者收集整理的MSI数据集上进行了实验。限于篇幅,这里主要介绍在2个由论文作者收集整理的MSI数据集上的实验。


分析来自人前列腺癌组织标本的FT-ICR MSI 数据


来自人前列腺癌组织标本的FT-ICR MSI数据含有12716个像素,每个像素是一个高维度的数据点,其含有730403个m/z(质荷比)值。使用msiPL模型在该数据集上进行降维和可视化实验,其VAE网络损失函数下降结果如图3(a),即模型在不到100次迭代后收敛;图3(b)给出了原始数据和预测数据的光谱分布,它们的叠加反映了模型的高质量估计;图3(c)表示模型在该数据集上的非线性嵌入的可视化结果。

image.png

图3 在人前列腺癌组织标本的FT-ICR MSI 数据上的实验结果


在胶质母细胞瘤的PDX小鼠脑模型中识别肿瘤特异性代谢特征


从胶质母细胞瘤(GBM12)小鼠脑模型中采集了四个12µm厚度的连续组织切片,并通过MALDI FT-ICR MSI进行分析。该MSI数据非常稀疏,由3570个光谱组成,每个光谱661402个m/z值。使用msiPL模型在该数据集上进行降维和可视化实验,图4(a)表面VAE网络的损失在不到100次迭代内达到稳定收敛,图4(b)表示在误差内预测数据的光谱分布;图4(c)表示模型在该数据集上的非线性嵌入的可视化结果;将学习到的低维嵌入特征使用高斯混合模型(参数k=8)进行聚类,聚类图像(图4 d)揭示了分子上不同的组织区域,例如异质性肿瘤区域(簇2和簇8)和肿瘤边缘(簇4);图4(e)给出了原始数据和预测数据的光谱分布。

image.png

图4 在胶质母细胞瘤的PDX小鼠脑模型中识别肿瘤特异性代谢特征的实验结果


5


总结


研究计算方法来挖掘MSI数据特征,可以识别具有临床重要性的分子特征并发现新的生物标志物。然而,现有的计算模型处理高维稀疏的MSI数据存在一定的局限性。因此,该论文提出了一种基于VAE神经网络结构的模型msiPL,用于分析和学习来自不同类型质谱仪和组织类型的MSI数据。并在五个不同的MSI数据集上进行了实验,结果表明msiPL在分析这些MSI数据集上是有效的。该论文作者表示其未来研究方向是设计模型来完成直接从质谱数据中对肿瘤类型和等级进行分类和预测的任务。


相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
基于阿里云,构建一个企业web应用上云经典架构,让IT从业者体验企业级架构的实战训练。
目录
相关文章
|
4月前
|
JSON 数据挖掘 API
结合数据分析工具,深入挖掘淘宝API接口的商业价值
随着电子商务的蓬勃发展,淘宝作为国内领先的电商平台,不仅为消费者提供了便捷的购物环境,同时也为开发者和数据分析师提供了丰富的数据资源。通过有效地调用淘宝API接口获取商品详情,再结合数据分析工具进行深入的数据挖掘,可以为商家、市场分析师及研究人员等带来巨大的商业价值
|
5月前
|
数据采集 数据可视化 数据挖掘
2019 年排名前6的数据分析工具
2019 年排名前6的数据分析工具
|
4月前
|
数据可视化 数据挖掘 Java
提升代码质量与效率的利器——SonarQube静态代码分析工具从数据到洞察:探索Python数据分析与科学计算库
在现代软件开发中,保证代码质量是至关重要的。本文将介绍SonarQube静态代码分析工具的概念及其实践应用。通过使用SonarQube,开发团队可以及时发现和修复代码中的问题,提高代码质量,从而加速开发过程并减少后期维护成本。 在当今信息爆炸的时代,数据分析和科学计算成为了决策和创新的核心。本文将介绍Python中强大的数据分析与科学计算库,包括NumPy、Pandas和Matplotlib,帮助读者快速掌握这些工具的基本用法和应用场景。无论是数据处理、可视化还是统计分析,Python提供了丰富的功能和灵活性,使得数据分析变得更加简便高效。
|
1月前
|
机器学习/深度学习 数据采集 数据可视化
Python数据分析入门:基础知识与必备工具
【4月更文挑战第12天】Python是大数据时代数据分析的热门语言,以其简单易学和丰富库资源备受青睐。本文介绍了Python数据分析基础,包括Python语言特点、数据分析概念及其优势。重点讲解了NumPy、Pandas、Matplotlib、Seaborn和Scikit-learn等必备工具,它们分别用于数值计算、数据处理、可视化和机器学习。此外,还概述了数据分析基本流程,从数据获取到结果展示。掌握这些知识和工具,有助于初学者快速入门Python数据分析。
|
4月前
|
数据挖掘 数据安全/隐私保护 Python
【Python数据分析】<数据分析工具>基于Excel的数据分析
【1月更文挑战第22天】【Python数据分析】<数据分析工具>基于Excel的数据分析
|
6月前
|
数据挖掘 Python
【Python】数据分析:结构化数分工具 Pandas | Series 与 DataFrame | 读取CSV文件数据
【Python】数据分析:结构化数分工具 Pandas | Series 与 DataFrame | 读取CSV文件数据
53 1
|
16天前
|
Linux 网络安全 数据处理
【专栏】Linux下的xxd命令是一个强大的二进制数据处理工具,用于十六进制转储和数据分析,我教你应该如何使用!
【4月更文挑战第28天】Linux下的xxd命令是一个强大的二进制数据处理工具,用于十六进制转储和数据分析。它可以显示文件的十六进制和ASCII表示,方便查看内容、分析数据结构和比较文件。xxd支持指定输出格式、写入文件、数据提取和转换等功能。在网络安全分析、程序调试和数据恢复等领域有广泛应用。通过掌握xxd,用户能更深入理解和处理二进制数据。
|
19天前
|
数据采集 数据可视化 数据挖掘
R语言与Python:比较两种数据分析工具
【4月更文挑战第25天】R语言和Python是目前最流行的两种数据分析工具。本文将对这两种工具进行比较,包括它们的历史、特点、应用场景、社区支持、学习资源、性能等方面,以帮助读者更好地了解和选择适合自己的数据分析工具。
|
25天前
|
机器学习/深度学习 数据可视化 数据挖掘
python数据分析工具StatsModels
【4月更文挑战第15天】`StatsModels`是Python的统计库,基于NumPy和SciPy,提供线性模型、广义线性模型、稳健回归、时间序列分析等多样功能。支持离散选择模型、方差分析和非参数统计,还包含图形和可视化工具。安装`StatsModels`可使用`pip install statsmodels`。示例展示了如何进行普通最小二乘回归并绘制回归线。该库适用于数据分析和预测建模。
20 1
|
25天前
|
机器学习/深度学习 数据挖掘 计算机视觉
python数据分析工具SciPy
【4月更文挑战第15天】SciPy是Python的开源库,用于数学、科学和工程计算,基于NumPy扩展了优化、线性代数、积分、插值、特殊函数、信号处理、图像处理和常微分方程求解等功能。它包含优化、线性代数、积分、信号和图像处理等多个模块。通过SciPy,可以方便地执行各种科学计算任务。例如,计算高斯分布的PDF,需要结合NumPy使用。要安装SciPy,可以使用`pip install scipy`命令。这个库极大地丰富了Python在科学计算领域的应用。
15 1