今天给大家介绍来自哈佛医学院、麻省理工学院以及东北大学(美国)团队发表在Nature Communications上的文章,文章提出一个变分自编码器的概率模型(msiPL)用于学习质谱图像的低维嵌入表示。该模型可分析不同类型质谱仪和不同组织类型的质谱图像;并在3个公开的质谱成像(MSI)数据集以及2个由该论文作者收集整理的MSI数据集上进行了实验,实验结果表明msiPL可以有效的分析这些MSI数据集。
1
研究背景
质谱成像(MSI)是一种用于质谱分析的技术,用于可视化分子(比如生物标志物、代谢物、肽和蛋白质)的空间分布。MSI的快速发展,对解剖病理学以及药物研发产生了重要的影响。研究人员使用计算方法来挖掘MSI数据特征,可以识别具有临床重要性的分子特征并发现新的生物标志物。然而,传统的机器学习技术处理具有高维度的MSI数据面临维度灾难的困境。因此,降维技术被广泛应用于MSI数据分子,比如主成分分析(PCA)和非负矩阵分解(NNMF)等。但是,这些方法都是进行了线形降维,未能捕获谱结构的非线性特征。与此同时,非线性降维方法t-SNE近年来被用于组学数据分析。但是t-SNE方法需要将所有数据都加载到内存,这对于MSI的大量数据是没法做到的。最近有研究提出,采用基于神经网络的自动编码方法相比于线形降维模型具有更加有效地捕获非线性特征的能力。因此,该论文提出了一种基于神经网络的变分自动编码方法msiPL,不需要峰值预处理的操作可以直接输入MSI数据到模型中,并且该模型可以分析不同类型的MSI数据。
2
主要贡献
该论文提出了一个基于变分自编码器神经网络的深度学习模型msiPL,该模型可以更加有效的学习MSI数据集的低维嵌入特征表示,用于MSI数据的峰值学习。
3
模型
数据
该论文一共使用了5个MSI数据集,包括3个来自于公开数据库的数据集,分别是1)人结直肠腺癌的3D DESI MSI数据集,2)人口腔鳞状细胞癌的3D MALDI MSI数据集,3)小鼠肾的3D MALDI MSI数据集来自于公开数据库。以及论文作者收集整理的两个MSI数据集,4)人类前列腺癌的2D MALDI MSI数据集,和5)胶质母细胞瘤的PDX小鼠脑模型的3D MALDI FT-ICR MSI数据集。这些MSI数据集需要从标准化格式imzML转换为HDF5格式以输入到msiPL模型中。
图1 msiPL框架图
方法
模型输入MSI数据的高维度特征表示,输出MSI数据降维之后的特征表示,模型msiPL框架如图1所示。该模型是基于变分自编码器(VAE)的结构,VAE旨在同时优化用于变分推理的概率编码器和概率解码器。将MSI数据表示如下:
其中N为样本数;假设x可以从一个与低维度的隐变量z有关的分布中随机采样,而z是可以从一个先验分布pθ中采样,x是可以从一个条件概率分布采样,则真实的pθ后验分布可以获得MSI数据的低维表示;由于x的高维特性使得后验分布pθ在计算上难以处理,因此引入了一个qψ分布来近似pθ分布,并且假定qψ是从一个均值为μ和方差为σ的分布中采样得到:
然后变分参数ψ是通过使得qψ和后验分布pθ更加接近来估计的。这里采用KL散度来衡量两个分布的接近程度:
其中VAE的编码器和解码器的参数都是通过神经网络优化损失函数来计算的,优化的损失函数如下:
该损失函数的第一项充当编码器的正则化器,它计算近似后验和先验之间的接近度,第二项为交叉熵的预测误差的期望值。该模型的VAE网络结构如图2,其由5层全连接层组成,即输入层,三个隐含层和输出层;神经元数分别是512,5,512,则隐含层h2的输出为MSI数据的低维嵌入表示。
图2 VAE结构图
4
实验
为验证模型的有效性,在3个公开的MSI数据集以及2个由该论文作者收集整理的MSI数据集上进行了实验。限于篇幅,这里主要介绍在2个由论文作者收集整理的MSI数据集上的实验。
分析来自人前列腺癌组织标本的FT-ICR MSI 数据
来自人前列腺癌组织标本的FT-ICR MSI数据含有12716个像素,每个像素是一个高维度的数据点,其含有730403个m/z(质荷比)值。使用msiPL模型在该数据集上进行降维和可视化实验,其VAE网络损失函数下降结果如图3(a),即模型在不到100次迭代后收敛;图3(b)给出了原始数据和预测数据的光谱分布,它们的叠加反映了模型的高质量估计;图3(c)表示模型在该数据集上的非线性嵌入的可视化结果。
图3 在人前列腺癌组织标本的FT-ICR MSI 数据上的实验结果
在胶质母细胞瘤的PDX小鼠脑模型中识别肿瘤特异性代谢特征
从胶质母细胞瘤(GBM12)小鼠脑模型中采集了四个12µm厚度的连续组织切片,并通过MALDI FT-ICR MSI进行分析。该MSI数据非常稀疏,由3570个光谱组成,每个光谱661402个m/z值。使用msiPL模型在该数据集上进行降维和可视化实验,图4(a)表面VAE网络的损失在不到100次迭代内达到稳定收敛,图4(b)表示在误差内预测数据的光谱分布;图4(c)表示模型在该数据集上的非线性嵌入的可视化结果;将学习到的低维嵌入特征使用高斯混合模型(参数k=8)进行聚类,聚类图像(图4 d)揭示了分子上不同的组织区域,例如异质性肿瘤区域(簇2和簇8)和肿瘤边缘(簇4);图4(e)给出了原始数据和预测数据的光谱分布。
图4 在胶质母细胞瘤的PDX小鼠脑模型中识别肿瘤特异性代谢特征的实验结果
5
总结
研究计算方法来挖掘MSI数据特征,可以识别具有临床重要性的分子特征并发现新的生物标志物。然而,现有的计算模型处理高维稀疏的MSI数据存在一定的局限性。因此,该论文提出了一种基于VAE神经网络结构的模型msiPL,用于分析和学习来自不同类型质谱仪和组织类型的MSI数据。并在五个不同的MSI数据集上进行了实验,结果表明msiPL在分析这些MSI数据集上是有效的。该论文作者表示其未来研究方向是设计模型来完成直接从质谱数据中对肿瘤类型和等级进行分类和预测的任务。