高维生物数据的可视化能帮助研究者以直观的方式了解数据。今天介绍2019年12月发表在Nature Biotechnology的可视化工作。
1
研究背景
高维数据需要可视化工具,以直观的方式显示数据结构和模式。目前的降维可视化技术存在一些问题,如对噪声敏感、不能同时捕获数据的局部和全局非线性结构、受内存和运算时间的限制无法运用到大数据集上。为解决这些问题,犹他州立大学的 Kevin R. Moon等研究人员提出了一种新的可视化方法PHATE,它使用数据点之间的信息几何距离来捕获局部和全局非线性结构,能够在可视化过程中对数据进行降噪。与其他工具相比,PHATE能够更好地保留数据的一系列模式,包括连续变化、分支和聚类,适用于多种数据类型,包括大规模细胞计数、单细胞RNA测序、Hi-C和肠道微生物组数据。
2
PHATE
为实现PHATE方法,Kevin R. Moon等研究人员结合了流形学习、信息几何、扩散几何思想,PHATE提供的可视化结果,能够保留数据的局部和全局结构、对数据进行降噪并在转换成低维度时尽可能提供更多的信息。研究人员使用PHATE可视化了几个生物和非生物真实世界数据集,结果(如图1)显示,PHATE能够可视化具有不同潜在结构的数据集,包括轨迹、簇、相交的流形等等,与PCA和t-.SNE相比,PHATE最能表示数据的全局和局部结构。
图1 PHATE概述及其在数据中显示结构的能力
PHATE算法可总结为三个步骤
1. 通过局部相似性对局部数据信息进行编码。
2. 使用势距离对数据中的全局关系进行编码。在这一步执行扩散,将局部相似度转换为从一个数据点跃迁到另一个数据点的概率,然后推广到t步,计算通过t步游走从一个数据点跃迁到另一个数据点的概率,局部和全局流形距离都在新计算的概率中得以表示,这种概率被称为扩散概率。通过考虑所有可能的随机游走,扩散过程可降低噪声所产生的伪路径的权重来对数据进行去噪。
另外,通过特征值分解将扩散概率直接嵌入二维和三维会造成信息丢失或不稳定嵌入现象。为解决这一问题,研究人员将每个点对所有其他点的扩散概率解释为“数据点的全局上下文”,并得出每对细胞之间的信息理论势距离以比较全局上下文,通过计算两个细胞与所有其他细胞的关联扩散概率分布之间的差异求得势距离,再将势距离信息嵌入到低维。
3. 将势距离信息嵌入低维进行可视化。通过度量MDS算法将势距离中的信息压缩到低维度以进行可视化,该MDS通过将低维度空间中的距离与输入距离进行匹配来创建嵌入。
表1对这些步骤进行了概述:
表1 PHATE算法中的一般步骤
3
方法
3.1距离保存
在大多数情况下,局部转移有噪声且全局转移是非线性的,诸如全局方差最大化这样的线性方法不足以捕获数据中的潜在模式,而且它们通常会产生有噪声的可视化。为了提供能够强调数据转移的结构保存,需要保持数据点之间的距离来保存数据的内在结构,数据点之间的变化是非线性转移、逐渐变化的(图 2a,b)。
3.2局部相似与扩散算子
在具有非线性和噪声结构的生物数据集中,全局欧氏距离并不能反映数据转移。因此,研究人员将全局欧氏距离转化为局部相似性,以量化欧几里得空间数据点之间的相似之处(图 2c)。
将全局距离转换为局部相似性时,使用一个高斯核函数根据x和y之间的欧几里得距离来量化两者之间的相似性,:
其中带宽ε用于确定核函数捕获的邻域半径。
一个可靠的结构嵌入及可视化不仅需要超越局部的相似性,还需要考虑数据各部分之间的全局关系。研究人员通过构造一个扩散几何结构来学习和表示数据的形状,这种构造基于数据点之间的局部相似性,使用马尔可夫随机游走扩散过程在数据中扩散,从而推断出更多的全局关系(图 2d)。
随机游走中的初始概率是通过归一核矩阵中行的总和来计算的,在使用上述高斯核的情况下得到以下结果:
Pz是一个马尔可夫转移矩阵,这个矩阵也称为扩散算子。
3.3势距离
为解决扩散距离不稳定的问题,将扩散几何所捕捉到的全局结构嵌入到低维中时,使用一种新的基于扩散的信息距离,称之为势距离(图 2e)。为了将概率空间转为能量空间,研究人员对幂扩散算子中的概率进行对数变换,并将数据中的局部能量势之间的L2距离视为固有数据距离。
数学上,对于
将t阶势距离定义为:
3.4将势距离嵌入低维
一种流行的嵌入扩散几何的方法是利用扩散算子的位置来建立数据的扩散映射,然而这种方法倾向于将进展轨迹分离成许多扩散坐标。虽然扩散图保持全局结构并对数据进行去噪,但其较高的内在维数不适合于可视化,所以研究人员使用度量MDS方法将可变性压缩到低维(图 2f)。
图2 PHATE算法的主要步骤
4
实验
4.1从PHATE中提取信息
PHATE嵌入包含大量关于数据结构的信息,包括局部转移、进化、分支以及进化的结束状态。可根据高维PHATE嵌入的信息确定端点,分支点和分支,如图2。这些可能并不总是对应于实际的决策点,但能帮助用户解释PHATE可视化。
图2 从PHATE中提取分支和分支点
4.2用PHATE进行数据探测
PHATE可以为各种数据类型揭示数据的潜在结构,其可视化中的可识别轨迹具有生物学意义,这一点体现在基因表达的模式、基因表达与沿轨迹排列的细胞之间的信息中。
5
总结
PHATE通过创建一个基于扩散的信息几何图形实现去噪可视化,它使用数据点之间的信息几何距离来捕获局部和全局非线性结构。PHATE能够揭示人类感兴趣的视觉结构、在几个小时内处理数百万个数据点,提供了一种对大规模高维数据进行可视化、探索和提取信息的新方法。研究人员希望在高通量基因组学、表型分型和许多其它领域中有大量生物或非生物数据都能够从PHATE中受益,相信PHATE将为生物医学数据的探索带来革命性的变革。