空间分辨转录组学的最新进展使得能够全面测量基因表达模式,同时保留组织微环境的空间背景。破译组织中斑点的空间背景需要仔细使用它们的空间信息。为此,中国科学院的研究人员开发了一个图注意自动编码器框架STAGATE,通过集成空间信息和基因表达轮廓,来学习低维潜嵌件,进而准确地识别空间域。为了更好地表征空间域的边界处的空间相似性,通过对基因表达的预聚类来自适应地学习相邻点的相似性,采用注意机制来自适应地学习相同的细胞类型感知模块。研究人员验证了不同平台生成的不同空间分辨率生成的不同空间转录组数据集的STAGATE。STAGATE可以大大提高空间域的识别准确性,并在保持空间表达式模式的同时去噪。重要的是,STAGATE 可以扩展到多个连续的部分,以减少部分之间的批次效应并有效地从重建的 3D 组织中提取三维(3D)表达域。该研究以「Deciphering spatial domains from spatially resolved transcriptomics with an adaptive graph attention auto-encoder」为题,于 2022 年 4 月 1 日发布在《Nature Communications》。复杂组织的功能从根本上与不同细胞类型的空间背景有关。组织中转录表达的相对位置对于理解其生物学功能和描述交互式生物网络至关重要。空间分辨转录组学(STs)的突破性技术,如 10x Visium、Slide-seq、Stereo-seq 和 PIXEL-seq,已经能够以多个细胞甚至亚细胞水平的分辨率对捕获位置的基因表达进行全基因组分析。破译空间域(即具有相似空间表达模式的区域)是 ST 面临的巨大挑战之一。例如,人类大脑皮层的层状组织与其生物学功能特别相关,其中位于不同皮层的细胞在表达、形态和生理方面往往不同。大多数现有的聚类方法都没有有效地使用可用的空间信息。这些非空间方法大致可以分为两类。第一类使用传统的聚类方法,如 k-means 和 Louvain 算法。这些方法根据 ST 技术的不同分辨率仅限于斑点数量少或稀疏的情况,并且在组织切片中聚类结果可能是不连续的。第二类别利用单细胞 RNA-SEQ 定义的细胞型签名来解构斑点。它们不适用于细胞或亚细胞分辨率水平的 ST 数据。近期有些新算法通过考虑相邻斑点之间的相似性来调整聚类方法,以更好地占基因表达的空间依赖性。这些方法显示出鉴定脑和癌组织部分的空间域的显着改善。例如,Bayesspace 是一种贝叶斯统计方法,通过将空间邻居结构引入之前,鼓励邻近的斑点属于同一群集。Giotto 通过先前通过使用空间邻居实现隐藏的 Markov 随机字段(HMRF)模型来识别空间域。STLEarn 基于从组织学图像提取的特征来定义形态距离,并利用这种距离以及空间邻居结构以平滑基因表达。SEDR 采用深度自动编码器网络,用于学习基因表示,并使用变形图自动编码器来同时嵌入空间信息。Spagcn 还应用图形卷积网络,以集成基因表达和空间位置,并与自我监控模块相结合以识别域。此外,最近的开发方法命名为 repept 利用监督的图像分割方法来执行组织结构识别。虽然这些方法考虑STS的空间结构,但是在训练之前预先定义了它们的相邻点的相似性,并且不能自适应地学习。此外,这些方法不再考虑空间域边界的斑点的空间相似性,并且不再整合空间信息以赋予和脱卵基因表达。更重要的是,这些方法不能应用于多个连续部分来重建三维 (3D) ST 模型并提取 3D 表达域。图示:STAGATE 概述。(来源:论文)在这里,研究人员开发了一种快速和用户友好的空间域识别方法 STAGATE,它可以通过将 Scanpy 包的「AnnData」对象作为输入来无缝地集成到标准分析工作流程中。STAGATE 将空间位置信息转换为 SNN,并进一步采用图注意力自动编码器来集成 SNN 和表达式配置文件。图示:STAGATE 改进了人类背外侧前额叶皮层 (DLPFC) 组织中层结构的识别。(来源:论文)研究人员在不同空间分辨率的不同平台生成的各种 ST 数据上测试了 STAGATE 的性能。他们发现,精确揭示了人类背外侧前额叶皮层(DLPFC)和小鼠嗅灯泡的层流组织。此外,STAGATE 鉴定了海马的已知组织结构,清楚地覆盖了它的空间域。另外还证明了通过与 ISH 图像进行比较来表达表达脱落的能力。最后,他们说明了STAGATE 在伪 3D ST 模型中的连续部分和提取 3D 表达域之间缓解批量效应的能力。图示:STAGATE改善了小鼠海马组织中已知组织结构的鉴定。STAGATE 的成功主要归功于使用图注意力机制来考虑空间邻居信息。然而,当前的 STAGATE 侧重于表达谱和空间信息的整合,并没有利用组织学图像。现有方法采用组织学图像作为输入,如STLEARN,在比较中没有达到良好的性能。STLEarn采用预先训练的神经网络来提取图像的特征,进一步通过余弦距离计算形态距离。研究人员认为,这种预定义的方法不利用深度学习的灵活性,并且可以扩展注意机制以方便地整合组织学图像特征。在该研究中,研究人员主要关注基于测序的 ST 数据,这些数据没有以单细胞分辨率进行表征。他们进一步将 STAGATE 应用于由 STARMAP 技术生成的单细胞分辨率的基于图像的 ST 数据集,其中包括 1207 细胞上 1020 个基因的表达。将专家注释结构作为黄金标准,与其他五种方法相比,STAGATE 的聚类精度最高(ARI = 0.544),而 SpaGCN 排名第二(ARI = 0.484)。此外,鉴于空间域识别与基于图像的 ST 数据的单细胞分割之间的联系,研究人员期望 STAGATE 的思想可以在不久的将来扩展到正在进行的亚细胞分辨率技术的单细胞分割任务中。还希望通过使用新技术生成的数据集来提高其适用性。图示:STAGATE增强了DLPFC数据集中层标记基因的空间模式。(来源:论文)STARGATE 可以处理不同空间分辨率的 SET 数据。通常,由于相邻点之间的高度相似性,STARGATE 对细胞或亚细胞分辨率的 ST 数据表现更好。对于空间分辨率相对较低的技术,该团队引入了细胞类型感知模块来描述异构空间相似性。然而,STAGATE 的一个潜在限制是它将来自一个部分的相邻点与属于不同部分的相邻点相同。未来的工作可能会采用异构网络来更好地描绘 3D 组织模型。随着空间分辨率和数据规模的增加,计算方法应满足效率和可扩展性的基本要求。他们记录了 STAGATE 在真实数据集上花费的运行时间。在处理具有超过 50k 个点的最大真实数据集时,STAGATE 只需大约 40 min。研究人员还在不同规模的模拟数据集上对 STAGATE 的运行时间和内存使用情况进行了基准测试,这些数据集根据 10x Visium 芯片的位置排列。数值实验表明,STAGATE 速度很快,只用了不到 40 分钟,使用大约 4GB 的 GPU 内存来处理具有 50k 个点的数据集。然而,GPU 内存使用与点数几乎呈线性相关,并且可能成为限制 STAGATE 应用于海量数据集的瓶颈。未来的工作有望通过引入基于子图的训练策略来提高 STAGATE 的可扩展性。
图示:STAGATE 可以通过合并 3D 空间网络来减轻连续部分之间的批处理效应。(来源:论文)
此外,STAGATE 能够检测空间域内的空间可变基因。现有的空间可变基因识别算法如 SPARK-X 不考虑空间域信息,这使得难以识别小组织结构内空间特异性表达的基因。为了说明这一点,研究人员在来自小鼠嗅球组织的 Slide-seq V2 数据集上比较了 STARGATE 空间域的差异表达基因与 SPARK-X 的差异表达基因。具体而言,STAGATE 鉴定了 959 个域特异性基因,SPARK-X 搜索了 2479 个 FDR < 0.01 的空间可变基因。他们发现由 SPARK-X 鉴定的许多基因在空间域之间没有显示出显着差异。此外,由 Moran's I 统计量测得的空间自相关在 STAGATE 鉴定的基因组和 SPARK-X 的前 1,000 个基因之间是相似的。这两种方法识别的基因集有很大的重叠,但SPARK-X忽略了一些小组织结构的特定基因。例如,二尖瓣细胞标记物 Gabra1 在 MCL 结构域中显示出显着的富集,但 SPARK-X 未识别其空间模式。此外,Nefh 基因在 MCL 结构域中也显示出强表达。研究人员期望 STAGATE 可以促进组织组织的识别和相应基因标记的发现。论文作者表示:「随着空间组学技术的快速发展和数据的不断积累,这种新模型STAGATE可以促进对大规模空间转录组数据的精确分析,促进我们对组织亚结构的理解。」STAGATE 开源链接:
https://github.com/zhanglabtools/STAGATE
https://doi.org/10.5281/zenodo.6330702
论文链接:https://www.nature.com/articles/s41467-022-29439-6相关报道:https://medicalxpress.com/news/2022-04-artificial-intelligence-tissue-substructure-identification.html