空间转录组学: 计数矩阵 定量

简介: 空间转录组学: 计数矩阵 定量

引言

本系列讲解 空间转录组学 (Spatial Transcriptomics) 相关基础知识与数据分析教程,持续更新,欢迎关注,转发,文末有交流群

从原始读段到计数矩阵

把测序产生的海量读段(reads)整理成一张计数矩阵(count matrix),通常都遵循一套标准流程。无论用哪种分析软件,大致都要经历下面四步:

  1. 条形码解析(Barcode Deconvolution)
  2. 读段比对(Read Alignment)
  3. 过滤与质控(Filtering and QC)
  4. 计数与分箱(Counting and Binning)

完成上述步骤后,还要在计数矩阵层面再做一轮质控和处理,包括:

  • spot level 再次过滤和质控
  • 数据归一化(Normalization)
  • 特征挑选(Feature Selection)

条形码解析

虽然测序读段(reads)本身已经携带大部分信息,但要把它们变成计数矩阵,还得借助一张“坐标对照表”——用来说明 Read 1 中的 Coordinate IDs (CIDs) 对应到芯片上的哪个具体位置。

不同空间转录组平台做法不一样:像 10X Visium,每个芯片的坐标是固定死的,对照表随协议版本一起发布;而另一些平台,芯片上的坐标是随机打的,供应商会随芯片附赠一个专属对照文件。对于固定坐标的芯片,软件(如 Space Ranger)只需知道芯片编号就能自动下载对应表;若是随机坐标的芯片,就得用户自己把这份文件准备好。

把读段按 CID 还原到真实空间位置的过程就叫“条形码解析”(barcode deconvolution),它是空间转录组数据分析的头道工序。由于不同平台、不同批次在这一步差异最大,理解其细节比后面几步都关键。

reads 比对

转录本序列本身只是字符串,要想知道这些序列来自哪个基因,就必须把它们比对到带基因注释的参考基因组上。

常用的比对软件有 STARRsubread。10X 的官方流程 SpaceRanger 和华大的 SAW 底层都调用了 STAR

过滤与质控

在reads层面,我们要综合前面每一步的信息来做质控:

  • 质量分太低的reads直接扔掉;
  • 条形码对不上已知 CID 或 MID/UMI 的reads不要;
  • 没比对到基因组、比对到多个地方或落进内含子区域的reads,也可能被剔除。

完成这一轮“粗筛”后,再用质控指标给数据做“精修”,可在reads层面继续筛,也可留到后面按spot再筛。常用指标和图有:

  • 质量分分布图:能看出是否有污染或 RNA 降解;

  • 比对统计:验证比对软件设置是否正确,映射质量如何;

  • UMI 重复分布:看 PCR 是否过扩增,进而判断测序深度够不够。

计数与合并

当所有reads层面的处理都完成后,我们已用解析出的 CID 把每条reads定位到了芯片上的具体位置。接下来,就可以按“gene × spot”的格式建表,并统计每个spot里每个基因的reads数。

为了让数据不那么稀疏、分析更顺畅,绝大多数平台会再做一步“合并spot”(binning):把相邻的 n × n 个小方格(n 常取 20、50、100 或 200,取决于原始spot有多密)里的读段数加在一起,形成更大的“宏点”。

如果平台的spot比组织里的细胞还小,我们还能把 binning 做到真正的“单细胞级”。做法是利用高倍显微图和 DAPI 核染色(如果有)先画好每个细胞的轮廓,再把落在这轮廓里的spot读段汇总成一个“细胞对象”——思路跟正方形合并类似,只是把方格换成了细胞边界。

相关文章
|
1月前
|
数据采集 数据挖掘 Serverless
空间转录组学: 质控处理(1)
空间转录组学: 质控处理(1)
空间转录组学: 质控处理(1)
|
14天前
|
数据可视化 数据挖掘
空间转录组: 反卷积及可视化
空间转录组: 反卷积及可视化
|
1月前
|
数据可视化 数据挖掘
空间转录组学: 全局异常值检测
空间转录组学: 全局异常值检测
空间转录组学: 全局异常值检测
|
21天前
|
机器学习/深度学习 编解码 算法
空间转录组: 反卷积
空间转录组: 反卷积
空间转录组:  反卷积
|
27天前
|
算法 数据可视化 数据挖掘
空间转录组: 降维聚类+差异分析
空间转录组: 降维聚类+差异分析
空间转录组: 降维聚类+差异分析
|
1月前
|
数据挖掘 数据处理
空间转录组: 标准化+特征选择
空间转录组: 标准化+特征选择
|
1月前
|
运维 数据可视化 数据挖掘
空间转录组学: 局部异常检测
空间转录组学: 局部异常检测
空间转录组学: 局部异常检测
|
2月前
|
编解码 数据挖掘
空间转录组学: 测序平台介绍
空间转录组学: 测序平台介绍
|
4月前
|
存储 数据可视化 C#
三维基因组:multiHiCcompare 差异分析
三维基因组:multiHiCcompare 差异分析
134 13
三维基因组:multiHiCcompare 差异分析
|
1月前
|
存储 数据可视化
单细胞分析: Scanpy 核心绘图 (3)
单细胞分析: Scanpy 核心绘图 (3)
单细胞分析: Scanpy 核心绘图 (3)