使用scanpy进行高可变基因的筛选

简介: 使用scanpy进行高可变基因的筛选

函数

import scanpy as sc

sc.pp.highly_variable_genes


功能

取出高可变基因,默认使用log的数据,当使用flavor=seurat_v3的时候,采用count data。(这里一定要注意,如果你先对数据做了标准化,再选择seurat_v3将会报错)

flavor参数可以选择是使用Seurat,Cell ranger还是seurat v3的算法。

Seurat and Cellranger中,使用的是dispersion-based方法,获得归一化的方差。先对基因按照表达量平均值进行分bin,然后计算落在每个bin的基因的离散度(dispersion)的均值和SD,最终获得归一化的dispersion。对于每个表达量的bin,选择不同的高可变表达基因。

而Seurat3的算法,计算每个基因的方差进行归一化。首先对数据在规范化标准偏差下(a regularized standard deviation)进行标准化(使用z标准化),之后计算每个基因的归一化的方差,并且进行排序,获得高可变基因。

# 重要参数
"""
*   adata:输入的数据,每行是一个细胞,每列是一个特征
*   layer:使用的是哪一个layer
*   n_top_genes:如果是使用seurate_v3的方法,那么需要指定该参数。
*   min_mean:默认0.0125 ;max_mean:默认是3 ;min_disp: 默认0.5, max_disp: 默认是inf。如果指定了n_top_genes , 这个和其他所有mean和disp参数都会无效,因此设置了 flavor='seurat_v3' 该参数无用。
*   span:默认是0.3;当flavor=seurat_v3的时候,用loess模型来估计variance的数据的比例。
*   n_bins : 默认是20,对表达量分bin的数目,对每个bin里的数据进行归一化,如果只有一个基因落到bin里,那么该bin的dispersion会设为1。
*   flavor: {‘seurat’, ‘cell_ranger’, ‘seurat_v3’} (default: 'seurat')
*   subset:默认是false,只是返回高可变基因,否则就原位替换
*   inplace:默认是True,在var中进行存储矩阵
*   batch_key:
If specified, highly-variable genes are selected within each batch separately and merged. 
This simple process avoids the selection of batch-specific genes and acts as a lightweight batch correction method. 
For all flavors, genes are first sorted by how many batches they are a HVG. 
For dispersion-based flavors ties are broken by normalized dispersion. 
If flavor = 'seurat_v3', 
ties are broken by the median (across batches) rank based on within-batch normalized variance
*   check_values:True,在seurat_v3模式下有用,检测每个count是不是为整型
"""


代码

## _highly_variable_genes.py
 mean, var = materialize_as_ndarray(_get_mean_var(X))
 # now actually compute the dispersion
 mean[mean == 0] = 1e-12  # set entries equal to zero to small value
 dispersion = var / mean
 df['dispersions_norm'] = (
     df['dispersions'].values  # use values here as index differs
     - disp_mean_bin[df['mean_bin'].values].values
 ) / disp_std_bin[df['mean_bin'].values].values

获得每个基因的dispersion值,并进行排序

mean, var = _get_mean_var(X_batch)
not_const = var > 0
estimat_var = np.zeros(X.shape[1], dtype=np.float64)
y = np.log10(var[not_const])
x = np.log10(mean[not_const])
model = loess(x, y, span=span, degree=2)   ### 对mean和var进行loess回归
model.fit()
estimat_var[not_const] = model.outputs.fitted_values
reg_std = np.sqrt(10 ** estimat_var)
batch_counts = X_batch.astype(np.float64).copy()


相关文章
|
搜索推荐 Linux Python
VET:一个基于R语言的VCF数据提取工具,支持按基因ID、物理位置、样品名称提取指定变异信息
VET:一个基于R语言的VCF数据提取工具,支持按基因ID、物理位置、样品名称提取指定变异信息
|
6月前
stata对包含协变量的模型进行缺失值多重插补分析
stata对包含协变量的模型进行缺失值多重插补分析
|
6月前
GEE——土地利用分类种两个矢量集合中不同列进行相减的方式(利用join进行连接处理)
GEE——土地利用分类种两个矢量集合中不同列进行相减的方式(利用join进行连接处理)
76 2
|
6月前
|
数据采集 安全 数据挖掘
【数据挖掘】属性及其类型和数据的统计描述四分位数等详解(图文解释 超详细)
【数据挖掘】属性及其类型和数据的统计描述四分位数等详解(图文解释 超详细)
452 0
|
存储 Python
候选基因如何分析?
候选基因如何分析?
|
数据采集 机器学习/深度学习 自然语言处理
实现文本数据数值化、方便后续进行回归分析等目的,需要对文本数据进行多标签分类和关系抽取
实现文本数据数值化、方便后续进行回归分析等目的,需要对文本数据进行多标签分类和关系抽取
199 0
|
数据可视化 Serverless Go
scRNA分析|单细胞GSVA + limma差异分析-celltype分组?样本分组?
scRNA分析|单细胞GSVA + limma差异分析-celltype分组?样本分组?
994 0
|
数据挖掘
基于R筛选过滤低丰度物种的几种方式
基于R筛选过滤低丰度物种的几种方式
445 0
|
存储 SQL 机器学习/深度学习
数仓中指标-标签,维度-度量,自然键-代理键,数据集市等各名词解析及关系
这是在数据分析中常见的概念,下钻可以理解成增加维的层次,从而可以由粗粒度到细粒度来观察数据,比如对产品销售情况分析时,可以沿着时间维从年到月到日更细粒度的观察数据。从年的维度可以下钻到月的维度、日的维度等。
数仓中指标-标签,维度-度量,自然键-代理键,数据集市等各名词解析及关系
|
机器学习/深度学习 人工智能 算法
将时间序列转换为分类问题
本文将以股票交易作为示例。我们用 AI 模型预测股票第二天是涨还是跌。在此背景下,比较了分类算法 XGBoost、随机森林和逻辑分类器。文章的另外一个重点是数据准备。我们必须如何转换数据以便模型可以处理它。
95 0