从Scanpy的Anndata对象提取信息(适用于单细胞转录组且涉及h5文件读写)

简介: 从Scanpy的Anndata对象提取信息(适用于单细胞转录组且涉及h5文件读写)

为什么要转格式

目前使用最为广泛的2个单细胞分析的软件包是基于R语言的Seurat和基于Python的Scanpy。Seurat的分析对象是一个S4 method的Seurat对象,S4 method可以简单理解为可以存储很多种格式的对象类型,不用过于深究,里面存了原始矩阵,各种处理过后的矩阵以及降维信息,样本信息等等,可以通过操作符@和$进行访问,如果还不熟悉其结构可以通过Rstudio使用Tab键查看其有关属性,也可以使用str函数快速查看其拓扑结构。而Scanpy的存储对象则为一个Anndata,其结构也类似Seurat对象,但其属性命名规则则与Seurat几乎完全不同,例如其meta.data信息存在obs里,矩阵存在属性X里。

之所以要转格式,是因为目前绝大多数单细胞分析工具都是基于这两种对象进行开发的,有些工具是R语言的,有些是Python语言的,所以常常需要转格式之后才能使用相关分析工具。

import os
import sys
import scanpy as sc
import anndata as ad
import numpy as np
import pandas as pd
import h5py
def extra_adata_info(infile):
    ob1=sc.read(infile)##读入h5ad文件
    mat=pd.DataFrame(data=ob1.X,index=ob1.obs_names,columns=ob1.var_names)  #加载系数矩阵 ,index指行内容,colums指列内容
    mat.to_csv('mat.csv')# mat.to_hdf("mat.h5","mat")
    meta=pd.DataFrame(data=ob1.obs)
    meta.to_csv('metadata.tsv',sep="\t")

这里解释一下data=ob1.X.todense returns a matrix. and toarray returns an ndarray;If you want a matrix, use todense; otherwise, use toarray.即将矩阵显示出来

微信截图_20230606162057.png然后在另一个脚本文件里加载这个脚本,脚本用import需要先进入加载脚本所在路径,并且import的时候不用加.py后缀,然后再调用里面的函数extra_adata_info,需注意运行函数前需把目录转回输出目录:

import os
out_put = os.getcwd()
os.chdir('/extra_adata_info Path/')
import extra_adata_info 
os.chdir(out_put)
extra_adata_info('h5ad Path')


相关文章
|
6月前
单细胞分析|映射和注释查询数据集
单细胞分析|映射和注释查询数据集
88 3
|
搜索推荐 Linux Python
VET:一个基于R语言的VCF数据提取工具,支持按基因ID、物理位置、样品名称提取指定变异信息
VET:一个基于R语言的VCF数据提取工具,支持按基因ID、物理位置、样品名称提取指定变异信息
|
自然语言处理 算法 机器人
PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
|
6月前
|
机器学习/深度学习 算法 大数据
提取图像特征方法总结 是那种很传统的方法~
提取图像特征方法总结 是那种很传统的方法~
256 4
|
传感器 机器学习/深度学习 编解码
智能驾驶--语义分割 公开数据集 汇总
本文整理了10个质量较好,数据集较大,比较新的,图像语义分割的公开数据集;主要服务于智能驾驶方向(辅助驾驶、自动驾驶等)。
592 0
|
6月前
|
数据可视化
cfDNAPro|cfDNA片段数据生物学表征及可视化的R包
cfDNA是指存在于血液中的游离DNA片段,来源于正常和异常细胞的死亡。这些片段长度通常为160-180碱基对,研究cfDNA在非侵入性诊断、疾病监测、早期检测和理解生理及病理状态方面有重要意义。cfDNAPro是一个工具,用于分析cfDNA的片段长度分布,提供数据表征和可视化。它能展示片段长度的整体、中位数和众数,以及峰和谷的分布,还有振荡周期性。通过上图和下图的对比,可以观察到不同队列中cfDNA片段长度的差异。此外,cfDNAPro还能展示DNA片段的模态长度,分析10bp周期性振荡模式,帮助科学家深入了解cfDNA的特征。
119 0
|
机器学习/深度学习 数据采集 搜索推荐
特征构造:从原始数据中创造出高效信息
特征构造:从原始数据中创造出高效信息
153 0
|
人工智能 自然语言处理 Python
ChatIE:通过多轮问答问题实现实命名实体识别和关系事件的零样本信息抽取,并在NYT11-HRL等数据集上超过了全监督模型
ChatIE:通过多轮问答问题实现实命名实体识别和关系事件的零样本信息抽取,并在NYT11-HRL等数据集上超过了全监督模型
ChatIE:通过多轮问答问题实现实命名实体识别和关系事件的零样本信息抽取,并在NYT11-HRL等数据集上超过了全监督模型
|
机器学习/深度学习 传感器 算法
使用应用于环境振动数据的 SSI-COV 算法自动识别线状结构的模态参数附matlab代码
使用应用于环境振动数据的 SSI-COV 算法自动识别线状结构的模态参数附matlab代码
|
机器学习/深度学习 自然语言处理 文字识别
探索图像数据中的隐藏信息:语义实体识别和关系抽取的奇妙之旅
探索图像数据中的隐藏信息:语义实体识别和关系抽取的奇妙之旅
下一篇
无影云桌面