单细胞工具箱|Cell Ranger-V6.0 开启单细胞之旅(上)

简介: 单细胞工具箱|Cell Ranger-V6.0 开启单细胞之旅(上)


Cell Ranger是一个10X genomics公司的单细胞分析软件,将原始的fastq文件生成后续分析的feature-barcode表达矩阵。

其中包括很多模块,本次主要介绍cellranger mkfastq、cellranger count,cellranger aggr 和 cellranger reanalyze四个功能模块。



一 Cell Ranger下载安装

1.1 下载

进入cellranger官网(https://support.10xgenomics.com/)后,发现支持的分析模块有很多,先介绍单细胞转录组。选择单细胞转录组模块,点击进入

软件-下载-选择你想要的cellranger版本,


1)curl ,wget 和 直接网页下载,三种方式均可;

2)记得下载注释文件

3)注意查看md5值(很重要


1.2 安装

Step1:解压下载的软件安装包

#进入文件存放的位置,示例为opt
$ cd /opt
#解压
$ tar -xzvf cellranger-6.0.1.tar.gz
解压缩到一个名为cellranger-6.0.1的新目录,包含Cell Ranger及其依赖项和Cell Ranger脚本。
Step2:同样的方式解压参考文件
$ tar -xzvf refdata-gex-GRCh38-2020-A.tar.gz
Step3:配置环境
将Cell Ranger目录添加到$PATH中,注意路径要准确,示例为/opt ,
$ export PATH=/opt/cellranger-6.0.1:$PATH

为使用方便可以添加到.bashrc文件中。


1.3 测试安装

可以查看一下版本和帮助,或者参考官网的Site Check Script 的方式。

cellranger -V

cellranger -h



二 mkfastq模块

cellranger使用mkfastq功能来拆分Illumina 原始数据(raw base call (BCL)),输出 FASTQ 文件。


2.1 下载示例数据

点击下载即可

2.2 Running mkfastq with a Simple CSV Samplesheet

1)首先示例矩阵数据解压缩,当前目录下生成cellranger-tiny-bcl-1.2.0文件夹

tar -xvzf cellranger-tiny-bcl-1.2.0.tar.gz

2)Simple CSV Samplesheet文件

格式:三列(Lane、Sample、Index),逗号分隔,不太容易出现格式错误。示例数据cellrangerver -tiny-bcl-simple-1.2.0.csv如下:

Lane,Sample,Index
1,test_sample,SI-TT-D9


Lane

Which lane(s) of the flowcell to process. Can be either a single lane, a range (e.g., 2-4) or '*' for all lanes in the flowcell.

Sample

The name of the sample. This name is the prefix to all the generated FASTQs, and corresponds to the --sample argument in all downstream 10x pipelines.
Sample names must conform to the Illumina bcl2fastq naming requirements. Only letters, numbers, underscores and hyphens area allowed; no other symbols, including dots (".") are allowed.

Index

The 10x sample index that was used in library construction, e.g., SI-TT-D9 or SI-GA-A1

3)run mkfastq

需要安装且配置bcl2fastq软件

$ cellranger mkfastq --id=cellranger-tiny-bcl-1.2.0 \
                     --run=/path/to/cellranger-tiny-bcl-1.2.0 \
                     --csv=cellranger-tiny-bcl-simple-1.2.0.csv
id :即为解压后的文件夹名字
run:为解压后的文件夹的绝对路径

在id名的新文件夹中既有生成的fastq文件了,可以用于后续的count分析。


三 count 模块

此处使用转录组数据进行count分析,通过fastq文件得到细胞和基因的定量结果。

3.1 必要参数

$ cellranger count --id=sample345 \
                   --transcriptome=/opt/refdata-gex-GRCh38-2020-A \
                   --fastqs=/home/jdoe/runs/HAWT7ADXX/outs/fastq_path \
                   --sample=mysample \
                   --expect-cells=1000 \
--id= 名称
--fastqs= fastq.gz文件保存的绝对路径
--sample= fastq.gz文件名"-"之前的字段
--transcriptome= 参考基因组路径
--expect-cells= 期望细胞数(可选)


3.2 参数列表

参数详细介绍详见:

https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/using/count#args中的Command-Line Argument Reference 部分

可以注意下以下参数:

--expect-cells

(optional) Expected number of recovered cells. Default: 3,000 cells.

和实验匹配

--nosecondary

(optional) Add this flag to skip secondary analysis of the feature-barcode matrix (dimensionality reduction, clustering and visualization). Set this if you plan to use cellranger reanalyze or your own custom analysis.

仅获得表达矩阵,不进行后续的降维,聚类和可视化分析

--chemistry

(optional) Assay configuration. NOTE: by default the assay configuration is detected automatically, which is the recommended mode. You should only specify chemistry if there is an error in automatic detection. Select one of:

  • auto for auto-detection (default),
  • ...


3.3 结果文件

结果文件列表以及简要描述说明

File Name

Description


web_summary.html

Run summary metrics and charts in HTML format

网页简版报告以及可视化

metrics_summary.csv

Run summary metrics in CSV format


possorted_genome_bam.bam

Reads aligned to the genome and transcriptome annotated with barcode information


possorted_genome_bam.bam.bai

Index for possorted_genome_bam.bam


filtered_feature_bc_matrix

Filtered feature-barcode matrices containing only cellular barcodes in MEX format. (In Targeted Gene Expression samples, the non-targeted genes are not present.)

过滤掉的barcode信息

filtered_feature_bc_matrix_h5.h5

Filtered feature-barcode matrices containing only cellular barcodes in HDF5 format. (In Targeted Gene Expression samples, the non-targeted genes are not present.)

过滤掉的barcode信息HDF5 format;


raw_feature_bc_matrices

Unfiltered feature-barcode matrices containing all barcodes in MEX format

原始barcode信息

raw_feature_bc_matrix_h5.h5

Unfiltered feature-barcode matrices containing all barcodes in HDF5 format

原始barcode信息HDF5 format

analysis

Secondary analysis data including dimensionality reduction, cell clustering, and differential expression


molecule_info.h5

Molecule-level information used by cellranger aggr to aggregate samples into larger datasets


cloupe.cloupe

Loupe Browser visualization and analysis file

Loupe Cell Browser 输入文件

feature_reference.csv

(Feature Barcode only) Feature Reference CSV file


target_panel.csv

(Targeted GEX only) Targed panel CSV file




相关文章
|
3月前
|
机器学习/深度学习 算法 安全
差分隐私机器学习:通过添加噪声让模型更安全,也更智能
本文探讨在敏感数据上应用差分隐私(DP)进行机器学习的挑战与实践。通过模拟DP-SGD算法,在模型训练中注入噪声以保护个人隐私。实验表明,该方法在保持71%准确率和0.79 AUC的同时,具备良好泛化能力,但也带来少数类预测精度下降的问题。研究强调差分隐私应作为模型设计的核心考量,而非事后补救,并提出在参数调优、扰动策略选择和隐私预算管理等方面的优化路径。
238 3
差分隐私机器学习:通过添加噪声让模型更安全,也更智能
|
3月前
|
消息中间件 人工智能 安全
企业级AI应用需要系统工程支撑,如何通过MCP大模型架构实现全链路实战解构?
本文三桥君深入探讨了MCP大模型架构在企业级AI应用中的全链路实战解构。从事件驱动、统一中台、多端接入、API网关、AI Agent核心引擎等九个核心模块出发,系统阐述了该架构如何实现低耦合高弹性的智能系统构建。AI专家三桥君提出从技术、内容、业务三个维度构建评估体系,为企业级AI应用提供了从架构设计到落地优化的完整解决方案。
224 0
|
12月前
单细胞 | 转录因子足迹分析
单细胞 | 转录因子足迹分析
140 20
单细胞 | 转录因子足迹分析
|
9月前
|
数据采集 Java API
淘宝商品详情获取api接口秘籍
本文介绍了获取淘宝商品详情的多种方法及其应用场景。首先,通过注册淘宝开放平台账号并创建应用,获取API接口权限。接着,详细讲解了使用Python调用API和Java编写爬虫两种技术手段,分别适用于对数据准确性和灵活性有不同要求的场景。案例分析展示了电商商家和市场分析师如何利用这些技术优化运营和洞察市场趋势。最后,强调了遵守平台规则的重要性,并提出了优化代码性能的建议。未来,随着技术进步,淘宝平台API功能将更加强大,数据分析也将更加智能精准。
402 11
|
NoSQL Redis Windows
windows服务器重装系统之后,Redis服务如何恢复?
windows服务器重装系统之后,Redis服务如何恢复?
251 6
|
8月前
|
人工智能 自然语言处理 API
OpenDeepResearcher:开源 AI 研究工具,自动完成搜索、评估、提取和生成报告
OpenDeepResearcher 是一款开源 AI 研究工具,支持异步处理、去重功能和 LLM 驱动的决策,帮助用户高效完成复杂的信息查询和分析任务。
474 18
OpenDeepResearcher:开源 AI 研究工具,自动完成搜索、评估、提取和生成报告
|
8月前
|
存储 人工智能 数据库
《探秘NMF:解锁图像降维与有效特征提取的密码》
非负矩阵分解(NMF)是一种强大的图像降维与特征提取技术。它通过将图像数据分解为两个非负矩阵,挖掘局部特征、实现稀疏表示并适应复杂结构。NMF在人脸识别、图像压缩重建及分类检索中表现出色,有效提升了图像处理的效率和准确性,推动了计算机视觉领域的发展。
224 8
|
XML 中间件 数据库
基于jeecgboot的flowable流程支持定时捕获事件
基于jeecgboot的flowable流程支持定时捕获事件
267 0
|
11月前
|
Anolis 异构计算
|
Web App开发 人工智能 安全
Gemini vs ChatGPT:谷歌最新的AI和ChatGPT相比,谁更强?
Gemini vs ChatGPT:谷歌最新的AI和ChatGPT相比,谁更强?