单细胞免疫组库VDJ|从数据下载开始完成cellranger vdj分析(1)

简介: 单细胞免疫组库VDJ|从数据下载开始完成cellranger vdj分析(1)

本文首发于“生信补给站”公众号  https://mp.weixin.qq.com/s/JKsph6l_9OzdqA_BAE7qWg


单细胞免疫组库可以额外做啥?

scTCR可以更细致的获取肿瘤免疫微环境的变化,比如单细胞转录组可以获取不同样本,不同分组(癌和癌旁,是否治疗,是否响应)的celltype组成,可以知道哪些celltype发生变化。

而TCR可以进一步的得知发生变化的celltype中clone扩展情况如何,治疗响应组中clone是变多了还是变少了?不同celltype之间是否共享一些clone?是否出现了noval的clone?clone最多的TCR序列是哪些?这些序列和哪些peptide结合最强?是否可以用于CAR-T或者TAR-T治疗等等。

本系列会使用2021年Cancer Cell文章“Single-cell sequencing links multiregional immune landscapes and tissue-resident T cells in ccRCC to tumor topology and therapy efficacy”中的部分样本作为示例展示TCR的常见应用场景以及可视化。

该数据集的多个样本都有多处采样位置,多数样本同时含有RNA和TCR数据,且含有治疗前后的数据,ICB响应与否的数据,非常适合免疫组库系列分析的练习。

一 数据集下载


Pubmed中找到该文章,然后在Data Availability Statement 中发现文章的原始数据在PRJNA705464,下载原始的sra文件来开启 “从0开始scVDJ”的系列分析。

1,数据集下载

在浏览器输入https://www.ncbi.nlm.nih.gov/Traces/study/,在Accession 中输入BioProject的ID号(PRJNA705464), 下拉找到以下信息,就可以开始下载了,介绍以下两种下载方式

(1)可以点击具体的Run,然后找到Data Access ,获取下载链接后进行下载。

(2)也可以获取第一列的SRR信息,使用SRAToolkit的prefetch进行批量下载

1.1 安装SRAToolkit

可以在https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit的链接中选择合适的SRAToolkit下载 或者通过wget方式获取


wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.0.2/sratoolkit.3.0.2-centos_linux64.tar.gz
tar zxvf sratoolkit.3.0.2-centos_linux64.tar.gz

1.2 prefetch下载数据

(1)单个Run下载

prefetch 后面添加上SRR的ID号即可 ,prefetch建议使用绝对路径 , 可以添加--max-size 100G 参数。


/path/prefetch SRR13806045  --max-size 100G

(2)SRR_ACC_List 批量下载(一列SRR编号的文件)


/path/prefetch --option-file SRR_ACC_List.txt

(3)shell循环下载


cat SRR_ACC_List.txt |while read i; do
/path/prefetch $i  
done

软件建议使用绝对路径。

2 sra文件转为fastq

使用sratoolkit中的fastq-dump命令将 sra 转化为 fastq 文件。

进入到sra数据的存储文件夹中,可以用下述代码进行批量的格式转化:

cat SRR_ACC_List.txt |while read i; do
/path/.../fastq-dump --split-3 $i 
done

注:--split-3 filename其中--split-3参数代表着如果是单端测序就生成一个 .fastq文件,如果是双端测序就生成_1.fastq 和*_2.fastq 文件。

3 修改cellranger 输入格式

得到fastq文件后,还需要转为cellrange 分析需要的格式(比如,将得到的SRR_1.fastq.gz改为SRR_S1_L001_I1_001.fastq.gz

可以使用上述方式进行批量修改,但是要注意生成文件的个数,如果像本示例中产生的是R1和R2文件,那就将原来_1的改成R1,将_2改成R2

#创建SRR_ACC_List.txt ,内容为SRR号
cat SRR_ACC_List.txt| while read i ;do 
mv ${i}_1*.fastq.gz ${i}_S1_L001_R1_001.fastq.gz;
mv ${i}_2*.fastq.gz ${i}_S1_L001_R2_001.fastq.gz);
done

注:样本名称不要有下划线"_",可以是短线"-"。

二 cellranger分析


首先进行cellranger的下载和安装,参照10X官网https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/using/tutorial_in 或者 单细胞工具箱|Cell Ranger-V6.0 开启单细胞之旅(上)

1 scRNA分析

首先下载refdata文件,然后解压

wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz 
tar -zxvf refdata-gex-GRCh38-2020-A.tar.gz

进行cellranger count分析

/path/cellranger count --id=sample1 \
                   --transcriptome=/path/.../refdata-gex-GRCh38-2020-A \
                   --fastqs=/path/.../fastq_path \
                   --sample=sample1 \
                   --expect-cells=1000 \

运行结果在outs文件夹,建议每个文件都在官网中查一下大概的含义,这里重点关注outs/filtered_feature_bc_matrix文件夹单细胞工具箱|Cell Ranger-V6.0 开启单细胞之旅(上)

2 scVDJ分析

首先下载V(D)J reference文件,然后解压


curl -O https://cf.10xgenomics.com/supp/cell-vdj/refdata-cellranger-vdj-GRCh38-alts-ensembl-5.0.0.tar.gz 
tar -xf refdata-cellranger-vdj-GRCh38-alts-ensembl-5.0.0.tar.gz

进行cellranger vdj分析

/path/cellranger vdj --id=sample1 \
      --reference=/path/.../refdata-cellranger-vdj-GRCh38-alts-ensembl-5.0.0 \
      --fastqs=/path/.../data \ #fastq文件所在路径
      --sample=sample1 \ #第一个下划线之前的样本信息
      --localcores=8 \
      --localmem=64 \

运行结果在outs文件夹,文件很多,建议根据https://support.10xgenomics.com/single-cell-vdj/software/pipelines/latest/output/overview了解以下每个文件的意义。outs/filtered_contig_annotations.csv文件,更需要重点了解每一列的意义。

以上,得到每个样本的单细胞RNA和TCR的结果后就可以使用scRepertoire 或者STARTRAC 进行免疫组库以及T细胞动态等分析了。

这些分析后续会进行系统的介绍。

相关文章
conda常用操作和配置镜像源
conda常用操作和配置镜像源
33028 0
|
8月前
|
监控 算法 数据处理
Python 3.14七大新特性总结:从t-string模板到GIL并发优化
本文基于当前最新的beta 2版本,深入分析了Python 3.14中的七项核心新特性。
273 4
Python 3.14七大新特性总结:从t-string模板到GIL并发优化
|
8月前
|
存储 数据可视化 数据挖掘
单细胞分析: Scanpy 核心绘图 (2)
单细胞分析: Scanpy 核心绘图 (2)
单细胞分析: Scanpy 核心绘图 (2)
都8102年了,还用fastq-dump,快换fasterq-dump吧
之前写过一篇文章Fastq-dump: 一个神奇的软件, 详细介绍了fastq-dump的用法。 虽然fastq-dump参数很多,而且一直被吐槽参数说明写的太差,但是如果真的要用起来其实也就是一行代码 fastq-dump --gzip --split-3 --defline-qual '+' --defline-seq '@$ac-$si/$ri' SRRXXXXX| SRRXXXX.sra # 加上--gzip后需要时间进行文件压缩 当然除了参数问题,还有一个让人诟病的地方就是他只能单个线程,所以速度特别的慢。
5601 0
都8102年了,还用fastq-dump,快换fasterq-dump吧
|
存储 数据可视化 项目管理
RNA-seq 差异分析的细节详解 (5)
RNA-seq 差异分析的细节详解 (5)
RNA-seq 差异分析的细节详解 (5)
anaconda下载安装,镜像源配置修改及虚拟环境的创建
这篇文章介绍了Anaconda的下载安装过程,包括Anaconda的简介、安装步骤、配置修改、创建虚拟环境以及一些常用命令的使用方法。文章还提供了如何修改conda的镜像源为国内镜像源以加速下载的步骤。
anaconda下载安装,镜像源配置修改及虚拟环境的创建
|
数据可视化 Java 数据处理
单细胞|RNA-seq & ATAC-seq 联合分析
单细胞|RNA-seq & ATAC-seq 联合分析
|
数据可视化 关系型数据库 数据挖掘
scRNA分析|一(尽)文(力)解决你的单细胞火山图问题
scRNA分析|一(尽)文(力)解决你的单细胞火山图问题
1964 0
|
存储 安全 搜索推荐
HTTPS协议深度解析
【7月更文挑战第12天】HTTPS协议通过加密通信和身份验证机制,为数据传输提供了强有力的安全保障。在现代互联网环境中,HTTPS已成为保障网站和用户数据安全的重要手段。了解HTTPS的工作原理和安全性特性,有助于更好地应用和维护HTTPS,提升网络安全水平。
1669 5

热门文章

最新文章