单细胞免疫组库VDJ|从数据下载开始完成cellranger vdj分析(1)

简介: 单细胞免疫组库VDJ|从数据下载开始完成cellranger vdj分析(1)

本文首发于“生信补给站”公众号  https://mp.weixin.qq.com/s/JKsph6l_9OzdqA_BAE7qWg


单细胞免疫组库可以额外做啥?

scTCR可以更细致的获取肿瘤免疫微环境的变化,比如单细胞转录组可以获取不同样本,不同分组(癌和癌旁,是否治疗,是否响应)的celltype组成,可以知道哪些celltype发生变化。

而TCR可以进一步的得知发生变化的celltype中clone扩展情况如何,治疗响应组中clone是变多了还是变少了?不同celltype之间是否共享一些clone?是否出现了noval的clone?clone最多的TCR序列是哪些?这些序列和哪些peptide结合最强?是否可以用于CAR-T或者TAR-T治疗等等。

本系列会使用2021年Cancer Cell文章“Single-cell sequencing links multiregional immune landscapes and tissue-resident T cells in ccRCC to tumor topology and therapy efficacy”中的部分样本作为示例展示TCR的常见应用场景以及可视化。

该数据集的多个样本都有多处采样位置,多数样本同时含有RNA和TCR数据,且含有治疗前后的数据,ICB响应与否的数据,非常适合免疫组库系列分析的练习。

一 数据集下载


Pubmed中找到该文章,然后在Data Availability Statement 中发现文章的原始数据在PRJNA705464,下载原始的sra文件来开启 “从0开始scVDJ”的系列分析。

1,数据集下载

在浏览器输入https://www.ncbi.nlm.nih.gov/Traces/study/,在Accession 中输入BioProject的ID号(PRJNA705464), 下拉找到以下信息,就可以开始下载了,介绍以下两种下载方式

(1)可以点击具体的Run,然后找到Data Access ,获取下载链接后进行下载。

(2)也可以获取第一列的SRR信息,使用SRAToolkit的prefetch进行批量下载

1.1 安装SRAToolkit

可以在https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit的链接中选择合适的SRAToolkit下载 或者通过wget方式获取


wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.0.2/sratoolkit.3.0.2-centos_linux64.tar.gz
tar zxvf sratoolkit.3.0.2-centos_linux64.tar.gz

1.2 prefetch下载数据

(1)单个Run下载

prefetch 后面添加上SRR的ID号即可 ,prefetch建议使用绝对路径 , 可以添加--max-size 100G 参数。


/path/prefetch SRR13806045  --max-size 100G

(2)SRR_ACC_List 批量下载(一列SRR编号的文件)


/path/prefetch --option-file SRR_ACC_List.txt

(3)shell循环下载


cat SRR_ACC_List.txt |while read i; do
/path/prefetch $i  
done

软件建议使用绝对路径。

2 sra文件转为fastq

使用sratoolkit中的fastq-dump命令将 sra 转化为 fastq 文件。

进入到sra数据的存储文件夹中,可以用下述代码进行批量的格式转化:

cat SRR_ACC_List.txt |while read i; do
/path/.../fastq-dump --split-3 $i 
done

注:--split-3 filename其中--split-3参数代表着如果是单端测序就生成一个 .fastq文件,如果是双端测序就生成_1.fastq 和*_2.fastq 文件。

3 修改cellranger 输入格式

得到fastq文件后,还需要转为cellrange 分析需要的格式(比如,将得到的SRR_1.fastq.gz改为SRR_S1_L001_I1_001.fastq.gz

可以使用上述方式进行批量修改,但是要注意生成文件的个数,如果像本示例中产生的是R1和R2文件,那就将原来_1的改成R1,将_2改成R2

#创建SRR_ACC_List.txt ,内容为SRR号
cat SRR_ACC_List.txt| while read i ;do 
mv ${i}_1*.fastq.gz ${i}_S1_L001_R1_001.fastq.gz;
mv ${i}_2*.fastq.gz ${i}_S1_L001_R2_001.fastq.gz);
done

注:样本名称不要有下划线"_",可以是短线"-"。

二 cellranger分析


首先进行cellranger的下载和安装,参照10X官网https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/using/tutorial_in 或者 单细胞工具箱|Cell Ranger-V6.0 开启单细胞之旅(上)

1 scRNA分析

首先下载refdata文件,然后解压

wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz 
tar -zxvf refdata-gex-GRCh38-2020-A.tar.gz

进行cellranger count分析

/path/cellranger count --id=sample1 \
                   --transcriptome=/path/.../refdata-gex-GRCh38-2020-A \
                   --fastqs=/path/.../fastq_path \
                   --sample=sample1 \
                   --expect-cells=1000 \

运行结果在outs文件夹,建议每个文件都在官网中查一下大概的含义,这里重点关注outs/filtered_feature_bc_matrix文件夹单细胞工具箱|Cell Ranger-V6.0 开启单细胞之旅(上)

2 scVDJ分析

首先下载V(D)J reference文件,然后解压


curl -O https://cf.10xgenomics.com/supp/cell-vdj/refdata-cellranger-vdj-GRCh38-alts-ensembl-5.0.0.tar.gz 
tar -xf refdata-cellranger-vdj-GRCh38-alts-ensembl-5.0.0.tar.gz

进行cellranger vdj分析

/path/cellranger vdj --id=sample1 \
      --reference=/path/.../refdata-cellranger-vdj-GRCh38-alts-ensembl-5.0.0 \
      --fastqs=/path/.../data \ #fastq文件所在路径
      --sample=sample1 \ #第一个下划线之前的样本信息
      --localcores=8 \
      --localmem=64 \

运行结果在outs文件夹,文件很多,建议根据https://support.10xgenomics.com/single-cell-vdj/software/pipelines/latest/output/overview了解以下每个文件的意义。outs/filtered_contig_annotations.csv文件,更需要重点了解每一列的意义。

以上,得到每个样本的单细胞RNA和TCR的结果后就可以使用scRepertoire 或者STARTRAC 进行免疫组库以及T细胞动态等分析了。

这些分析后续会进行系统的介绍。

相关文章
|
1月前
|
数据挖掘 数据库
略微学习一下二区4.5分纯生信,单基因肺结核叶酸基因集+泛癌分析
研究摘要: 一项发表于2023年《MEDIATORS OF INFLAMMATION》杂志的文章发现,RTP4基因可能成为诊断肺结核的新生物标志物。研究者通过分析GEO数据库中的多个微阵列数据集,使用WGCNA方法识别与肺结核和叶酸生物合成相关的基因模块。RTP4在健康与肺结核患者间的表达有显著差异,并且在抗结核治疗前后表达量变化。泛癌分析显示,RTP4在不同肿瘤类型中的表达与预后关联不一,提示其可能在多种癌症中具有重要功能。这些发现支持RTP4作为诊断工具的潜力,并为进一步研究其在结核病和癌症中的作用奠定了基础。
27 1
|
9月前
|
网络协议 大数据 数据挖掘
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(二)
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(二)
|
3月前
|
算法 数据挖掘
R语言——AVOCADO“(异常植被变化检测)算法(1990-2015数据分析)监测森林干扰和再生(含GEE影像下载代码)
R语言——AVOCADO“(异常植被变化检测)算法(1990-2015数据分析)监测森林干扰和再生(含GEE影像下载代码)
43 1
|
14天前
|
数据可视化
数量生态学冗余分析(RDA)分析植物多样性物种数据结果可视化|数据分享
数量生态学冗余分析(RDA)分析植物多样性物种数据结果可视化|数据分享
53 0
|
8月前
|
存储 索引 Python
生信教程:使用全基因组SNP数据进行ABBA-BABA分析
生信教程:使用全基因组SNP数据进行ABBA-BABA分析
149 0
|
9月前
|
大数据 数据挖掘 Go
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(一)
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控
|
9月前
|
数据可视化 大数据 数据挖掘
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(三)
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(三)
|
11月前
|
数据可视化 数据库
scRNA分析|使用CellChat完成细胞通讯分析-简单且可视化出众,代码自取
scRNA分析|使用CellChat完成细胞通讯分析-简单且可视化出众,代码自取
607 0
|
6月前
|
数据库
生信分析|基因组倍型鉴定
生信分析|基因组倍型鉴定
53 0
|
9月前
|
算法 Linux Shell
干货丨 一文详解SGAT单基因关联分析工具
干货丨 一文详解SGAT单基因关联分析工具