RNA-seq数据分析一:(HISAT2+featureCounts)

简介: RNA-seq数据分析一:(HISAT2+featureCounts)

将 gff 文件转成 gtf (featurecounts需要使用gtf文件)

gffread coreset.gff -T -o amur_ide.gtf
# -o    write the output records into <outfile> instead of stdout
#-T    main output will be GTF instead of GFF3


构建参考基因组的索引文件

hisat2-build -p 8 genome.fa amur_ide


hisat2批量比对

for i in 39 40 41 42 43 44
do 
nohup hisat2 -x /home/genome_index/amur_ide -1 SRR75089${i}_1.fq -2 SRR75089${i}_2.fq | samtools view -S -b > xx.bam &
done


bam文件排序

samtools sort XX.bam -o xxx_sorted.bam


featurecounts 定量

for i in 39 40 41 42 43 44
do 
nohup featureCounts -p -a /home/jiamj/analysis/ref/TAIR10.gtf -o ${i}_counts.txt /home/jiamj/analysis/clean/${i}_sorted.bam &
done

-p  If specified, libraries are assumed to contain paired-end reads. For any library that contains paired-end reads, the 'countReadPairs' parameter controls if read pairs or reads should be counted


结果包含有 geneid,染色体位置,基因起始结束的位置以及基因的 count 数

微信截图_20230606145943.png


featureCounts进行fpkm标准化

countdata <- read.csv("countdata.csv")
#countdata.csv是提取了上一步的counts数据以及gene length
rownames(countdata) <- countdata[,1]
countdata <- countdata[,-1]
kb <- countdata$length / 1000
count <- countdata[,1:8]
rpk <- count / kb
tpm <- t(t(rpk)/colSums(rpk) * 1000000)
fpkm <- t(t(rpk)/colSums(count) * 10^6) 
#想计算数据框中每列的总和,使用colSums函数。
write.table(fpkm,file="eight_tissues_fpkm.xls",sep="\t",quote = F)



相关文章
|
数据挖掘
Seurat 4.0 | 单细胞转录组数据整合(scRNA-seq integration)
Seurat 4.0 | 单细胞转录组数据整合(scRNA-seq integration)
1527 0
Seurat 4.0 | 单细胞转录组数据整合(scRNA-seq integration)
|
6天前
|
数据可视化 Java 数据处理
单细胞|RNA-seq & ATAC-seq 联合分析
单细胞|RNA-seq & ATAC-seq 联合分析
20 3
|
30天前
|
机器学习/深度学习 SQL 数据可视化
单细胞分析(Signac): PBMC scATAC-seq 整合
单细胞分析(Signac): PBMC scATAC-seq 整合
25 0
|
1月前
|
存储 Shell 索引
单细胞分析(Signac): PBMC scATAC-seq 质控
单细胞分析(Signac): PBMC scATAC-seq 质控
23 0
|
25天前
|
存储 数据可视化 数据挖掘
单细胞分析(Signac): PBMC scATAC-seq 基因组区域可视化
单细胞分析(Signac): PBMC scATAC-seq 基因组区域可视化
17 0
|
1月前
|
数据可视化 数据挖掘 Serverless
单细胞分析(Signac): PBMC scATAC-seq 聚类
单细胞分析(Signac): PBMC scATAC-seq 聚类
21 0
|
1月前
|
存储 移动开发 Shell
单细胞分析(Signac): PBMC scATAC-seq 预处理
单细胞分析(Signac): PBMC scATAC-seq 预处理
30 2
|
1月前
|
数据可视化 数据挖掘 索引
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码2
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码
|
1月前
|
存储 编解码 数据可视化
单细胞分析|整合 scRNA-seq 和 scATAC-seq 数据
单细胞分析|整合 scRNA-seq 和 scATAC-seq 数据
25 0
|
1月前
|
存储 数据可视化 数据挖掘
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码1
R语言层次聚类、多维缩放MDS分类RNA测序(RNA-seq)乳腺发育基因数据可视化|附数据代码