RNA-seq丨转录组分析标准流程与常用工具

简介: RNA-seq丨转录组分析标准流程与常用工具

笔记内容:RNA-seq转录组基础知识与标准分析流程介绍,简单记录学习过程。

转录组分析是对样本转录产物RNA的深入挖掘研究。通常情况下,植物的表型差异可能由许多因素控制,其中包括基因的转录环节,不同基因的转录情况有所不同,可能会使表型发生变化。

差异表达分析是对mRNA测序后获得表达矩阵,研究不同基因的表达量差异,除此之外,还有功能富集分析、联合分析等多种手段。

转录组分析标准流程

数据准备

  • 测序数据

测序数据:fastq格式的文件(由测序公司提供),每4行为一个reads。

  • 数据信息

样本信息表:每行是一个样本,每列是一个性状表型。

基因信息表:每行是一个基因、每列是一个信息,信息为注释所得。

  • 参考基因组

1.基因组序列.fastq

2.基因注释.gtf

这一部分是前期数据准备的过程,通过测序或者数据库获取原始数据,用于后续的分析流程。

比对到参考基因组

  • 操作步骤
    1.构建参考基因组
    2.序列比对
    3.压缩和排序
    4.建立索引 bam index

  • 输出文件
    对比结果.bam  利用IGV可视化对比软件能够打开bam文件进行查看。

定量表达

  • 操作步骤
    htseq htseq-count
    subread(rsubread)

利用上述软件实现单个样本表达量的计算,另外还可以将count格式转化为FPKM格式,之后用于R语言进一步绘图使用。

  • 输出文件
    定量结果.count

表达矩阵

表达矩阵的每一行是一个基因,每一列是一个样本。

  • 操作步骤
    1.counts  矩阵
    2.TPM  矩阵
    3.TPM+TMM 矩阵

上述步骤是进行数据的标准化和处理,构建合适的表达矩阵,TPM和TMM是不同的矫正方法,形成如下的数据格式

差异表达分析

  • 操作步骤

1.DESeq2

有生物学重复时使用。用于寻找组间显著表达变化的基因,DESeq2主要使用负二项分布的模型来进行差异分析。

2.edgeR

无生物学重复时使用。edgeR是一个研究重复计数数据差异表达的Bioconductor软件包。基于负二项分布的统计方法,包括经验贝叶斯估计、精确检验、广义线性模型和准似然检验。

后续还可以进行KEGG,GSEA,GO富集分析

转录组数据分析所需软件列表:

质控fastqc , multiqc, trimmomatic, cutadapt ,trim-galore

比对star, hisat2, bowtie2, tophat, bwa, subread

计数htseq, bedtools, deeptools, salmon

参考资料:
https://www.genek.cn
https://blog.csdn.net/bio_meimei/article/details/109458283
https://blog.csdn.net/qq_28723681/article/details/124914014
https://blog.csdn.net/weixin_45536936/article/details/126026764


END

© 素材来源于网络,侵权请联系后台删除

往期推荐:

软件丨MobaXterm远程登录工具

软件丨个人电脑搭建Linux虚拟机

文献丨转录组RNA seq——青年阶段!

文献丨转录组表达数据的生信挖掘研究

R语言笔记丨字符串和列表必学基础知识

R语言笔记丨三大法宝:判断、循环、函数


相关文章
|
3月前
|
机器学习/深度学习 数据可视化 PyTorch
零基础入门语义分割-地表建筑物识别 Task5 模型训练与验证-学习笔记
零基础入门语义分割-地表建筑物识别 Task5 模型训练与验证-学习笔记
412 2
|
8月前
|
搜索推荐 Linux Python
VET:一个基于R语言的VCF数据提取工具,支持按基因ID、物理位置、样品名称提取指定变异信息
VET:一个基于R语言的VCF数据提取工具,支持按基因ID、物理位置、样品名称提取指定变异信息
|
2月前
|
C++
【SPSS】两配对样本T检验分析详细操作教程(附案例实战)
【SPSS】两配对样本T检验分析详细操作教程(附案例实战)
90 0
【SPSS】两配对样本T检验分析详细操作教程(附案例实战)
|
8月前
|
数据采集 存储 索引
转录组分析丨一套完整的操作流程简单案例(上)
转录组分析丨一套完整的操作流程简单案例
|
8月前
|
数据挖掘 Go
文献丨转录组分析流程和常用软件
文献丨转录组分析流程和常用软件
|
8月前
|
Go 索引 Perl
转录组分析丨一套完整的操作流程简单案例(下)
转录组分析丨一套完整的操作流程简单案例(下)
|
8月前
|
Linux 测试技术 数据处理
R语言丨根据VCF文件设计引物,自动识别两样本差异SNP位点,调用samtools获取上下游参考序列,快速得到引物序列
R语言丨根据VCF文件设计引物,自动识别两样本差异SNP位点,调用samtools获取上下游参考序列,快速得到引物序列
|
10月前
|
Linux Windows Perl
没有生物学重复的转录组数据怎么进行差异分析?
设置生物学重复这个环节也是你实验设计很重要的一part,设置的好对你下游分析也有利,通常我们做转录组测序,需要的样本量每组至少为3个生物学重复,这个处理起来就很合理,并且现在流行的差异分析软件DEseq2,limma,edgeR等等都是针对有重复的数据去做的,但有时候会不幸碰到样品测序失败不能用,导致每组就给你剩一个重复时候该怎么办,之前我有批数据就是这样,但是办法总比困难多不能放过任何实验数据,搜了搜其实还是有一些方法可以去解决的,在这里介绍下我搜到的几种方法。
555 0
|
11月前
|
机器学习/深度学习 数据采集 人工智能
中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态
中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态
196 0
|
机器学习/深度学习 数据挖掘
【论文写作分析】之一 《基于混合注意力Seq2seq模型的选项多标签分类》
【论文写作分析】之一 《基于混合注意力Seq2seq模型的选项多标签分类》
【论文写作分析】之一 《基于混合注意力Seq2seq模型的选项多标签分类》