RNA-seq
转录组
转录组学(transcriptomics)的研究对象是全基因组尺度下所有转录本(transcript),即转录组(transcriptome)
转录本测定研究
基于杂交的基因芯片技术
将荧光标记的cDNA制成微阵列探针来测定样本中特定转录本含量。又称为 基因芯片(Gene Chip)、微阵列(Microarry)。
获取表达量的步骤:
提取RNA -> 反转录 (->扩增)->标记->杂交->扫描->获得原始数据
局限性:
• 只能检测已知或确定性的序列
• 无法检测新发现的,未放置到芯片上的基因
• 有部分探针的信号可能会受到非特异性杂交或个体序列差异的影响
基于NGS的RNA-seq
基于高通量二代测序技术的转录组学研究方法。
特点:
高通量、低成本;不依赖已知转录本探针,可以测全转录组;对于低表达丰度的转录本灵敏
度高;以reads数量腐酸表达,比芯片的荧光信号更为精确。
应用和最新进展
- 差异表达分析
- 可变剪接
- 共表达网络
- 转录调控网络
- 根据文库构建方法带来的变种
• ssRNA-seq
• small RNA-seq
• ribo-zero-ssRNA-seq
• circ-RNA-seq
RNA-seq 试验设计
- 生物学重复
生物学重复用于排除随机误差,通常3~5个,不同性质的样本可能需求重复量不同 - 样本提取
液氮或转录阻断剂瞬时猝灭,低温保存,长时间保存可能会降解 - 文库构建
非链特异性文库 RNA-seq:无法区分打碎的片段转录自正义链还是反义链;
链特异性文库 ssRNA-seq:建库时保留了转录本方向信息。基因表达定位更准确,可变剪切、双向转录等。 - 测序策略
单端测序 single-end:通常用于特殊测序,如small RNAseq;
双端测序 pair-end:有利于基因注释、转录本异构体鉴定。 - 测序深度
ENCODE推荐不进行可变剪接时,仅计算表达量最少 5M 有效 reads,如果需要鉴定新转录本、检测低表达基因、检测可变剪接等,需要适当增加测序深度。普通双端150bp测序平台有参转录组测序通常 6Gb数据,特殊文库需要数据倍增。 - 测序平台
RNA-seq 文库制备
- 总RNA提取
将 RNA 从特定组织中分离并与脱氧核糖核酸酶混合,降解样本中的DNA,然后用凝胶和毛细管电泳检测 RNA 降解量,评估 RNA 样本质量。
依据文库要求检查完整性分值,如果不合格将不适合建库测序。一些特殊文库对RNA提取要求很高,如全长转录组文库,需要特殊提取流程保证RNA 完整性。
- RNA分离纯化
• poly A 富集(RNA-seq 常用策略)
• rRNA 移除(rRNA占细胞中总RNA的比例超过90%)
• small RNA 富集
• circRNA 富集
• 其他等
- 样本打断
打断方法:酶切、超声波处理、喷雾器
- cDNA合成
是否用标记保留链特异信息?
- 上机测序
转录组核心数据分析
数据获取
需要的数据:参考基因组数据fasta、GFF注释信息、双端测序的fastq文件
(我这里用的是普通栽培稻(Oryza sativa L.)的参考基因组、GFF文件和PRJNA797556项目数据。)
参考步骤:https://blog.csdn.net/sunchengquan/article/details/79781366
批量下载和处理多行SRA序列时可以利用脚本:
- 需要批处理的文件列表file.list
- 批处理脚本:
#!/bin/bashfor name in $(cat $1)do echo ${name} fastq-dump --split-3 ${name}done
批处理运行命令:
bash bash_fastq_dump.sh file.list
注意:配置时,需要在bin目录下执行./vdb-config --interactive
,然后弹出一大堆乱七八糟的之后,按X退出即可。再执行./fastq-dump,若没有报错,而是帮助信息的话即可以使用。