转录组数据分析 RNA-seq(一)

简介: 转录组数据分析 RNA-seq

RNA-seq

转录组

转录组学(transcriptomics)的研究对象是全基因组尺度下所有转录本(transcript),即转录组(transcriptome)

2488c0ee749fa82849a1aa1139aab863_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

转录本测定研究

基于杂交的基因芯片技术

将荧光标记的cDNA制成微阵列探针来测定样本中特定转录本含量。又称为 基因芯片(Gene Chip)、微阵列(Microarry)。

6aedd4f700726b2dabac32c863851c93_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png


获取表达量的步骤:

提取RNA -> 反转录 (->扩增)->标记->杂交->扫描->获得原始数据

局限性:

• 只能检测已知或确定性的序列

• 无法检测新发现的,未放置到芯片上的基因

• 有部分探针的信号可能会受到非特异性杂交或个体序列差异的影响

基于NGS的RNA-seq

基于高通量二代测序技术的转录组学研究方法。

特点:

高通量、低成本;不依赖已知转录本探针,可以测全转录组;对于低表达丰度的转录本灵敏

度高;以reads数量腐酸表达,比芯片的荧光信号更为精确。

应用和最新进展

  • 差异表达分析
  • 可变剪接
  • 共表达网络
  • 转录调控网络
  • 根据文库构建方法带来的变种

• ssRNA-seq

• small RNA-seq

• ribo-zero-ssRNA-seq

• circ-RNA-seq

RNA-seq 试验设计

  1. 生物学重复
    生物学重复用于排除随机误差,通常3~5个,不同性质的样本可能需求重复量不同
  2. 样本提取
    液氮或转录阻断剂瞬时猝灭,低温保存,长时间保存可能会降解
  3. 文库构建
    非链特异性文库 RNA-seq:无法区分打碎的片段转录自正义链还是反义链;
    链特异性文库 ssRNA-seq:建库时保留了转录本方向信息。基因表达定位更准确,可变剪切、双向转录等。
  4. 测序策略
    单端测序 single-end:通常用于特殊测序,如small RNAseq;
    双端测序 pair-end:有利于基因注释、转录本异构体鉴定。
  5. 测序深度
    ENCODE推荐不进行可变剪接时,仅计算表达量最少 5M 有效 reads,如果需要鉴定新转录本、检测低表达基因、检测可变剪接等,需要适当增加测序深度。普通双端150bp测序平台有参转录组测序通常 6Gb数据,特殊文库需要数据倍增。
  6. 测序平台


d0d4331fa969d0504083008485fb0d87_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

RNA-seq 文库制备

  1. 总RNA提取
    将 RNA 从特定组织中分离并与脱氧核糖核酸酶混合,降解样本中的DNA,然后用凝胶和毛细管电泳检测 RNA 降解量,评估 RNA 样本质量。

2fe6907c4d436108004d1945ba8b3576_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png

依据文库要求检查完整性分值,如果不合格将不适合建库测序。一些特殊文库对RNA提取要求很高,如全长转录组文库,需要特殊提取流程保证RNA 完整性。

网络异常,图片无法展示
|

380aed93e3e94ec43a9c89fddfe97527_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png


  1. RNA分离纯化

• poly A 富集(RNA-seq 常用策略)

• rRNA 移除(rRNA占细胞中总RNA的比例超过90%)

• small RNA 富集

• circRNA 富集

• 其他等

  1. 样本打断

打断方法:酶切、超声波处理、喷雾器

  1. cDNA合成

是否用标记保留链特异信息?

  1. 上机测序

转录组核心数据分析

数据获取

需要的数据:参考基因组数据fasta、GFF注释信息、双端测序的fastq文件

(我这里用的是普通栽培稻(Oryza sativa L.)的参考基因组、GFF文件和PRJNA797556项目数据。)

参考步骤:https://blog.csdn.net/sunchengquan/article/details/79781366

批量下载和处理多行SRA序列时可以利用脚本:

  • 需要批处理的文件列表file.list
  • 批处理脚本:

#!/bin/bashfor name in $(cat $1)do    echo ${name}    fastq-dump --split-3 ${name}done

批处理运行命令:


bash bash_fastq_dump.sh file.list

注意:配置时,需要在bin目录下执行./vdb-config --interactive,然后弹出一大堆乱七八糟的之后,按X退出即可。再执行./fastq-dump,若没有报错,而是帮助信息的话即可以使用。

fb1b383f96b269d51f9b0d7186f2504c_640_wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1.png


相关文章
|
数据采集 数据可视化 数据挖掘
转录组数据分析 RNA-seq(二)
转录组数据分析 RNA-seq
754 0
转录组数据分析 RNA-seq(二)
|
25天前
|
机器学习/深度学习 算法 数据挖掘
数据分析的 10 个最佳 Python 库
数据分析的 10 个最佳 Python 库
74 4
数据分析的 10 个最佳 Python 库
|
4月前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
91 2
|
4月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
219 4
|
4月前
|
机器学习/深度学习 算法 数据挖掘
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
本文介绍了2023年第二届钉钉杯大学生大数据挑战赛初赛A题的Python代码分析,涉及智能手机用户监测数据分析中的聚类分析和APP使用情况的分类与回归问题。
94 0
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
|
1月前
|
SQL 数据挖掘 Python
数据分析编程:SQL,Python or SPL?
数据分析编程用什么,SQL、python or SPL?话不多说,直接上代码,对比明显,明眼人一看就明了:本案例涵盖五个数据分析任务:1) 计算用户会话次数;2) 球员连续得分分析;3) 连续三天活跃用户数统计;4) 新用户次日留存率计算;5) 股价涨跌幅分析。每个任务基于相应数据表进行处理和计算。
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
数据分析之旅:用Python探索世界
数据分析之旅:用Python探索世界
36 2
|
3月前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
【9月更文挑战第2天】数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
67 5
|
4月前
|
供应链 数据可视化 数据挖掘
【2023年第十一届泰迪杯数据挖掘挑战赛】B题:产品订单的数据分析与需求预测 建模及python代码详解 问题一
本文详细介绍了第十一届泰迪杯数据挖掘挑战赛B题的解决方案,涵盖了对产品订单数据的深入分析、多种因素对需求量影响的探讨,并建立了数学模型进行未来需求量的预测,同时提供了Python代码实现和结果可视化的方法。
141 3
【2023年第十一届泰迪杯数据挖掘挑战赛】B题:产品订单的数据分析与需求预测 建模及python代码详解 问题一
|
4月前
|
机器学习/深度学习 数据采集 数据挖掘
【2023年第十一届泰迪杯数据挖掘挑战赛】B题:产品订单的数据分析与需求预测 建模及python代码详解 问题二
本文提供了第十一届泰迪杯数据挖掘挑战赛B题问题二的详细解题步骤,包括时间序列预测模型的建立、多元输入时间预测问题的分析、时间序列预测的建模步骤、改进模型的方法,以及使用Python进行SARIMA模型拟合和预测的具体实现过程。
105 1