文献丨转录组分析流程和常用软件

简介: 文献丨转录组分析流程和常用软件

今天继续分享" eQTLs play critical roles in regulating gene expression and identifying key regulators in rice "这篇文献,这里是最后的讨论和试验方法部分学习笔记。

讨论部分

这篇文章通过287份材料的转录组数据,鉴定出高质量的外显子变异体,根据表达数据发现,同一亚群的材料具有更多相似性,原因可能是每个亚群内存在特异表达基因。

和表型GWAS相同,eQTL分析也受到较大的连锁不平衡(LD)影响,从eQTL区间识别候选基因的过程很复杂。这篇文章中结合下游基因的共表达信息,确定关键调控因子。这些SNP之间是相互紧密连锁并影响下游基因的表达过程,调控网络略显复杂。

尽管eQTL区域的候选基因能够通过共表达和连锁不平衡来发现,但是构建全基因组的调控网络仍是难题。表型GWAS的QTL数量有限,相比之下,利用转录组表达数据和eQTL来识别候选基因更好,作者利用GWAS的数据结合转录组数据筛选候选基因。

TWAS和eQTL共定位识别到了GWAS遗漏的关键基因!由于转录组数据在时间(生长时期)和空间(采样位置)的特异性,它与表型数据的拟合程度是精细定位的关键。

作者在全基因组eQTL鉴定中,共发现了17个近端eQTL热点区和96个远端eQTL热点区,然后选择其中功能聚类显著和注释信息明确的热点区进行后续分析。

部分数据

传统的正向或者反向遗传学根据表型来找基因,而单独使用eQTL构建调控网络找基因更依赖基因注释,只能利用注释信息来推断关键基因。

eQTL常常被认为是连接基因和表型的桥梁,全面准确的基因注释信息将成为识别关键转录因子的有效工具。

综上所述,作者利用eQTL方法,结合转录组、基因组和表型数据,构建调控网络,通过分析热点区的基因,确定了关键调控因子,这种思路很值得学习。

方法部分

RNA测序和分析

  • 利用illumina进行测序(hiseq2500)
  • 获得150bp的双末端测序数据

软件与流程:

  1. 筛选:Trimmomatic(版本0.33)筛选原始数据,去除adapters和low bases
  2. 比对:Tophat2将fastq文件比对到参考基因组
  3. 计数:Stringtie统计每一千个碱基中片段数(FPKM)和reads的个数

筛选转录组和基因组SNPs

利用筛选过滤之后的转录组数据进行后续分析:

  1. 比对:STAR将转录组数据比对到参考基因组
  2. 鉴定:Sentieon Toolkit鉴定原始SNPs
  3. 过滤:VCFtools (v0.1.13)(参数如下)过滤原始SNPs,得到高质量SNPs
--minDP 4 --minQ 30 --max-missing 0.1 --maf 0.05
  1. 提取:PLINK提取SNPs,剔除<0.05的SNPs

群体遗传分析

  1. RAxML:基于转录组数据构建最大似然树
  2. iTOL:绘制进化树
  3. EIGENSOFT:基于转录组的SNP数据进行PCA分析
  4. ggplot2:绘制PCA分析结果图
  5. ADMIXTURE:推断群体结构,通过逐渐增加k值,并在每个k值处计算较差验证误差,最终确定一个k值,该值处误差最小,即分为k个亚群时最优。

鉴定eQTL

作者在基因表达水平上,筛选FPKM不为零的基因,共从55801个基因中筛选到23325个基因,用于后续分析:

  1. qqnorm(R中的一个函数)对基因的表达数据进行正态分位数转换
  2. FAST-LMM根据所有材料的基因组SNPs信息,对每个基因进行GWAS分析
  3. GEC计算SNPs的有效数目
  4. eQTL block指至少含有三个显著SNP位点的区域
  5. hot_scan识别远端eQTL热点区

富集分析

利用下面两个网站对获得的不同基因进行功能富集分析:

  1. GO富集:http://systemsbiology.cau.edu.cn/agriGOv2/index.php
  2. KEGG代谢通路:http://systemsbiology.cau.edu.cn/PlantGSEAv2/index.php

共表达分析

基因计数后,去除表达量为零的基因,然后对数据进行标准化处理,进行共表达分析

WGCNA是一款R包,用于对基因表达数据集中的基因进行共表达分析。

全基因组关联分析

  1. FAST_LMM程序:通过LMM(linear mixed model线性混合模型)进行GWAS分析
  2. GEC计算SNP的Me值

全转录组关联分析

去除中位表达量(median expression)等于0的基因,剩下的用于TWAS分析:

  1. EMMAX软件利用LMM模型进行关联分析
  2. 根据基因组SNPs计算IBS亲缘关系矩阵

论文数据文件:

NCBI_SRA_PRJNA858547

END

© 素材来源于网络,侵权请联系后台删除

往期推荐:

文献丨群体转录组分析锁定关键转录因子

文献丨转录组RNA seq——青年阶段!

笔记丨ggplot2热图入门学习笔记

笔记丨PCA分析基本知识和数学原理

相关文章
|
算法 数据挖掘
群体遗传学研究荐读丨应知应会(下)
群体遗传学研究荐读丨应知应会(下)
|
数据可视化
R语言自定义图形:ggplot2中的主题与标签设置
【8月更文挑战第30天】`ggplot2`作为R语言中功能强大的绘图包,其自定义能力让数据可视化变得更加灵活和多样。通过合理使用`theme()`函数和`labs()`函数,以及`geom_text()`和`geom_label()`等几何对象,我们可以轻松创建出既美观又富有表达力的图形。希望本文的介绍能够帮助你更好地掌握`ggplot2`中的主题与标签设置技巧。
|
机器学习/深度学习 数据采集 TensorFlow
使用Python实现深度学习模型:智能药物研发与筛选
使用Python实现深度学习模型:智能药物研发与筛选
513 15
都8102年了,还用fastq-dump,快换fasterq-dump吧
之前写过一篇文章Fastq-dump: 一个神奇的软件, 详细介绍了fastq-dump的用法。 虽然fastq-dump参数很多,而且一直被吐槽参数说明写的太差,但是如果真的要用起来其实也就是一行代码 fastq-dump --gzip --split-3 --defline-qual &#39;+&#39; --defline-seq &#39;@$ac-$si/$ri&#39; SRRXXXXX| SRRXXXX.sra # 加上--gzip后需要时间进行文件压缩 当然除了参数问题,还有一个让人诟病的地方就是他只能单个线程,所以速度特别的慢。
5380 0
都8102年了,还用fastq-dump,快换fasterq-dump吧
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
Docker 容器
7-13|docker build -t image-name:tag path/to/Dockerfile 这个命令具体什么意思
7-13|docker build -t image-name:tag path/to/Dockerfile 这个命令具体什么意思
|
机器学习/深度学习 算法 数据挖掘
【机器学习】各大模型原理简介
【机器学习】各大模型原理简介
1205 2
|
数据可视化 数据挖掘 数据处理
跟着Nature Genetics学数据分析:使用GEC软件计算有效位点数从而确定GWAS的阈值
跟着Nature Genetics学数据分析:使用GEC软件计算有效位点数从而确定GWAS的阈值
|
域名解析 应用服务中间件 Linux
服务器搭建网站完整教程
服务器最大的用途,就是可以搭建网站,许多人都认为搭建网站是一件很难的事情,因为包含许多的比较专业东西,比如服务器、编程之类的,确实,在几年前是这样的,普通人想要自己做一个网站太难了 但是随着网站发展了那么多年,已经有许多的其他人做好的工具我们可以利用起来,建一个网站已经越来越简单了,甚至不需要了解代码点几下鼠标就能创建自己的网站,而且比以前的更加的好用,今天主机笔记就介绍下新手如何使用宝塔面板和Wordpress搭建独立网站宝塔面板?正如它的宣传语:一个简单好用的 Linux/Windows 面板。
5882 1
|
对象存储
尝试增加OSS客户端的超时时间
尝试增加OSS客户端的超时时间
1378 4

热门文章

最新文章