文献丨转录组分析流程和常用软件

简介: 文献丨转录组分析流程和常用软件

今天继续分享" eQTLs play critical roles in regulating gene expression and identifying key regulators in rice "这篇文献,这里是最后的讨论和试验方法部分学习笔记。

讨论部分

这篇文章通过287份材料的转录组数据,鉴定出高质量的外显子变异体,根据表达数据发现,同一亚群的材料具有更多相似性,原因可能是每个亚群内存在特异表达基因。

和表型GWAS相同,eQTL分析也受到较大的连锁不平衡(LD)影响,从eQTL区间识别候选基因的过程很复杂。这篇文章中结合下游基因的共表达信息,确定关键调控因子。这些SNP之间是相互紧密连锁并影响下游基因的表达过程,调控网络略显复杂。

尽管eQTL区域的候选基因能够通过共表达和连锁不平衡来发现,但是构建全基因组的调控网络仍是难题。表型GWAS的QTL数量有限,相比之下,利用转录组表达数据和eQTL来识别候选基因更好,作者利用GWAS的数据结合转录组数据筛选候选基因。

TWAS和eQTL共定位识别到了GWAS遗漏的关键基因!由于转录组数据在时间(生长时期)和空间(采样位置)的特异性,它与表型数据的拟合程度是精细定位的关键。

作者在全基因组eQTL鉴定中,共发现了17个近端eQTL热点区和96个远端eQTL热点区,然后选择其中功能聚类显著和注释信息明确的热点区进行后续分析。

部分数据

传统的正向或者反向遗传学根据表型来找基因,而单独使用eQTL构建调控网络找基因更依赖基因注释,只能利用注释信息来推断关键基因。

eQTL常常被认为是连接基因和表型的桥梁,全面准确的基因注释信息将成为识别关键转录因子的有效工具。

综上所述,作者利用eQTL方法,结合转录组、基因组和表型数据,构建调控网络,通过分析热点区的基因,确定了关键调控因子,这种思路很值得学习。

方法部分

RNA测序和分析

  • 利用illumina进行测序(hiseq2500)
  • 获得150bp的双末端测序数据

软件与流程:

  1. 筛选:Trimmomatic(版本0.33)筛选原始数据,去除adapters和low bases
  2. 比对:Tophat2将fastq文件比对到参考基因组
  3. 计数:Stringtie统计每一千个碱基中片段数(FPKM)和reads的个数

筛选转录组和基因组SNPs

利用筛选过滤之后的转录组数据进行后续分析:

  1. 比对:STAR将转录组数据比对到参考基因组
  2. 鉴定:Sentieon Toolkit鉴定原始SNPs
  3. 过滤:VCFtools (v0.1.13)(参数如下)过滤原始SNPs,得到高质量SNPs
--minDP 4 --minQ 30 --max-missing 0.1 --maf 0.05
  1. 提取:PLINK提取SNPs,剔除<0.05的SNPs

群体遗传分析

  1. RAxML:基于转录组数据构建最大似然树
  2. iTOL:绘制进化树
  3. EIGENSOFT:基于转录组的SNP数据进行PCA分析
  4. ggplot2:绘制PCA分析结果图
  5. ADMIXTURE:推断群体结构,通过逐渐增加k值,并在每个k值处计算较差验证误差,最终确定一个k值,该值处误差最小,即分为k个亚群时最优。

鉴定eQTL

作者在基因表达水平上,筛选FPKM不为零的基因,共从55801个基因中筛选到23325个基因,用于后续分析:

  1. qqnorm(R中的一个函数)对基因的表达数据进行正态分位数转换
  2. FAST-LMM根据所有材料的基因组SNPs信息,对每个基因进行GWAS分析
  3. GEC计算SNPs的有效数目
  4. eQTL block指至少含有三个显著SNP位点的区域
  5. hot_scan识别远端eQTL热点区

富集分析

利用下面两个网站对获得的不同基因进行功能富集分析:

  1. GO富集:http://systemsbiology.cau.edu.cn/agriGOv2/index.php
  2. KEGG代谢通路:http://systemsbiology.cau.edu.cn/PlantGSEAv2/index.php

共表达分析

基因计数后,去除表达量为零的基因,然后对数据进行标准化处理,进行共表达分析

WGCNA是一款R包,用于对基因表达数据集中的基因进行共表达分析。

全基因组关联分析

  1. FAST_LMM程序:通过LMM(linear mixed model线性混合模型)进行GWAS分析
  2. GEC计算SNP的Me值

全转录组关联分析

去除中位表达量(median expression)等于0的基因,剩下的用于TWAS分析:

  1. EMMAX软件利用LMM模型进行关联分析
  2. 根据基因组SNPs计算IBS亲缘关系矩阵

论文数据文件:

NCBI_SRA_PRJNA858547

END

© 素材来源于网络,侵权请联系后台删除

往期推荐:

文献丨群体转录组分析锁定关键转录因子

文献丨转录组RNA seq——青年阶段!

笔记丨ggplot2热图入门学习笔记

笔记丨PCA分析基本知识和数学原理

相关文章
|
算法 数据挖掘
群体遗传学研究荐读丨应知应会(下)
群体遗传学研究荐读丨应知应会(下)
如何用vcftools从VCF文件中提取某条染色体信息
如何用vcftools从VCF文件中提取某条染色体信息
XP-CLR分析笔记丨检测不同种群之间由于选择引起的差异信息,群体遗传学经典方法
XP-CLR分析笔记丨检测不同种群之间由于选择引起的差异信息,群体遗传学经典方法
|
1月前
|
存储 弹性计算 人工智能
2026年阿里云轻量、ECS 与 GPU云服务器租用收费标准说明
阿里云服务器涵盖轻量应用服务器、云服务器 ECS 及 GPU 服务器三大类,适配从个人开发到企业核心业务的不同需求,价格差异显著。以下结合最新收费信息,用通俗语言梳理各机型配置与价格,包含优惠活动、续费规则及附加资源成本,帮助用户精准把控预算。
2026年阿里云轻量、ECS 与 GPU云服务器租用收费标准说明
|
8月前
|
存储 编解码 数据可视化
三维基因组|Hi-C 数据格式
三维基因组|Hi-C 数据格式
三维基因组|Hi-C 数据格式
|
8月前
|
算法 IDE 开发工具
蓝桥杯备赛经验帖
本文是作者blue分享的蓝桥杯备赛经验帖,旨在帮助刚接触算法竞赛的新手。文章从个人参赛经历出发,详细介绍了蓝桥杯的OI赛制特点、比赛流程以及备赛建议。作者强调了重点掌握基础数论、DFS、数组操作、二分法、动态规划等知识,并建议多参与线上赛,熟悉输入输出规则,同时避免盲目刷题或过度依赖力扣。通过参赛,作者不仅提升了编码能力,还结识了优秀的朋友,认识到自身差距,激励自己不断进步。此经验适合新手参考,大佬可略过。
778 4
|
并行计算 数据可视化 算法
CMplot & rMVP | 全基因组曼哈顿图和QQ图轻松可视化!
`CMplot`和`rMVP`是R语言中的两个包,用于全基因组关联分析(GWAS)的数据可视化。`CMplot`专注于曼哈顿图和QQ图的绘制,支持多种图表类型,如常见的SNP密度图、环状曼哈顿图、矩阵图、单条染色体图和多重曼哈顿图等。`rMVP`不仅包含了`CMplot`的功能,还支持更复杂的GWAS方法,如线性/混合线性模型和基因组选择算法,优化了内存管理和计算效率,特别适合大规模数据集。此外,它还提供PCA图和柱状图。两者都提供了丰富的参数定制图表。
1981 1
CMplot & rMVP | 全基因组曼哈顿图和QQ图轻松可视化!
|
数据可视化
R语言自定义图形:ggplot2中的主题与标签设置
【8月更文挑战第30天】`ggplot2`作为R语言中功能强大的绘图包,其自定义能力让数据可视化变得更加灵活和多样。通过合理使用`theme()`函数和`labs()`函数,以及`geom_text()`和`geom_label()`等几何对象,我们可以轻松创建出既美观又富有表达力的图形。希望本文的介绍能够帮助你更好地掌握`ggplot2`中的主题与标签设置技巧。
|
机器学习/深度学习 数据采集 TensorFlow
使用Python实现深度学习模型:智能药物研发与筛选
使用Python实现深度学习模型:智能药物研发与筛选
620 15
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。