文献丨转录组分析流程和常用软件-阿里云开发者社区

文献丨转录组分析流程和常用软件

2023-08-25 904

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 文献丨转录组分析流程和常用软件

今天继续分享" eQTLs play critical roles in regulating gene expression and identifying key regulators in rice "这篇文献，这里是最后的讨论和试验方法部分学习笔记。

讨论部分

这篇文章通过287份材料的转录组数据，鉴定出高质量的外显子变异体，根据表达数据发现，同一亚群的材料具有更多相似性，原因可能是每个亚群内存在特异表达基因。

和表型GWAS相同，eQTL分析也受到较大的连锁不平衡（LD）影响，从eQTL区间识别候选基因的过程很复杂。这篇文章中结合下游基因的共表达信息，确定关键调控因子。这些SNP之间是相互紧密连锁并影响下游基因的表达过程，调控网络略显复杂。

尽管eQTL区域的候选基因能够通过共表达和连锁不平衡来发现，但是构建全基因组的调控网络仍是难题。表型GWAS的QTL数量有限，相比之下，利用转录组表达数据和eQTL来识别候选基因更好，作者利用GWAS的数据结合转录组数据筛选候选基因。

TWAS和eQTL共定位识别到了GWAS遗漏的关键基因！由于转录组数据在时间（生长时期）和空间（采样位置）的特异性，它与表型数据的拟合程度是精细定位的关键。

作者在全基因组eQTL鉴定中，共发现了17个近端eQTL热点区和96个远端eQTL热点区，然后选择其中功能聚类显著和注释信息明确的热点区进行后续分析。

部分数据

传统的正向或者反向遗传学根据表型来找基因，而单独使用eQTL构建调控网络找基因更依赖基因注释，只能利用注释信息来推断关键基因。

eQTL常常被认为是连接基因和表型的桥梁，全面准确的基因注释信息将成为识别关键转录因子的有效工具。

综上所述，作者利用eQTL方法，结合转录组、基因组和表型数据，构建调控网络，通过分析热点区的基因，确定了关键调控因子，这种思路很值得学习。

方法部分

RNA测序和分析

利用illumina进行测序（hiseq2500）
获得150bp的双末端测序数据

软件与流程：

筛选：Trimmomatic（版本0.33）筛选原始数据，去除adapters和low bases
比对：Tophat2将fastq文件比对到参考基因组
计数：Stringtie统计每一千个碱基中片段数（FPKM）和reads的个数

筛选转录组和基因组SNPs

利用筛选过滤之后的转录组数据进行后续分析：

比对：STAR将转录组数据比对到参考基因组
鉴定：Sentieon Toolkit鉴定原始SNPs
过滤：VCFtools (v0.1.13)（参数如下）过滤原始SNPs，得到高质量SNPs

--minDP 4 --minQ 30 --max-missing 0.1 --maf 0.05

提取：PLINK提取SNPs，剔除<0.05的SNPs

群体遗传分析

RAxML：基于转录组数据构建最大似然树
iTOL：绘制进化树
EIGENSOFT：基于转录组的SNP数据进行PCA分析
ggplot2：绘制PCA分析结果图
ADMIXTURE：推断群体结构，通过逐渐增加k值，并在每个k值处计算较差验证误差，最终确定一个k值，该值处误差最小，即分为k个亚群时最优。

鉴定eQTL

作者在基因表达水平上，筛选FPKM不为零的基因，共从55801个基因中筛选到23325个基因，用于后续分析：

qqnorm（R中的一个函数）对基因的表达数据进行正态分位数转换
FAST-LMM根据所有材料的基因组SNPs信息，对每个基因进行GWAS分析
GEC计算SNPs的有效数目
eQTL block指至少含有三个显著SNP位点的区域
hot_scan识别远端eQTL热点区

富集分析

利用下面两个网站对获得的不同基因进行功能富集分析：

GO富集：http://systemsbiology.cau.edu.cn/agriGOv2/index.php
KEGG代谢通路：http://systemsbiology.cau.edu.cn/PlantGSEAv2/index.php

共表达分析

基因计数后，去除表达量为零的基因，然后对数据进行标准化处理，进行共表达分析

WGCNA是一款R包，用于对基因表达数据集中的基因进行共表达分析。

全基因组关联分析

FAST_LMM程序：通过LMM（linear mixed model线性混合模型）进行GWAS分析
GEC计算SNP的Me值

全转录组关联分析

去除中位表达量（median expression）等于0的基因，剩下的用于TWAS分析：

EMMAX软件利用LMM模型进行关联分析
根据基因组SNPs计算IBS亲缘关系矩阵

论文数据文件：

NCBI_SRA_PRJNA858547

END

往期推荐：

文献丨转录组分析流程和常用软件

讨论部分