文献丨群体转录组分析eQTLs调控基因表达

简介: 文献丨群体转录组分析eQTLs调控基因表达

最近在学习一篇群体转录组和eQTLs相关的文献,做一个简单的笔记。该论文分析了287份材料的转录组数据,并在一个远端eQTL调控热点中鉴定到一个关键转录因子,它能够激活下游抗毒素合成相关基因的表达,从而影响水稻抗毒素的代谢水平和抗病性。文章篇幅比较长,可能会分成好几部分,今天分享的是第一部分

" eQTLs play critical roles in regulating gene expression and identifying key regulators in rice  "

中文题目:eQTLs在水稻基因表达调控和关键调控因子的鉴定中具有关键作用

关键词:群体转录组,表达数量性状位点,关键调控因子,全转录组关联研究

DOI:10.1111/pbi.13912

主要内容摘要

  • 基因表达调控对植物的表型起着重要作用,转录组测序可以同时识别外显子变异定量基因表达
  • 本文对287份水稻材料的叶片转录组进行测序,获得177853个高质量的SNP位点。
  • GWAS分析出44354个eQTLs,调控13201基因的表达,以及17个局部eQTL和96个远缘eQTL。
  • 全转录组关联研究(TWAS)筛选了21个与抽穗期淀粉含量有关的候选基因
  • HS002是一个显著的远端EQTL热点,具有5个丰富的下游基因用于二萜抗毒素合成。共表达分析、eQTL分析和连锁定位表明BHLH026是激活下游基因表达的关键调控因子。BHLH026是水稻合成二萜类抗毒素的重要调控因子,具有增强水稻抗病性的作用。

以上研究结果提高了对水稻基因组基因表达、变异和复杂调控网络调控机制的认识,并促进栽培水稻品种的遗传改良

基因表达是联系基因(内)和表型(外)的桥梁,在调控植物发育过程中有非常重要的作用。识别影响基因表达水平的eQTLs,对理解基因组变异调控基因表达水平以及基因组信息如何通过中心法则传递到形态表型至关重要。

GWAS通过检测基因型和表型的变异来识别关联情况,但由于连锁不平衡的衰减和基因注释的局限性,该法不能准确识别候选基因和基因的功能。

transcriptome-wide association study (TWAS)  全转录组关联分析

TWAS能更准确地预测表型变异的候选基因,eQTL结合GWAS的数据能更加精确的定位基因位点。

研究结果

转录组测序及外显子SNP鉴定

作者从533份微核心种质资源中选出287份代表性品种,抽穗期取样进行转录组测序,得到110亿个双末端reads,质控后比对到参考基因组量化表达水平,其中特异性reads占70%左右。

然后,作者从数据中筛选出了177853个高质量SNP,用贝叶斯聚类方法对287份材料的群体结构进行分析。

  • k=9处,cv误差值最小
  • k=3处,三个水稻亚群最明显
  • k=6处,进一步将粳稻划分为两个亚群

根据最大似然法建立系统发育树,结果表明籼稻、粳稻和Aus亚群体位于不同的分支。

PCA主成分分析的结果也显示籼、粳和Aus亚群体的聚类关系,这些结果证明了作者的材料群体能够捕捉到丰富的遗传变异,能够支撑后续的研究工作。

eQTLs的全基因组定位

作者通过对转录组数据进行定量分析,确定了23325个在叶片中表达的基因,占到基因组注释基因总数的41%左右。

使用Fast-LMM软件,对287份材料的基因表达与基因组SNP数据进行关联分析,结果得出:14562个基因的表达与SNP具有显著相关性,作者通过聚类法将同一基因相关的多个SNP确定为eQTL区,总共从13201个基因中确定了44354个eQTLs,根据基因和SNP的位置观察,发现呈对角线富集。

除此之外,根据eQTL和基因的相对位置分为近端eQTL(local,小于100kb)和远端eQTL(distant,大于100kb),74%的基因具有近端eQTL,近端eQTL对基因表达的影响大于远端eQTL。作者发现基因受eQTL调控方面,平均单个基因对应3.4个eQTL:

  • 9853个基因受近端eQTL调控
  • 8427个基因受远端eQTL调控
  • 5079个基因受两者同时调控

TSS表示转录起始位点,通过下图可以清楚的发现,大多数eQTLs都在基因附近,随着距离TSS越来越远,eQTL的分布减少,大约60%的eQTLs在30kb内。

近端eQTLs和共调控基因簇的鉴定

上面提到近端eQTL对基因表达调控具有更重要的作用。接下来作者进行基因富集分析。

  • KEGG富集显示这些基因在次生代谢产物合成过程中富集最为显著。
  • GO富集显示这些具有eQTL的基因在蛋白修饰、细胞死亡、应激反应等方面富集。

这些结果表明,具有近端eQTL调控的基因可能在次生代谢产物和合成、加工等过程发挥一定作用。

以往的研究表明,一个基因区域内可能含有大量的eQTLs并且影响着多个基因的表达。这个区域不均分分布,称其为“eQTL调控热点”,作者通过hot_scan软件鉴定了17个近端eQTL热点。结果表明大部分位于染色体的末端,而着丝粒附近很少(这可能与表达抑制或着丝粒逃逸有关)

作者对17个近端eQTL热点进行富集分析和与代谢基因簇的重叠分析,表明eQTL热点与代谢途径有关。

调控热点区包含26个与合成3-磷酸甘油相关的基因。作者发现eQTL和基因形成共调控基因簇,并发现同一簇内的基因在玉米中具有相似的表达模式。

随后,作者检测了所有注释基因在3-磷酸甘油合成中的共表达,在热点区中显示了六种不同的表达模式和四个共调控基因簇。

同样,在另外一个样品中检测到6个油菜素类固醇合成相关基因,对43个油菜素类固醇合成相关基因的共表达分析显示了三种不同的表达模式,发现了一个共调控基因簇。

这些结果表明,由同一地方eQTL共同调控的基因簇在水稻中也普遍存在。

根据基因组和转录组解释表型变异

作者对287份材料的淀粉含量也进行了测定,然后利用GWAS分析出了25个与淀粉含量相关的关键基因座,然后用TWAS分析,结合表达数据和表型数据,检测到21个候选基因。

时间有限,每天学一点儿,剩下的内容请关注下一篇文献阅读笔记,如果感觉有用的话欢迎分享,也可以后台催更哈哈哈哈,感谢支持!

【参考文献】Liu, C., Zhu, X., Zhang, J., Shen, M., Chen, K., Fu, X., Ma, L., Liu, X., Zhou, C., Zhou, D. and Wang, G. (2022) eQTLs play critical roles in regulating gene expression and identifying key regulators in rice. Plant Biotechnol J., https://doi.org/10.1111/pbi.13912.

END

© 素材来源于网络,侵权请联系后台删除

点击查看往期推荐:

文献丨转录组RNA seq——青年阶段!

相关文章
|
6月前
|
算法 数据挖掘 Go
文献速读|5分生信+免疫组化单细胞联合bulk转录组肿瘤预后模型
研究摘要: 在《Cancer Immunology Immunotherapy》上发表的一篇文章,通过整合Bulk和单细胞RNA-seq数据,探讨了非小细胞肺癌(NSCLC)中癌相关纤维细胞(CAF)的作用。研究者识别出CAF的预后标志物,构建了一个基于CAF的模型,该模型在四个独立队列中区分了预后良好的和较差的患者。WGCNA分析鉴定出CAF标记基因,而CAF分数与免疫微环境和免疫治疗反应相关。高CAF分数关联较差的免疫治疗反应,FBLIM1被发现为CAF的主要来源,其高表达预测了免疫疗法的不良反应。该研究揭示了CAF在NSCLC免疫抑制和治疗策略中的重要地位。
173 1
|
网络协议 大数据 数据挖掘
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(二)
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(二)
|
29天前
单细胞 | 转录因子足迹分析
单细胞 | 转录因子足迹分析
38 20
单细胞 | 转录因子足迹分析
|
4月前
|
机器学习/深度学习 Python
贝叶斯分析与决策理论:用于确定分类问题决策点的应用
在分类问题中,一个常见的难题是决定输出为数字时各类别之间的切分点
63 9
贝叶斯分析与决策理论:用于确定分类问题决策点的应用
|
6月前
|
数据可视化 数据挖掘
singleCellNet(代码开源)|单细胞层面对细胞分类进行评估,褒贬不一,有胜于无
`singleCellNet`是一款用于单细胞数据分析的R包,主要功能是进行细胞分类评估。它支持多物种和多分组分析,并提供了一个名为`CellNet`的类似工具的示例数据集。用户可以通过安装R包并下载测试数据来运行demo。在demo中,首先加载查询和测试数据,然后训练分类器,接着进行评估,包括查看准确率和召回率的曲线图、分类热图和比例堆积图等。此外,`singleCellNet`还支持跨物种评估,将人类基因映射到小鼠直系同源物进行分析。整体而言,`singleCellNet`是一个用于单细胞分类评估的综合工具,适用于相关领域的研究。
90 6
|
6月前
|
数据采集 数据挖掘
多维因素与学生辍学风险预测附录
多维因素与学生辍学风险预测附录
|
6月前
|
搜索推荐 数据挖掘 Java
文献速读|7分的干湿结合胃癌单细胞联合bulk转录组+线粒体自噬
研究人员通过单细胞和bulk RNA测序,鉴定出18个线粒体自噬相关基因(MRGs),在胃癌中的预后作用。这些基因可能成为新的生物标志物和治疗靶点。分析显示GABARAPL2和CDC37在上皮细胞中高度表达,与免疫浸润和预后相关。构建的风险模型在多个独立队列中验证有效,表明MRGs可改善预后预测,并提示免疫治疗潜力。研究强调了单细胞分析在理解疾病复杂性和指导个性化治疗中的价值。
151 3
|
大数据 数据挖掘 Go
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(一)
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控
|
数据可视化 大数据 数据挖掘
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(三)
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(三)
|
算法
基于模态凝聚算法的特征系统实现算法的自然激励技术(Matlab代码实现)
基于模态凝聚算法的特征系统实现算法的自然激励技术(Matlab代码实现)
108 0