文献速读|别人家的孟德尔随机化,全基因组纯生信30分Nature子刊

简介: Nature Genetics上的一篇高影响力(IF=30.8)文章利用孟德尔随机化分析了暴食症(BED)的遗传基础。研究通过机器学习预测个体患BED概率,进行全基因组关联研究,识别了与铁代谢相关的基因位点,如HFE、MCHR2、LRP11及APOE。这些发现揭示了BED的遗传信号与铁代谢的关联,为理解这种疾病的病理生理学提供了新见解,并为治疗研究指明方向。文章中还包括多个图表展示分析结果。读者可以通过后台回复特定代码获取文献。

今天给大家分享一篇IF=30.8的纯生信全基因组、孟德尔随机化的文章,于2023年8月7日在Nature Genetics上被接收:Genome-wide analysis of a model-derived binge eating disorder phenotype identifies risk loci and implicates iron metabolism,基于模型推导的暴食症表型的全基因组分析鉴定风险位点并揭示铁代谢

image.png

后台回复20230904下载文献

摘要

暴食症(BED)是最常见的饮食障碍,但其遗传结构仍然大致未知。研究BED具有挑战性,因为它经常伴随肥胖症发生,肥胖症是一种常见且高度多基因性状,并且在biobank数据集中经常被诊断不足。

为了解决这个限制,我们应用了有监督的机器学习方法(使用822例被诊断为BED的个体)来估计每个个体基于百万退伍军人计划的电子病历患有BED的概率。我们对非洲(n=77,574)和欧洲(n=285,138)血统的个体进行了全基因组关联研究,同时控制体质指数,识别了HFE、MCHR2和LRP11基因附近的三个独立位点,并建议APOE为BED的风险基因。我们发现BED与几种神经精神特性之间有共同的遗传性,并暗示铁代谢与BED的病理生理学有关。总的来说,我们的发现为BED背后的遗传学提供了洞察,并为未来的转化研究指明了方向。

结果

image.png

图 1 | 机器学习模型预测MVP中的BED

  • a, 机器学习LASSO logistic回归模型用于预测BED的前十个预测因子(y轴)。为了对预测因子进行排序,我们从一个类似的未惩罚的logistic回归模型中计算了未校正的P值与Wald Z检验。统计关联的强度(来自LASSO回归)在x轴上表示为beta,并在数据点的大小和颜色中表示,对应于未校正的双边P值的负log10(−log10(P))。小于10^−50的P值在该值上被限制。
  • b, 我们模型推导的BED分数与一个独立logistic回归的十个表型在保持集上有最强的关联,显示在y轴上。关联的强度在x轴上表示为双边95%置信区间的平均对数优势比。统计关联的强度(比较预测BED与每个phecode的预测)由数据点的颜色表示,对应于从单边差异的平均值Z检验生成的−log10(P)。由于我们测试BED的对数优势比是否高于其他表型的对数优势比,因此没有对BED进行测试,并且其颜色为灰色。
  • c, 用于预测包含10%数据的分层测试集中的BED的精确召回曲线(粗黑线)。在表型患病率为0.001的情况下,正预测值(PPV)为0.11。F1得分为21%。虚线灰线代表机会性表现。

image.png

图 2 | BED的双祖源GWAS

  • a,b, AFR-MD-BEDBM(上部)和EUR-MD-BEDBMI(下部)GWAS的Miami图(a);FEMA-MD-BEDBMI GWAS的曼哈顿图(b)。x轴表示相应SNP的染色体和位置。SNP-表型关联的强度在y轴上表示为从双边t检验生成的−log10(P)。红线代表全基因组显著性(P = 5.0 × 10^−8)。蓝线表示建议的全基因组关联阈值(P = 1.0 × 10^−5)。欧洲和FEMA GWAS共享的全基因组显著性命中标记为蓝色,并在欧洲复制队列中得到确认;FEMA中独特的全基因组显著性命中标记为红色,并没有在欧洲复制队列中得到复制。
  • c, AFR-MD-BEDBMI和EUR-MD-BED*BMI的效应大小之间的符号测试,逐渐限制SNP纳入阈值。具有相同符号的成团SNP的百分比显示在y轴上。引导SNP被包括在相关性分析中的阈值显示在x轴上,表示为未校正的双边P值。点的大小表示所包括的位点的log10计数。

image.png

之前已报道BED和BMI之间存在强烈的遗传相关性。为了在控制BMI的情况下研究BED的遗传基础,研究人员使用了逆序正态转换的模型推导BED (MD-BED) 分数,在非洲血统 (n = 77,574) 和欧洲血统 (n = 285,138) 的人群中进行了血统特异的GWAS。

  • 在欧洲血统的GWAS中,研究人员发现了两个全基因组显著的位点,一个位于HFE基因内,另一个位于MCHR2基因附近。其中,HFE位点的一个显著的SNP,rs1800562,与为血色病致病的C282Y错义变异对应。
  • 使用MAGMA,研究人员发现了与APOE基因的关联。
  • 使用连锁不平衡得分回归,研究人员计算了遗传度,并发现欧洲血统GWAS的h2为2.14%,而非洲血统GWAS的h2为1.65%。但是,对于非洲血统估算遗传度的限制是众所周知的,因此非洲的遗传度结果应该谨慎解读。

研究还尝试了跨祖源的SNP复制,但结果显示复制能力有限。为进一步研究BED的跨祖源遗传学,研究进行了固定效应的元分析,发现在汇总统计数据中,来自EUR-MD-BED*BMI GWAS的两个基因组显著基因座的主导SNP,以及一个位于LRP11内含子区的额外基因座均达到了基因组显著性水平。此外,进行了多祖源元分析,结果也得到了类似的结果。总之,研究揭示了BED与不同祖源间存在共同的遗传信号。

image.png

图3 | MD-BED表型的验证

  • a,五个欧洲BED相关表型的分层聚类(左)和遗传相关矩阵的热图(右)。灰色对角线遗传相关条目表示每个GWAS与自身之间的相关性为1。热图显示了每个比较的遗传相关值。
  • b,使用UKBB(461例)、PNC(531例)、ABCD(94例)队列以及这些队列的荟萃分析进行了EUR-MD-BEDBMI和EUR-ICD-BEDBMI GWAS的PRS验证。MVP(垂直)和外部(水平)队列显示在y轴上。PRS预测器的平均对数几率比显示在x轴上。置信区间为单侧标准误差,未校正的P值使用单侧Wald Z检验生成。P<0.05;**P<0.01。MD-BEDBMI PRS验证的P值如下:UKBB,P = 0.03;PNC,P = 0.02;ABCD,P = 0.13;Meta,P = 0.001。BED-ICD PRS验证的P值如下:UKBB,P = 0.44;PNC,P = 0.59;ABCD,P = 0.26;Meta,P = 0.44。

image.png

图4 | 与其他特征的遗传相关性

与EUR-MD-BED*BMI在FDR显著性阈值(q < 0.05)上具有显著遗传相关性的特征,根据y轴上的rg进行排序。平均遗传相关性的强度显示在x轴上,rg的95%置信区间显示在每个特征上,并且错误条的颜色与未校正P值相对应,该P值是在进行连锁不平衡得分回归时从双侧Z检验生成的。小于10^-10的P值被截断为该值。ADHD表示注意缺陷/多动障碍。

image.png

图5 | BED中的铁过载

  • a,EUR-MD-BEDBMI与EUR-BMI GWAS之间的PRS与铁过载(790例病例,385,100例对照组)和铁缺乏(11,247例病例,374,643例对照组)之间的关联。PRS分数和铁表型显示在y轴上。来自PRS预测的逻辑回归的系数,以对数几率比(均值±标准误)显示在x轴上。EUR-MD-BEDBMI PRS预测铁过载(P = 1.62 × 10^-60)和铁缺乏(P = 0.01)。EUR-BMI PRS预测铁缺乏(P = 1.03 × 10^-7),但不预测铁过载(P = 0.73)。P < 0.05,**P < 0.001。
  • b,来自deCODE、INTERVAL和EUR-MD-BEDBMI的转铁蛋白饱和度GWAS的主导SNP之间的广义线性回归的散点图。转铁蛋白饱和度主导SNP的β值显示在x轴上。EUR-MD-BEDBMI的β值显示在y轴上。来自GSMR的P值来自双侧Z检验。
  • c,在野生型(WT)和缺血缺氧突变小鼠红细胞中的开放染色质区域(OCR)中富集BED风险变异同源物(β-estradiol处理的WT,n = 1,010,459 OCR,P = 0.005;β-estradiol处理的双突变体,n = 1,263,093 OCR,P = 0.07;β-estradiol/5-ALA处理(48小时)的双突变体,n = 1,229,810 OCR,P = 0.15;β-estradiol/5-ALA处理(12小时)的双突变体,n = 1,229,810 OCR,P = 0.20;未处理的WT,n = 1,488,490 OCR,P = 0.23;未处理的双突变体,n = 1,001,591 OCR,P = 0.27)。细胞系显示在y轴上。遗传率显示在x轴上。正系数表示富集遗传率。点的大小反映双侧连锁不平衡得分回归Z检验的未校正P值的负对数(-log10(P))。误差线表示来自连锁不平衡得分回归均值估计的标准误差。#经FDR校正后P < 0.05。

要点

  • 总结:通过这些GWAS分析,研究者们确认并复制了两个基因座,一个额外的基因以及铁代谢与BED的病理生理学之间的关联,而这种关联独立于BMI。研究者们证明了BED是一种复杂的代谢-精神障碍,既涉及神经组织,也涉及已知影响脑功能的外周代谢途径。通过识别铁代谢的紊乱,他们发现了未来转化研究的一个可操作目标。
  • 看着是纯生信,孟德尔随机化,监督式机器学习,但是做队列研究的工作量一点也不少。这类神仙文章想复现还是难上加难的,权当膜拜一下吧~
目录
相关文章
|
6月前
|
数据库
新瓶装旧酒,纯生信三表一图孟德尔随机化8分Nature子刊
**摘要** 一项发表在《英国癌症杂志》(IF 8.8)上的研究利用孟德尔随机化方法分析了吸烟与结直肠癌(CRC)风险的关联。研究发现,吸烟开始会增加CRC风险,而戒烟则有保护效果,这些关联独立于其他吸烟特征和饮酒。通过基因预测的DNA甲基化,识别出CpG位点cg17823346 [ZMIZ1] 低甲基化降低CRC风险,而cg02149899高甲基化增加风险。共定位和基因-环境交互分析支持了这些表观遗传变化与CRC关联的生物学意义。研究强调了吸烟、DNA甲基化与CRC风险的显著联系,并为理解吸烟的致病机制提供了新见解。
90 2
|
6月前
|
算法 数据挖掘
Sentieon | 每周文献-Agrigenomics-第二十六期
Sentieon | 每周文献-Agrigenomics-第二十六期
42 0
|
4月前
|
传感器 自动驾驶 算法
自动驾驶理论新突破登Nature子刊!清华、密歇根联合提出三条技术路线,剑指稀疏度灾难
【7月更文挑战第6天】清华大学与密歇根大学研究团队在Nature子刊发表突破性成果,针对自动驾驶的“稀疏度灾难”提出三条技术路线:数据驱动、模型驱动及混合驱动,旨在提升系统应对罕见场景的能力,确保安全性和鲁棒性。这一进展为解决自动驾驶在复杂环境中的决策难题开辟了新途径。[论文链接](https://doi.org/10.1038/s41467-024-49194-0)**
44 3
|
5月前
|
数据采集 人工智能 算法
ICLR 2024 Spotlight:单模型斩获蛋白质突变预测榜一!西湖大学提出基于结构词表方法
【6月更文挑战第1天】西湖大学团队研发的蛋白质语言模型SaProt,在结构词表方法下,于蛋白质突变预测任务中荣登榜首。SaProt利用Foldseek编码的结构标记理解蛋白质行为,超越现有基准模型,在10个下游任务中表现出色。尽管训练资源需求大,且有特定任务优化空间,但该模型为生物医学研究带来新工具,促进科学理解与合作。论文链接:[https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4](https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4)
189 7
|
6月前
|
算法 数据挖掘
文献解读-群体基因组第一期|《对BMI的影响:探究BMI的基因型-环境效应》
该文探讨了童年不良经历(ACEs)如何通过基因型-环境交互作用影响体重指数(BMI)。研究基于43,000名参与者的全外显子测序数据,发现在ACEs暴露下,55个基因变异与BMI有显著关联。研究表明,ACEs不仅直接导致不良健康结果,还可能增强某些基因对健康的负面影响。因此,未来研究应重视童年经历对健康的影响及其与遗传变异的交互作用,以改善患者的整体健康。
41 1
|
6月前
|
算法 数据可视化 数据挖掘
JCR一区10.9分|单细胞:有一手数据的肿瘤课题组怎么冲高分文章
这篇文章介绍了在《肿瘤免疫疗法》杂志上发表的一项研究,该研究利用单细胞RNA测序技术揭示了肝细胞癌(HCC)中FABP1(脂肪酸结合蛋白1)依赖的免疫抑制环境。研究分析了II期和III期HCC患者样本的免疫细胞,发现FABP1在III期HCC的肿瘤相关巨噬细胞(TAMs)中过度表达,并与免疫抑制有关。FABP1与PPARG(过氧化物酶体增殖物激活受体伽玛)相互作用,促进了HCC中的脂肪酸氧化,进而影响免疫应答。
91 0
|
6月前
|
机器学习/深度学习 安全 算法
Sentieon | 每周文献-Epidemiology-第二十七期
Sentieon | 每周文献-Epidemiology-第二十七期
31 0
|
机器学习/深度学习 运维 自然语言处理
时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023(1)
时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023
717 1
|
机器学习/深度学习 运维 算法
时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023(2)
时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023
1489 0
|
机器学习/深度学习 算法 数据挖掘
清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述!
清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述!
166 0
清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述!