今天给大家分享一篇IF=30.8
的纯生信全基因组、孟德尔随机化的文章,于2023年8月7日在Nature Genetics上被接收:Genome-wide analysis of a model-derived binge eating disorder phenotype identifies risk loci and implicates iron metabolism,基于模型推导的暴食症表型的全基因组分析鉴定风险位点并揭示铁代谢
后台回复20230904下载文献
摘要
暴食症(BED)是最常见的饮食障碍,但其遗传结构仍然大致未知。研究BED具有挑战性,因为它经常伴随肥胖症发生,肥胖症是一种常见且高度多基因性状,并且在biobank数据集中经常被诊断不足。
为了解决这个限制,我们应用了有监督的机器学习方法(使用822例被诊断为BED的个体)来估计每个个体基于百万退伍军人计划的电子病历患有BED的概率。我们对非洲(n=77,574)和欧洲(n=285,138)血统的个体进行了全基因组关联研究,同时控制体质指数,识别了HFE、MCHR2和LRP11基因附近的三个独立位点,并建议APOE为BED的风险基因。我们发现BED与几种神经精神特性之间有共同的遗传性,并暗示铁代谢与BED的病理生理学有关。总的来说,我们的发现为BED背后的遗传学提供了洞察,并为未来的转化研究指明了方向。
结果
图 1 | 机器学习模型预测MVP中的BED
- a, 机器学习LASSO logistic回归模型用于预测BED的前十个预测因子(y轴)。为了对预测因子进行排序,我们从一个类似的未惩罚的logistic回归模型中计算了未校正的P值与Wald Z检验。统计关联的强度(来自LASSO回归)在x轴上表示为beta,并在数据点的大小和颜色中表示,对应于未校正的双边P值的负log10(−log10(P))。小于10^−50的P值在该值上被限制。
- b, 我们模型推导的BED分数与一个独立logistic回归的十个表型在保持集上有最强的关联,显示在y轴上。关联的强度在x轴上表示为双边95%置信区间的平均对数优势比。统计关联的强度(比较预测BED与每个phecode的预测)由数据点的颜色表示,对应于从单边差异的平均值Z检验生成的−log10(P)。由于我们测试BED的对数优势比是否高于其他表型的对数优势比,因此没有对BED进行测试,并且其颜色为灰色。
- c, 用于预测包含10%数据的分层测试集中的BED的精确召回曲线(粗黑线)。在表型患病率为0.001的情况下,正预测值(PPV)为0.11。F1得分为21%。虚线灰线代表机会性表现。
图 2 | BED的双祖源GWAS
- a,b, AFR-MD-BEDBM(上部)和EUR-MD-BEDBMI(下部)GWAS的Miami图(a);FEMA-MD-BEDBMI GWAS的曼哈顿图(b)。x轴表示相应SNP的染色体和位置。SNP-表型关联的强度在y轴上表示为从双边t检验生成的−log10(P)。红线代表全基因组显著性(P = 5.0 × 10^−8)。蓝线表示建议的全基因组关联阈值(P = 1.0 × 10^−5)。欧洲和FEMA GWAS共享的全基因组显著性命中标记为蓝色,并在欧洲复制队列中得到确认;FEMA中独特的全基因组显著性命中标记为红色,并没有在欧洲复制队列中得到复制。
- c, AFR-MD-BEDBMI和EUR-MD-BED*BMI的效应大小之间的符号测试,逐渐限制SNP纳入阈值。具有相同符号的成团SNP的百分比显示在y轴上。引导SNP被包括在相关性分析中的阈值显示在x轴上,表示为未校正的双边P值。点的大小表示所包括的位点的log10计数。
之前已报道BED和BMI之间存在强烈的遗传相关性。为了在控制BMI的情况下研究BED的遗传基础,研究人员使用了逆序正态转换的模型推导BED (MD-BED) 分数,在非洲血统 (n = 77,574) 和欧洲血统 (n = 285,138) 的人群中进行了血统特异的GWAS。
- 在欧洲血统的GWAS中,研究人员发现了两个全基因组显著的位点,一个位于HFE基因内,另一个位于MCHR2基因附近。其中,HFE位点的一个显著的SNP,rs1800562,与为血色病致病的C282Y错义变异对应。
- 使用MAGMA,研究人员发现了与APOE基因的关联。
- 使用连锁不平衡得分回归,研究人员计算了遗传度,并发现欧洲血统GWAS的h2为2.14%,而非洲血统GWAS的h2为1.65%。但是,对于非洲血统估算遗传度的限制是众所周知的,因此非洲的遗传度结果应该谨慎解读。
研究还尝试了跨祖源的SNP复制,但结果显示复制能力有限。为进一步研究BED的跨祖源遗传学,研究进行了固定效应的元分析,发现在汇总统计数据中,来自EUR-MD-BED*BMI GWAS的两个基因组显著基因座的主导SNP,以及一个位于LRP11内含子区的额外基因座均达到了基因组显著性水平。此外,进行了多祖源元分析,结果也得到了类似的结果。总之,研究揭示了BED与不同祖源间存在共同的遗传信号。
图3 | MD-BED表型的验证
- a,五个欧洲BED相关表型的分层聚类(左)和遗传相关矩阵的热图(右)。灰色对角线遗传相关条目表示每个GWAS与自身之间的相关性为1。热图显示了每个比较的遗传相关值。
- b,使用UKBB(461例)、PNC(531例)、ABCD(94例)队列以及这些队列的荟萃分析进行了EUR-MD-BEDBMI和EUR-ICD-BEDBMI GWAS的PRS验证。MVP(垂直)和外部(水平)队列显示在y轴上。PRS预测器的平均对数几率比显示在x轴上。置信区间为单侧标准误差,未校正的P值使用单侧Wald Z检验生成。P<0.05;**P<0.01。MD-BEDBMI PRS验证的P值如下:UKBB,P = 0.03;PNC,P = 0.02;ABCD,P = 0.13;Meta,P = 0.001。BED-ICD PRS验证的P值如下:UKBB,P = 0.44;PNC,P = 0.59;ABCD,P = 0.26;Meta,P = 0.44。
图4 | 与其他特征的遗传相关性
与EUR-MD-BED*BMI在FDR显著性阈值(q < 0.05)上具有显著遗传相关性的特征,根据y轴上的rg进行排序。平均遗传相关性的强度显示在x轴上,rg的95%置信区间显示在每个特征上,并且错误条的颜色与未校正P值相对应,该P值是在进行连锁不平衡得分回归时从双侧Z检验生成的。小于10^-10的P值被截断为该值。ADHD表示注意缺陷/多动障碍。
图5 | BED中的铁过载
- a,EUR-MD-BEDBMI与EUR-BMI GWAS之间的PRS与铁过载(790例病例,385,100例对照组)和铁缺乏(11,247例病例,374,643例对照组)之间的关联。PRS分数和铁表型显示在y轴上。来自PRS预测的逻辑回归的系数,以对数几率比(均值±标准误)显示在x轴上。EUR-MD-BEDBMI PRS预测铁过载(P = 1.62 × 10^-60)和铁缺乏(P = 0.01)。EUR-BMI PRS预测铁缺乏(P = 1.03 × 10^-7),但不预测铁过载(P = 0.73)。P < 0.05,**P < 0.001。
- b,来自deCODE、INTERVAL和EUR-MD-BEDBMI的转铁蛋白饱和度GWAS的主导SNP之间的广义线性回归的散点图。转铁蛋白饱和度主导SNP的β值显示在x轴上。EUR-MD-BEDBMI的β值显示在y轴上。来自GSMR的P值来自双侧Z检验。
- c,在野生型(WT)和缺血缺氧突变小鼠红细胞中的开放染色质区域(OCR)中富集BED风险变异同源物(β-estradiol处理的WT,n = 1,010,459 OCR,P = 0.005;β-estradiol处理的双突变体,n = 1,263,093 OCR,P = 0.07;β-estradiol/5-ALA处理(48小时)的双突变体,n = 1,229,810 OCR,P = 0.15;β-estradiol/5-ALA处理(12小时)的双突变体,n = 1,229,810 OCR,P = 0.20;未处理的WT,n = 1,488,490 OCR,P = 0.23;未处理的双突变体,n = 1,001,591 OCR,P = 0.27)。细胞系显示在y轴上。遗传率显示在x轴上。正系数表示富集遗传率。点的大小反映双侧连锁不平衡得分回归Z检验的未校正P值的负对数(-log10(P))。误差线表示来自连锁不平衡得分回归均值估计的标准误差。#经FDR校正后P < 0.05。
要点
- 总结:通过这些GWAS分析,研究者们确认并复制了两个基因座,一个额外的基因以及铁代谢与BED的病理生理学之间的关联,而这种关联独立于BMI。研究者们证明了BED是一种复杂的代谢-精神障碍,既涉及神经组织,也涉及已知影响脑功能的外周代谢途径。通过识别铁代谢的紊乱,他们发现了未来转化研究的一个可操作目标。
- 看着是纯生信,孟德尔随机化,监督式机器学习,但是做队列研究的工作量一点也不少。这类神仙文章想复现还是难上加难的,权当膜拜一下吧~