文献速读|别人家的孟德尔随机化,全基因组纯生信30分Nature子刊

简介: Nature Genetics上的一篇高影响力(IF=30.8)文章利用孟德尔随机化分析了暴食症(BED)的遗传基础。研究通过机器学习预测个体患BED概率,进行全基因组关联研究,识别了与铁代谢相关的基因位点,如HFE、MCHR2、LRP11及APOE。这些发现揭示了BED的遗传信号与铁代谢的关联,为理解这种疾病的病理生理学提供了新见解,并为治疗研究指明方向。文章中还包括多个图表展示分析结果。读者可以通过后台回复特定代码获取文献。

今天给大家分享一篇IF=30.8的纯生信全基因组、孟德尔随机化的文章,于2023年8月7日在Nature Genetics上被接收:Genome-wide analysis of a model-derived binge eating disorder phenotype identifies risk loci and implicates iron metabolism,基于模型推导的暴食症表型的全基因组分析鉴定风险位点并揭示铁代谢

image.png

后台回复20230904下载文献

摘要

暴食症(BED)是最常见的饮食障碍,但其遗传结构仍然大致未知。研究BED具有挑战性,因为它经常伴随肥胖症发生,肥胖症是一种常见且高度多基因性状,并且在biobank数据集中经常被诊断不足。

为了解决这个限制,我们应用了有监督的机器学习方法(使用822例被诊断为BED的个体)来估计每个个体基于百万退伍军人计划的电子病历患有BED的概率。我们对非洲(n=77,574)和欧洲(n=285,138)血统的个体进行了全基因组关联研究,同时控制体质指数,识别了HFE、MCHR2和LRP11基因附近的三个独立位点,并建议APOE为BED的风险基因。我们发现BED与几种神经精神特性之间有共同的遗传性,并暗示铁代谢与BED的病理生理学有关。总的来说,我们的发现为BED背后的遗传学提供了洞察,并为未来的转化研究指明了方向。

结果

image.png

图 1 | 机器学习模型预测MVP中的BED

  • a, 机器学习LASSO logistic回归模型用于预测BED的前十个预测因子(y轴)。为了对预测因子进行排序,我们从一个类似的未惩罚的logistic回归模型中计算了未校正的P值与Wald Z检验。统计关联的强度(来自LASSO回归)在x轴上表示为beta,并在数据点的大小和颜色中表示,对应于未校正的双边P值的负log10(−log10(P))。小于10^−50的P值在该值上被限制。
  • b, 我们模型推导的BED分数与一个独立logistic回归的十个表型在保持集上有最强的关联,显示在y轴上。关联的强度在x轴上表示为双边95%置信区间的平均对数优势比。统计关联的强度(比较预测BED与每个phecode的预测)由数据点的颜色表示,对应于从单边差异的平均值Z检验生成的−log10(P)。由于我们测试BED的对数优势比是否高于其他表型的对数优势比,因此没有对BED进行测试,并且其颜色为灰色。
  • c, 用于预测包含10%数据的分层测试集中的BED的精确召回曲线(粗黑线)。在表型患病率为0.001的情况下,正预测值(PPV)为0.11。F1得分为21%。虚线灰线代表机会性表现。

image.png

图 2 | BED的双祖源GWAS

  • a,b, AFR-MD-BEDBM(上部)和EUR-MD-BEDBMI(下部)GWAS的Miami图(a);FEMA-MD-BEDBMI GWAS的曼哈顿图(b)。x轴表示相应SNP的染色体和位置。SNP-表型关联的强度在y轴上表示为从双边t检验生成的−log10(P)。红线代表全基因组显著性(P = 5.0 × 10^−8)。蓝线表示建议的全基因组关联阈值(P = 1.0 × 10^−5)。欧洲和FEMA GWAS共享的全基因组显著性命中标记为蓝色,并在欧洲复制队列中得到确认;FEMA中独特的全基因组显著性命中标记为红色,并没有在欧洲复制队列中得到复制。
  • c, AFR-MD-BEDBMI和EUR-MD-BED*BMI的效应大小之间的符号测试,逐渐限制SNP纳入阈值。具有相同符号的成团SNP的百分比显示在y轴上。引导SNP被包括在相关性分析中的阈值显示在x轴上,表示为未校正的双边P值。点的大小表示所包括的位点的log10计数。

image.png

之前已报道BED和BMI之间存在强烈的遗传相关性。为了在控制BMI的情况下研究BED的遗传基础,研究人员使用了逆序正态转换的模型推导BED (MD-BED) 分数,在非洲血统 (n = 77,574) 和欧洲血统 (n = 285,138) 的人群中进行了血统特异的GWAS。

  • 在欧洲血统的GWAS中,研究人员发现了两个全基因组显著的位点,一个位于HFE基因内,另一个位于MCHR2基因附近。其中,HFE位点的一个显著的SNP,rs1800562,与为血色病致病的C282Y错义变异对应。
  • 使用MAGMA,研究人员发现了与APOE基因的关联。
  • 使用连锁不平衡得分回归,研究人员计算了遗传度,并发现欧洲血统GWAS的h2为2.14%,而非洲血统GWAS的h2为1.65%。但是,对于非洲血统估算遗传度的限制是众所周知的,因此非洲的遗传度结果应该谨慎解读。

研究还尝试了跨祖源的SNP复制,但结果显示复制能力有限。为进一步研究BED的跨祖源遗传学,研究进行了固定效应的元分析,发现在汇总统计数据中,来自EUR-MD-BED*BMI GWAS的两个基因组显著基因座的主导SNP,以及一个位于LRP11内含子区的额外基因座均达到了基因组显著性水平。此外,进行了多祖源元分析,结果也得到了类似的结果。总之,研究揭示了BED与不同祖源间存在共同的遗传信号。

image.png

图3 | MD-BED表型的验证

  • a,五个欧洲BED相关表型的分层聚类(左)和遗传相关矩阵的热图(右)。灰色对角线遗传相关条目表示每个GWAS与自身之间的相关性为1。热图显示了每个比较的遗传相关值。
  • b,使用UKBB(461例)、PNC(531例)、ABCD(94例)队列以及这些队列的荟萃分析进行了EUR-MD-BEDBMI和EUR-ICD-BEDBMI GWAS的PRS验证。MVP(垂直)和外部(水平)队列显示在y轴上。PRS预测器的平均对数几率比显示在x轴上。置信区间为单侧标准误差,未校正的P值使用单侧Wald Z检验生成。P<0.05;**P<0.01。MD-BEDBMI PRS验证的P值如下:UKBB,P = 0.03;PNC,P = 0.02;ABCD,P = 0.13;Meta,P = 0.001。BED-ICD PRS验证的P值如下:UKBB,P = 0.44;PNC,P = 0.59;ABCD,P = 0.26;Meta,P = 0.44。

image.png

图4 | 与其他特征的遗传相关性

与EUR-MD-BED*BMI在FDR显著性阈值(q < 0.05)上具有显著遗传相关性的特征,根据y轴上的rg进行排序。平均遗传相关性的强度显示在x轴上,rg的95%置信区间显示在每个特征上,并且错误条的颜色与未校正P值相对应,该P值是在进行连锁不平衡得分回归时从双侧Z检验生成的。小于10^-10的P值被截断为该值。ADHD表示注意缺陷/多动障碍。

image.png

图5 | BED中的铁过载

  • a,EUR-MD-BEDBMI与EUR-BMI GWAS之间的PRS与铁过载(790例病例,385,100例对照组)和铁缺乏(11,247例病例,374,643例对照组)之间的关联。PRS分数和铁表型显示在y轴上。来自PRS预测的逻辑回归的系数,以对数几率比(均值±标准误)显示在x轴上。EUR-MD-BEDBMI PRS预测铁过载(P = 1.62 × 10^-60)和铁缺乏(P = 0.01)。EUR-BMI PRS预测铁缺乏(P = 1.03 × 10^-7),但不预测铁过载(P = 0.73)。P < 0.05,**P < 0.001。
  • b,来自deCODE、INTERVAL和EUR-MD-BEDBMI的转铁蛋白饱和度GWAS的主导SNP之间的广义线性回归的散点图。转铁蛋白饱和度主导SNP的β值显示在x轴上。EUR-MD-BEDBMI的β值显示在y轴上。来自GSMR的P值来自双侧Z检验。
  • c,在野生型(WT)和缺血缺氧突变小鼠红细胞中的开放染色质区域(OCR)中富集BED风险变异同源物(β-estradiol处理的WT,n = 1,010,459 OCR,P = 0.005;β-estradiol处理的双突变体,n = 1,263,093 OCR,P = 0.07;β-estradiol/5-ALA处理(48小时)的双突变体,n = 1,229,810 OCR,P = 0.15;β-estradiol/5-ALA处理(12小时)的双突变体,n = 1,229,810 OCR,P = 0.20;未处理的WT,n = 1,488,490 OCR,P = 0.23;未处理的双突变体,n = 1,001,591 OCR,P = 0.27)。细胞系显示在y轴上。遗传率显示在x轴上。正系数表示富集遗传率。点的大小反映双侧连锁不平衡得分回归Z检验的未校正P值的负对数(-log10(P))。误差线表示来自连锁不平衡得分回归均值估计的标准误差。#经FDR校正后P < 0.05。

要点

  • 总结:通过这些GWAS分析,研究者们确认并复制了两个基因座,一个额外的基因以及铁代谢与BED的病理生理学之间的关联,而这种关联独立于BMI。研究者们证明了BED是一种复杂的代谢-精神障碍,既涉及神经组织,也涉及已知影响脑功能的外周代谢途径。通过识别铁代谢的紊乱,他们发现了未来转化研究的一个可操作目标。
  • 看着是纯生信,孟德尔随机化,监督式机器学习,但是做队列研究的工作量一点也不少。这类神仙文章想复现还是难上加难的,权当膜拜一下吧~
目录
相关文章
|
2天前
|
数据库
新瓶装旧酒,纯生信三表一图孟德尔随机化8分Nature子刊
**摘要** 一项发表在《英国癌症杂志》(IF 8.8)上的研究利用孟德尔随机化方法分析了吸烟与结直肠癌(CRC)风险的关联。研究发现,吸烟开始会增加CRC风险,而戒烟则有保护效果,这些关联独立于其他吸烟特征和饮酒。通过基因预测的DNA甲基化,识别出CpG位点cg17823346 [ZMIZ1] 低甲基化降低CRC风险,而cg02149899高甲基化增加风险。共定位和基因-环境交互分析支持了这些表观遗传变化与CRC关联的生物学意义。研究强调了吸烟、DNA甲基化与CRC风险的显著联系,并为理解吸烟的致病机制提供了新见解。
40 2
|
2天前
|
机器学习/深度学习 弹性计算 数据可视化
玩ST、肿瘤研究的来学习一下!16分Nature子刊的单细胞空间转录组+机器学习
Nature Communications 发表了一项关于空间转录组和机器学习在肿瘤研究中的应用。研究聚焦于HPV阴性口腔鳞状细胞癌,通过整合单细胞和空间转录组分析,揭示了肿瘤核心(TC)和前沿边缘(LE)的独特转录特征。TC和LE的基因表达模式与多种癌症的预后相关,其中LE基因标志关联不良预后,而TC则与较好预后相关。利用机器学习,研究人员建立了预测模型,识别出跨癌症类型的保守TC和LE特征。此外,他们还分析了RNA剪接动态,发现了潜在的治疗脆弱性。这项工作为肿瘤生物学和靶向治疗提供了新见解,并为药物开发提供了依据。
32 0
|
2天前
|
算法 安全 数据挖掘
Sentieon | 每周文献-Tumor Sequencing-第十四期
Sentieon | 每周文献-Tumor Sequencing-第十四期
43 0
|
9月前
刚刚,常温常压超导首被证明理论可行:美顶尖实验室论文出炉
刚刚,常温常压超导首被证明理论可行:美顶尖实验室论文出炉
133 0
|
10月前
|
算法 数据挖掘
Sentieon | 每周文献-Genetic Disease(遗传病)-第二期
Genetic Disease(遗传病)系列文章解读
50 0
|
12月前
|
机器学习/深度学习 算法 异构计算
突破神经网络限制,量子蒙特卡洛研究新进展登Nature子刊
突破神经网络限制,量子蒙特卡洛研究新进展登Nature子刊
109 0
|
机器学习/深度学习 人工智能 搜索推荐
Nature子刊 | 像婴儿一样学习,DeepMind新模型28小时学会物理世界规则
Nature子刊 | 像婴儿一样学习,DeepMind新模型28小时学会物理世界规则
|
机器学习/深度学习 人工智能 算法
CVPR 2022 | 应对噪声标签,西安大略大学、字节跳动等提出对比正则化方法
CVPR 2022 | 应对噪声标签,西安大略大学、字节跳动等提出对比正则化方法
159 0
|
机器学习/深度学习 人工智能 自然语言处理
超越诺奖?生物界「ChatGPT」首次实现从零合成全新蛋白,登Nature子刊!喂了2.8亿种氨基酸序列
超越诺奖?生物界「ChatGPT」首次实现从零合成全新蛋白,登Nature子刊!喂了2.8亿种氨基酸序列
|
机器学习/深度学习 算法 数据挖掘
清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述!
清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述!
107 0
清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述!