文献速读|别人家的孟德尔随机化,全基因组纯生信30分Nature子刊

简介: Nature Genetics上的一篇高影响力(IF=30.8)文章利用孟德尔随机化分析了暴食症(BED)的遗传基础。研究通过机器学习预测个体患BED概率,进行全基因组关联研究,识别了与铁代谢相关的基因位点,如HFE、MCHR2、LRP11及APOE。这些发现揭示了BED的遗传信号与铁代谢的关联,为理解这种疾病的病理生理学提供了新见解,并为治疗研究指明方向。文章中还包括多个图表展示分析结果。读者可以通过后台回复特定代码获取文献。

今天给大家分享一篇IF=30.8的纯生信全基因组、孟德尔随机化的文章,于2023年8月7日在Nature Genetics上被接收:Genome-wide analysis of a model-derived binge eating disorder phenotype identifies risk loci and implicates iron metabolism,基于模型推导的暴食症表型的全基因组分析鉴定风险位点并揭示铁代谢

image.png

后台回复20230904下载文献

摘要

暴食症(BED)是最常见的饮食障碍,但其遗传结构仍然大致未知。研究BED具有挑战性,因为它经常伴随肥胖症发生,肥胖症是一种常见且高度多基因性状,并且在biobank数据集中经常被诊断不足。

为了解决这个限制,我们应用了有监督的机器学习方法(使用822例被诊断为BED的个体)来估计每个个体基于百万退伍军人计划的电子病历患有BED的概率。我们对非洲(n=77,574)和欧洲(n=285,138)血统的个体进行了全基因组关联研究,同时控制体质指数,识别了HFE、MCHR2和LRP11基因附近的三个独立位点,并建议APOE为BED的风险基因。我们发现BED与几种神经精神特性之间有共同的遗传性,并暗示铁代谢与BED的病理生理学有关。总的来说,我们的发现为BED背后的遗传学提供了洞察,并为未来的转化研究指明了方向。

结果

image.png

图 1 | 机器学习模型预测MVP中的BED

  • a, 机器学习LASSO logistic回归模型用于预测BED的前十个预测因子(y轴)。为了对预测因子进行排序,我们从一个类似的未惩罚的logistic回归模型中计算了未校正的P值与Wald Z检验。统计关联的强度(来自LASSO回归)在x轴上表示为beta,并在数据点的大小和颜色中表示,对应于未校正的双边P值的负log10(−log10(P))。小于10^−50的P值在该值上被限制。
  • b, 我们模型推导的BED分数与一个独立logistic回归的十个表型在保持集上有最强的关联,显示在y轴上。关联的强度在x轴上表示为双边95%置信区间的平均对数优势比。统计关联的强度(比较预测BED与每个phecode的预测)由数据点的颜色表示,对应于从单边差异的平均值Z检验生成的−log10(P)。由于我们测试BED的对数优势比是否高于其他表型的对数优势比,因此没有对BED进行测试,并且其颜色为灰色。
  • c, 用于预测包含10%数据的分层测试集中的BED的精确召回曲线(粗黑线)。在表型患病率为0.001的情况下,正预测值(PPV)为0.11。F1得分为21%。虚线灰线代表机会性表现。

image.png

图 2 | BED的双祖源GWAS

  • a,b, AFR-MD-BEDBM(上部)和EUR-MD-BEDBMI(下部)GWAS的Miami图(a);FEMA-MD-BEDBMI GWAS的曼哈顿图(b)。x轴表示相应SNP的染色体和位置。SNP-表型关联的强度在y轴上表示为从双边t检验生成的−log10(P)。红线代表全基因组显著性(P = 5.0 × 10^−8)。蓝线表示建议的全基因组关联阈值(P = 1.0 × 10^−5)。欧洲和FEMA GWAS共享的全基因组显著性命中标记为蓝色,并在欧洲复制队列中得到确认;FEMA中独特的全基因组显著性命中标记为红色,并没有在欧洲复制队列中得到复制。
  • c, AFR-MD-BEDBMI和EUR-MD-BED*BMI的效应大小之间的符号测试,逐渐限制SNP纳入阈值。具有相同符号的成团SNP的百分比显示在y轴上。引导SNP被包括在相关性分析中的阈值显示在x轴上,表示为未校正的双边P值。点的大小表示所包括的位点的log10计数。

image.png

之前已报道BED和BMI之间存在强烈的遗传相关性。为了在控制BMI的情况下研究BED的遗传基础,研究人员使用了逆序正态转换的模型推导BED (MD-BED) 分数,在非洲血统 (n = 77,574) 和欧洲血统 (n = 285,138) 的人群中进行了血统特异的GWAS。

  • 在欧洲血统的GWAS中,研究人员发现了两个全基因组显著的位点,一个位于HFE基因内,另一个位于MCHR2基因附近。其中,HFE位点的一个显著的SNP,rs1800562,与为血色病致病的C282Y错义变异对应。
  • 使用MAGMA,研究人员发现了与APOE基因的关联。
  • 使用连锁不平衡得分回归,研究人员计算了遗传度,并发现欧洲血统GWAS的h2为2.14%,而非洲血统GWAS的h2为1.65%。但是,对于非洲血统估算遗传度的限制是众所周知的,因此非洲的遗传度结果应该谨慎解读。

研究还尝试了跨祖源的SNP复制,但结果显示复制能力有限。为进一步研究BED的跨祖源遗传学,研究进行了固定效应的元分析,发现在汇总统计数据中,来自EUR-MD-BED*BMI GWAS的两个基因组显著基因座的主导SNP,以及一个位于LRP11内含子区的额外基因座均达到了基因组显著性水平。此外,进行了多祖源元分析,结果也得到了类似的结果。总之,研究揭示了BED与不同祖源间存在共同的遗传信号。

image.png

图3 | MD-BED表型的验证

  • a,五个欧洲BED相关表型的分层聚类(左)和遗传相关矩阵的热图(右)。灰色对角线遗传相关条目表示每个GWAS与自身之间的相关性为1。热图显示了每个比较的遗传相关值。
  • b,使用UKBB(461例)、PNC(531例)、ABCD(94例)队列以及这些队列的荟萃分析进行了EUR-MD-BEDBMI和EUR-ICD-BEDBMI GWAS的PRS验证。MVP(垂直)和外部(水平)队列显示在y轴上。PRS预测器的平均对数几率比显示在x轴上。置信区间为单侧标准误差,未校正的P值使用单侧Wald Z检验生成。P<0.05;**P<0.01。MD-BEDBMI PRS验证的P值如下:UKBB,P = 0.03;PNC,P = 0.02;ABCD,P = 0.13;Meta,P = 0.001。BED-ICD PRS验证的P值如下:UKBB,P = 0.44;PNC,P = 0.59;ABCD,P = 0.26;Meta,P = 0.44。

image.png

图4 | 与其他特征的遗传相关性

与EUR-MD-BED*BMI在FDR显著性阈值(q < 0.05)上具有显著遗传相关性的特征,根据y轴上的rg进行排序。平均遗传相关性的强度显示在x轴上,rg的95%置信区间显示在每个特征上,并且错误条的颜色与未校正P值相对应,该P值是在进行连锁不平衡得分回归时从双侧Z检验生成的。小于10^-10的P值被截断为该值。ADHD表示注意缺陷/多动障碍。

image.png

图5 | BED中的铁过载

  • a,EUR-MD-BEDBMI与EUR-BMI GWAS之间的PRS与铁过载(790例病例,385,100例对照组)和铁缺乏(11,247例病例,374,643例对照组)之间的关联。PRS分数和铁表型显示在y轴上。来自PRS预测的逻辑回归的系数,以对数几率比(均值±标准误)显示在x轴上。EUR-MD-BEDBMI PRS预测铁过载(P = 1.62 × 10^-60)和铁缺乏(P = 0.01)。EUR-BMI PRS预测铁缺乏(P = 1.03 × 10^-7),但不预测铁过载(P = 0.73)。P < 0.05,**P < 0.001。
  • b,来自deCODE、INTERVAL和EUR-MD-BEDBMI的转铁蛋白饱和度GWAS的主导SNP之间的广义线性回归的散点图。转铁蛋白饱和度主导SNP的β值显示在x轴上。EUR-MD-BEDBMI的β值显示在y轴上。来自GSMR的P值来自双侧Z检验。
  • c,在野生型(WT)和缺血缺氧突变小鼠红细胞中的开放染色质区域(OCR)中富集BED风险变异同源物(β-estradiol处理的WT,n = 1,010,459 OCR,P = 0.005;β-estradiol处理的双突变体,n = 1,263,093 OCR,P = 0.07;β-estradiol/5-ALA处理(48小时)的双突变体,n = 1,229,810 OCR,P = 0.15;β-estradiol/5-ALA处理(12小时)的双突变体,n = 1,229,810 OCR,P = 0.20;未处理的WT,n = 1,488,490 OCR,P = 0.23;未处理的双突变体,n = 1,001,591 OCR,P = 0.27)。细胞系显示在y轴上。遗传率显示在x轴上。正系数表示富集遗传率。点的大小反映双侧连锁不平衡得分回归Z检验的未校正P值的负对数(-log10(P))。误差线表示来自连锁不平衡得分回归均值估计的标准误差。#经FDR校正后P < 0.05。

要点

  • 总结:通过这些GWAS分析,研究者们确认并复制了两个基因座,一个额外的基因以及铁代谢与BED的病理生理学之间的关联,而这种关联独立于BMI。研究者们证明了BED是一种复杂的代谢-精神障碍,既涉及神经组织,也涉及已知影响脑功能的外周代谢途径。通过识别铁代谢的紊乱,他们发现了未来转化研究的一个可操作目标。
  • 看着是纯生信,孟德尔随机化,监督式机器学习,但是做队列研究的工作量一点也不少。这类神仙文章想复现还是难上加难的,权当膜拜一下吧~
目录
相关文章
|
数据可视化 数据挖掘
Seurat 中的数据可视化方法
Seurat 中的数据可视化方法
|
运维 负载均衡 算法
MySQL MGR模式介绍
MGR是Mysql Group Replication(组复制)的缩写,Mysql5.7之后是以一个Mysql插件的形式集成在Mysql中,用于创建可伸缩、高可用、可容错的复制架构,是Mysql集群的一种形式
2606 0
MySQL MGR模式介绍
|
9月前
|
人工智能 算法 搜索推荐
人工智能技术对未来就业的影响
人工智能大模型技术正在重塑全球就业市场,但其核心是"增强"而非"取代"人类工作。虽然AI在数据处理、模式识别等标准化任务上表现出色,但在创造力、情感交互和复杂决策等人类专属领域仍存在明显局限。各行业呈现差异化转型:IT领域人机协同编程成为常态,金融业基础分析岗位减少但复合型人才需求激增,医疗行业AI辅助诊断普及但治疗决策仍依赖医生,制造业工人转向技术管理,创意产业中人类聚焦高端设计。未来就业市场将形成人机协作新生态,要求个人培养创造力、情商等AI难以替代的核心能力,企业重构工作流程。AI时代将推动人类向更高价值的认知活动跃升,实现人机优势互补的协同发展。
1048 2
|
11月前
|
机器学习/深度学习 搜索推荐 知识图谱
CIKM 2024:两位本科生一作,首次提出持续学习+少样本知识图谱补全
在信息爆炸时代,知识图谱的构建和维护面临数据稀疏与动态变化等挑战。CIKM 2024会议上,两位本科生提出将**持续学习与少样本学习结合**的新方法,有效应对这些难题。该方法通过持续学习框架适应动态变化,并利用少样本学习提高数据稀疏场景下的补全效果,显著提升了知识图谱的完整性和准确性。实验结果表明,此方法在准确性、鲁棒性和泛化能力上均有显著优势,为知识图谱补全领域带来了新思路。
292 40
|
9月前
|
弹性计算 运维 安全
不得不懂的阿里云账号体系
很多云参与者,并不了解云上账号体系,但了解云账号体系是云采用的基础,本文就带你全面了解阿里云账号体系,适用于所有云参与者。
1011 3
|
8月前
|
网络协议 定位技术 网络安全
IPIP.NET-IP地理位置数据
IPIP.NET 是一家专注于 IP 地理位置数据的提供商,基于 BGP/ASN 数据与全球 800+ 网络监测点技术,提供高精度的 IPv4 和 IPv6 定位服务。其核心服务包括地理位置查询、详细地理信息和网络工具等,广泛应用于网络安全、广告营销、CDN 优化等领域。数据覆盖全球,支持多语言,每日更新确保实时性。IPIP.NET 提供 API 接口、离线数据库及多种语言 SDK,方便开发者集成使用。
1344 0
|
传感器
DIY_实现光敏电阻传感器简单控制LED
DIY_实现光敏电阻传感器简单控制LED
3308 2
|
传感器 自动驾驶 算法
自动驾驶理论新突破登Nature子刊!清华、密歇根联合提出三条技术路线,剑指稀疏度灾难
【7月更文挑战第6天】清华大学与密歇根大学研究团队在Nature子刊发表突破性成果,针对自动驾驶的“稀疏度灾难”提出三条技术路线:数据驱动、模型驱动及混合驱动,旨在提升系统应对罕见场景的能力,确保安全性和鲁棒性。这一进展为解决自动驾驶在复杂环境中的决策难题开辟了新途径。[论文链接](https://doi.org/10.1038/s41467-024-49194-0)**
259 3
|
设计模式 网络协议 Java
05.静态代理设计模式
《静态代理设计模式》详细介绍了静态代理的基本概念、原理与实现、应用场景及优缺点。主要内容包括静态代理的由来、定义、使用场景、实现方式、结构图与时序图,以及其在降低耦合、保护对象权限等方面的优势。同时,文章也指出了静态代理的局限性,如缺乏灵活性、难以复用、难以动态添加功能等,并介绍了动态代理如何弥补这些不足。最后,通过多个实际案例和代码示例,帮助读者更好地理解和应用静态代理模式。
156 4
|
数据库
文献速读|毕设不愁了,中科院二区5分非肿瘤双疾病分析思路
研究摘要:一项发表于2023年《Molecular Neurobiology》(IF=5.1)的论文探讨了帕金森病(PD)与重度抑郁症(MDD)的共病基因。研究通过分析基因表达谱数据识别出PD和MDD的共同基因,特别是AQP9、SPI1和RPH3A三个关键基因。这些基因在两种疾病中均表现出显著差异表达,且与中性粒细胞和单核细胞的功能有关。研究使用生物信息学方法进行基因功能注释和蛋白质相互作用网络分析,并通过实验验证了基因在模型系统中的作用,强调了这些基因在疾病病理生理中的潜在角色。
527 0