朋友们,这篇JCR一区6分非肿瘤诊断模型的工作量,看完自我怀疑了

简介: 本文分享了一篇发表在《Computational and Structural Biotechnology Journal》上的研究,通过机器学习方法识别了败血症的潜在诊断和预后生物标志物。研究者分析了脓毒症和对照组的转录组数据,鉴定了11个差异表达基因,并通过LASSO和SVM-RFE算法选出了4个关键基因(YOD1、GADD45A、BCL11B和IL1R2)。这些基因显示出优秀的诊断和预后能力,且与免疫相关过程显著关联。此外,通过小鼠模型验证了这些基因的表达变化,为败血症的机制理解提供了新见解。

想起一句话,“高端的食材往往只需要最朴素的烹饪方式”~

今天给大家分享一篇IF=6.0的非肿瘤诊断模型的文章,2023年3月发表在Computational and Structural Biotechnology Journal:Identification of potential diagnostic and prognostic biomarkers for sepsis based on machine learning,基于机器学习识别败血症的潜在诊断和预后生物标志物

image.png

摘要

  • 背景:确定败血症早期的潜在诊断和预后生物标志物。
  • 方法:从GSE65682GSE134347数据集中筛选脓毒症和对照转录组之间的差异表达基因 (DEG) 。通过最小绝对收缩和选择算子(LASSO)回归和支持向量机递归特征消除(SVM-RFE)分析来识别候选生物标志物。通过绘制受试者工作特征(ROC)曲线和Kaplan-Meier生存曲线来评估标志物的诊断和预后能力。进行基因集富集分析(GSEA)和单样本GSEA(ssGSEA)以进一步阐明分子机制和免疫相关过程。最后,通过 qRT-PCR 和蛋白质印迹在脓毒症小鼠模型中验证了潜在的生物标志物。
  • 结果:在脓毒症和对照样本之间鉴定出 11 个 DEG,包括 YOD1、GADD45A、BCL11B、IL1R2、UGCG、TLR5、S100A12、ITK、HP、CCR7 和 C19orf59(所有 AUC>0.9)。此外,生存分析确定 YOD1、GADD45A、BCL11B 和 IL1R2 是脓毒症的预后生物标志物。根据 GSEA 的数据,四个 DEG 与免疫相关过程显着相关。此外,ssGSEA 证明脓毒症组和对照组之间富集的免疫细胞群存在显着差异(均P  < 0.05)。此外,在脓毒症小鼠模型的心脏、肝脏、肺和肾脏中,YOD1、GADD45AIL1R2上调,BCL11B下调。
  • 结论:我们确定了四种潜在的脓毒症免疫相关诊断和预后基因标记,为其潜在机制提供了新的见解。

分析框架

image.png

结果


图1 脓毒症中 DEG 的鉴定。

  • (A) 脓毒症组和健康对照组中所有 DEG 的火山图。红色图代表P < 0.05 且 log2FC > 2的上调 mRNA。绿色图代表P  < 0.05 且 log2FC < -2 的 下调基因。黑色图代表正常表达的 mRNA。
  • (B) 所有 DEG 的热图。横轴代表样本,纵轴代表不同基因;红色表示基因表达增加,蓝色表示基因表达减少。
  • (C) λ 1 标准误差 (λ.1 SE) 通常会优化正则化,使误差和最小误差保持在标准差误差内。通过 LASSO 回归分析中的最小值和 1-SE 标准使用 10 倍交叉验证确定最佳 λ 值。两条标记的虚线表示两个特殊的 lambda 值 λ。min 和 λ.1SE,两个值之间的 λ 被认为是合适的。λ。1SE 使用较少的基因构建最简单的模型。λ。使用更多数量的基因时 min 更准确。
  • (D) SVM-RFE 算法。横轴表示DEG变量的数量。纵轴表示交叉验证 RMSE。标记的图是获得最佳值所需的 DEG 数量。
  • (E) Lasso 和 SVM-RFE 算法选择的重叠基因的维恩图。


图2 模型的解释作特征筛选。

  • (A) 使用平均减少杂质 (MDI) 方法对特征重要性进行排序。
  • (B) 使用排列重要性对特征重要性进行排序。
  • (C) 根据平均值(|SHapley 加性解释 (SHAP) 值|)对 DEG 进行重要性排序。
  • (D) 基于 SHAP 值的 DEG 重要性排序。某个特征的 SHAP 值越高,患者的死亡风险就越高。特征值中的红色部分代表较高的值。蓝色表示该特征的价值较低。


图3 GO、KEGG 和 DO 富集分析。
(A) 11 个 DEG 的 GO 富集分析。(B) 11个DEG的KEGG富集分析。(C) 11 个 DEG 的 DO 富集分析。

image.png

图4 对脓毒症组和健康对照组之间GSE65682和GSE134347数据集中的 11 个候选 DEG 进行表达分析。
(A)YOD1、(B)GADD45A、(C)BCL11B、(D)IL1R2、(E)UGCG、(F)TLR5、(G)S100A12、(H)ITK、(I)HP、显示了 (J) CCR7 和 (K) C19orf59 mRNA。

image.png

图5 GSE65682和GSE134347数据集中 DEG 对脓毒症的诊断价值。
(A)YOD1、(B)GADD45A、(C)BCL11B、(D)IL1R2、(E)UGCG、(F)TLR5、(G)S100A12、(H)ITK、(I)HP、(显示了 J) CCR7 和 (K) C19orf59。

image.png

图6 GSE65682数据集中 DEG 对患者的预后价值。
(A)YOD1、(B)GADD45A、(C)BCL11B、(D)IL1R2、(E)UGCG、(F)TLR5、(G)S100A12高表达组和低表达组的Kaplan-Meier生存曲线显示了 (H) ITK、(I) HP、(J) CCR7 和 (K) C19orf59。

image.png

图7 列线图预测模型。
(A) 基于GSE65682和GSE134347数据集预测败血症率的列线图。(B) 列线图预测能力的校准曲线。

image.png

图8 YOD1 的 GSEA 结果。
(一)严重感染。(B) 巨自噬。(C) 免疫突触。(D) 抗原特异性反应受损。(E) 造血成熟细胞。(F) T 细胞受体和共刺激信号传导。

image.png

图9 GGADD45A 的 GSEA 结果。
(A) 抗原加工和呈递。(B) T细胞受体信号通路。(C) 原发性免疫缺陷。(D) IgA 产生的肠道免疫网络。(E) 内质网管状网络组织。(F) B 细胞增殖。


图10 BCL11B 的 GSEA 结果。
(A) O 聚糖生物合成。(B) 淀粉和蔗糖代谢。(C) 甘油磷脂代谢。(D) 同种异体移植排斥反应。(E) T细胞受体信号通路。(F) 抗原加工和呈递。

image.png

图11 IL1R2 的 GSEA 结果。
(A) T细胞受体信号通路。(B) 原发性免疫缺陷。(C) 抗原加工和呈递。(D) 异常嗜酸性粒细胞。(E) 免疫学。(F) T 细胞分化。

image.png

图12 健康对照组和脓毒症组之间免疫细胞比例的比较。


图13 免疫细胞和生物标志物基因之间的相关性。
红色代表正相关,蓝色代表负相关。


图14 脓毒症小鼠模型中生物标志物的验证。
(AD) 心脏、肝脏、肺和肾脏中的 YOD1、GADD45A、BCL11B 和 IL1R2 mRNA 水平(n = 3,与 Mann-Whitney 检验相比);(EH) 心脏、肝脏、肺和肾组织中的 YOD1、GADD45A、BCL11B 和 IL1R2 蛋白水平 (n = 6, p  < 0.05, p  < 0.01, p  < 0.001)。

小总结

  • 捋一捋:差异分析,lasso回归和SVM-RFE筛选取交集,MDI排序,GO、KEGG、DO富集分析,靶点组间表达表征,ROC曲线,生存分析,列线图模型,单基因GSEA分析,免疫浸润,最后加个PCR验证。
  • 本篇文章工作量如上,方法学上十分容易复现,研究深度在此不作过多讨论,从头到尾思路逻辑还是特别清晰的,2023年了有人在愁生信怎么发文章,但有的文章一出看完会生信和不会生信的都沉默了。怎么说呢需求不同吧,因此生信领域,“等级森严”,大胆猜想一下套路文的出现可能也是为了量变到质变呢?


目录
相关文章
|
6天前
|
数据可视化 Go vr&ar
JCR一区7.4分|教科书般网药四件套+实验验证,廉颇老矣尚能饭否
该文章是一篇发表在《Journal of Translational Medicine》上的研究,探讨了白藜芦醇治疗糖尿病肾病(DKD)的机制。通过网络药理学、分子对接和实验验证,研究发现白藜芦醇可能通过作用于PPARA、SHBG、AKR1B1、PPARG、IGF1R、MMP9、AKT1和INSR等靶点影响DKD。分子对接和细胞实验进一步证实了这些发现,为白藜芦醇在DKD治疗中的应用提供了理论支持。
26 0
|
6天前
|
算法 搜索推荐 数据挖掘
掌握程序员之剑:解析常见算法与其在生活和工作中的影响
掌握程序员之剑:解析常见算法与其在生活和工作中的影响
35 1
|
消息中间件 架构师 Java
外包仔的自我救赎——学习篇
作为一名优秀的打工人(家里有矿的可以划走了),学习的重要性笔者认为大家应该都很清楚。我们踏入职场之前就一直在学校学习,进入社会之后我们更需要在工作中学习。拿笔者自己来说,转行之前,开发的知识储备几乎为零,不学习就只能选择自己会做的工作(师范专业)。学习不一定能让我们发家致富飞黄腾达,但是可以让我们拥有更多的选择。
外包仔的自我救赎——学习篇
|
大数据 测试技术
【基础理论-白盒测试】:只要你看完这篇文章,你就超过了99.99%的同行了
【基础理论-白盒测试】:只要你看完这篇文章,你就超过了99.99%的同行了
|
Java C语言
计算机教育中缺失的一课,劝学弟学妹们一句,一定要趁早补上,工作后会事半功倍!
各位学弟学妹们好,作为稍微年长的我(岁月是把杀猪刀啊),今天就给大家补补课。 在大学里的,我们上的计算机专业课程一般都是像操作系统、编译原理、计算机组成原理、计算机网络这些理论课程,还有一些像C语言、Java、.Net这些可以实践的课程,甚至还有可能让你焊一个收音机,但是对于一些基本习惯却很容易被忽略,需要学弟学妹们自行摸索。
182 0
计算机教育中缺失的一课,劝学弟学妹们一句,一定要趁早补上,工作后会事半功倍!
|
移动开发 安全 关系型数据库
黑客马拉松经验谈:一个周末你能做出有趣、有用的服务吗?
“黑客马拉松”(Hackathon),是黑客 + 马拉松(Hack + Marathon)的组合字,大致上就是几个人聚在一起以马拉松的方式进行一段长时间的 Hack 活动,像是台湾 Yahoo! 办过 Open Hack Day、台湾微软办过 HTML5 或 IE 浏览器的黑客松活动,这类型的活动,实际进行的时间从半天、一天到两天一夜的长度都有。
406 0
黑客马拉松经验谈:一个周末你能做出有趣、有用的服务吗?
|
Java 程序员 iOS开发
非典型程序员的办公桌
非典型程序员的办公桌
263 0
非典型程序员的办公桌
|
机器学习/深度学习
读《学习之道》— 放松点,有时候太勤奋也是一种病
(1)专注思维和发散思维 自21世纪以来,神经学家就已经对大脑中两种思维模式网络模式间的相互切换取得了研究上的长足进步,即注意力高度集中的状态和更加放松的休息状态;这两种思考状态基于不同的神经网络模型,我们将其分别称为专注模式和发散模式。
1257 0
|
前端开发 程序员
不管你信不信,这就是程序员996的真实内幕!
7月,越来越热的天气 ,似乎让每一个码农内心越来越烦躁,因为996的加班让他们无法享受夏日凉凉的夜啤。更别提落日的激动(落日意味着下班啦!) 一直很想深度剖析一下国内互联网996盛行的原因,总是借口忙、忙、忙而始终没有迈出第一步。
1712 0