想起一句话,“高端的食材往往只需要最朴素的烹饪方式”~
今天给大家分享一篇IF=6.0
的非肿瘤诊断模型的文章,2023年3月发表在Computational and Structural Biotechnology Journal:Identification of potential diagnostic and prognostic biomarkers for sepsis based on machine learning,基于机器学习识别败血症的潜在诊断和预后生物标志物
摘要
- 背景:确定败血症早期的潜在诊断和预后生物标志物。
- 方法:从
GSE65682
和GSE134347
数据集中筛选脓毒症和对照转录组之间的差异表达基因 (DEG
) 。通过最小绝对收缩和选择算子(LASSO
)回归和支持向量机递归特征消除(SVM-RFE
)分析来识别候选生物标志物。通过绘制受试者工作特征(ROC
)曲线和Kaplan-Meier生存曲线来评估标志物的诊断和预后能力。进行基因集富集分析(GSEA
)和单样本GSEA(ssGSEA
)以进一步阐明分子机制和免疫相关过程。最后,通过 qRT-PCR 和蛋白质印迹在脓毒症小鼠模型中验证了潜在的生物标志物。 - 结果:在脓毒症和对照样本之间鉴定出 11 个 DEG,包括 YOD1、GADD45A、BCL11B、IL1R2、UGCG、TLR5、S100A12、ITK、HP、CCR7 和 C19orf59(所有 AUC>0.9)。此外,生存分析确定 YOD1、GADD45A、BCL11B 和 IL1R2 是脓毒症的预后生物标志物。根据 GSEA 的数据,四个 DEG 与免疫相关过程显着相关。此外,ssGSEA 证明脓毒症组和对照组之间富集的免疫细胞群存在显着差异(均P < 0.05)。此外,在脓毒症小鼠模型的心脏、肝脏、肺和肾脏中,
YOD1、GADD45A
和IL1R2
上调,BCL11B
下调。 - 结论:我们确定了四种潜在的脓毒症免疫相关诊断和预后基因标记,为其潜在机制提供了新的见解。
分析框架
结果
图1 脓毒症中 DEG 的鉴定。
- (A) 脓毒症组和健康对照组中所有 DEG 的火山图。红色图代表P < 0.05 且 log2FC > 2的上调 mRNA。绿色图代表P < 0.05 且 log2FC < -2 的 下调基因。黑色图代表正常表达的 mRNA。
- (B) 所有 DEG 的热图。横轴代表样本,纵轴代表不同基因;红色表示基因表达增加,蓝色表示基因表达减少。
- (C) λ 1 标准误差 (λ.1 SE) 通常会优化正则化,使误差和最小误差保持在标准差误差内。通过 LASSO 回归分析中的最小值和 1-SE 标准使用 10 倍交叉验证确定最佳 λ 值。两条标记的虚线表示两个特殊的 lambda 值 λ。min 和 λ.1SE,两个值之间的 λ 被认为是合适的。λ。1SE 使用较少的基因构建最简单的模型。λ。使用更多数量的基因时 min 更准确。
- (D) SVM-RFE 算法。横轴表示DEG变量的数量。纵轴表示交叉验证 RMSE。标记的图是获得最佳值所需的 DEG 数量。
- (E) Lasso 和 SVM-RFE 算法选择的重叠基因的维恩图。
图2 模型的解释作特征筛选。
- (A) 使用平均减少杂质 (MDI) 方法对特征重要性进行排序。
- (B) 使用排列重要性对特征重要性进行排序。
- (C) 根据平均值(|SHapley 加性解释 (SHAP) 值|)对 DEG 进行重要性排序。
- (D) 基于 SHAP 值的 DEG 重要性排序。某个特征的 SHAP 值越高,患者的死亡风险就越高。特征值中的红色部分代表较高的值。蓝色表示该特征的价值较低。
图3 GO、KEGG 和 DO 富集分析。
(A) 11 个 DEG 的 GO 富集分析。(B) 11个DEG的KEGG富集分析。(C) 11 个 DEG 的 DO 富集分析。
图4 对脓毒症组和健康对照组之间GSE65682和GSE134347数据集中的 11 个候选 DEG 进行表达分析。
(A)YOD1、(B)GADD45A、(C)BCL11B、(D)IL1R2、(E)UGCG、(F)TLR5、(G)S100A12、(H)ITK、(I)HP、显示了 (J) CCR7 和 (K) C19orf59 mRNA。
图5 GSE65682和GSE134347数据集中 DEG 对脓毒症的诊断价值。
(A)YOD1、(B)GADD45A、(C)BCL11B、(D)IL1R2、(E)UGCG、(F)TLR5、(G)S100A12、(H)ITK、(I)HP、(显示了 J) CCR7 和 (K) C19orf59。
图6 GSE65682数据集中 DEG 对患者的预后价值。
(A)YOD1、(B)GADD45A、(C)BCL11B、(D)IL1R2、(E)UGCG、(F)TLR5、(G)S100A12高表达组和低表达组的Kaplan-Meier生存曲线显示了 (H) ITK、(I) HP、(J) CCR7 和 (K) C19orf59。
图7 列线图预测模型。
(A) 基于GSE65682和GSE134347数据集预测败血症率的列线图。(B) 列线图预测能力的校准曲线。
图8 YOD1 的 GSEA 结果。
(一)严重感染。(B) 巨自噬。(C) 免疫突触。(D) 抗原特异性反应受损。(E) 造血成熟细胞。(F) T 细胞受体和共刺激信号传导。
图9 GGADD45A 的 GSEA 结果。
(A) 抗原加工和呈递。(B) T细胞受体信号通路。(C) 原发性免疫缺陷。(D) IgA 产生的肠道免疫网络。(E) 内质网管状网络组织。(F) B 细胞增殖。
图10 BCL11B 的 GSEA 结果。
(A) O 聚糖生物合成。(B) 淀粉和蔗糖代谢。(C) 甘油磷脂代谢。(D) 同种异体移植排斥反应。(E) T细胞受体信号通路。(F) 抗原加工和呈递。
图11 IL1R2 的 GSEA 结果。
(A) T细胞受体信号通路。(B) 原发性免疫缺陷。(C) 抗原加工和呈递。(D) 异常嗜酸性粒细胞。(E) 免疫学。(F) T 细胞分化。
图12 健康对照组和脓毒症组之间免疫细胞比例的比较。
图13 免疫细胞和生物标志物基因之间的相关性。
红色代表正相关,蓝色代表负相关。
图14 脓毒症小鼠模型中生物标志物的验证。
(AD) 心脏、肝脏、肺和肾脏中的 YOD1、GADD45A、BCL11B 和 IL1R2 mRNA 水平(n = 3,与 Mann-Whitney 检验相比);(EH) 心脏、肝脏、肺和肾组织中的 YOD1、GADD45A、BCL11B 和 IL1R2 蛋白水平 (n = 6, p < 0.05, p < 0.01, p < 0.001)。
小总结
- 捋一捋:差异分析,lasso回归和SVM-RFE筛选取交集,MDI排序,GO、KEGG、DO富集分析,靶点组间表达表征,ROC曲线,生存分析,列线图模型,单基因GSEA分析,免疫浸润,最后加个PCR验证。
- 本篇文章工作量如上,
方法学上十分容易复现,研究深度在此不作过多讨论,
从头到尾思路逻辑还是特别清晰的,2023年了有人在愁生信怎么发文章,但有的文章一出看完会生信和不会生信的都沉默了。怎么说呢需求不同吧,因此生信领域,“等级森严”,大胆猜想一下套路文的出现可能也是为了量变到质变呢?