高性价比发文典范——101种机器学习算法组合革新骨肉瘤预后模型

简介: 随着高通量测序技术的飞速发展和多组学分析的广泛应用,科研人员在探索生物学奥秘时经常遇到一个令人又爱又恼的问题:如何从浩如烟海的数据中挖掘出潜在的疾病关联靶点?又如何构建一个全面而有效的诊断或预后模型?只有通过优雅的数据挖掘、精致的结果展示、深入的讨论分析,并且辅以充分的湿实验验证,我们才能锻造出一篇兼具深度与广度的“干湿结合”佳作。

随着高通量测序技术的飞速发展和多组学分析的广泛应用,科研人员在探索生物学奥秘时经常遇到一个令人又爱又恼的问题:如何从浩如烟海的数据中挖掘出潜在的疾病关联靶点?又如何构建一个全面而有效的诊断或预后模型?只有通过优雅的数据挖掘、精致的结果展示、深入的讨论分析,并且辅以充分的湿实验验证,我们才能锻造出一篇兼具深度与广度的“干湿结合”佳作。

在这期文章里,纽科生物携手同济大学、上海交通大学和上海第六人民医院的顶尖专家,共同带来一篇全新的研究成果。这篇文章刚于今年二月鲜亮登场,发表在《Clinical and Translational Medicine》(影响因子10.6)杂志上。我们提供了关键的转录组测序与数据分析支持,本次“官方”解读旨在为广大生物学研究者呈现一条清晰的研究路径和分析流程。我们将重点解答研究者们最关注的几个问题:数据从哪里来?如何进行分析?如何选择靶点?怎样建立关联?希望这次深入浅出的分享,能激发您的研究灵感,助您一臂之力。
作为一篇有灵魂的文章,我们也有幸邀请到文章一作,王永杰博士为各位读者分享他的科研心路历程。微信图片_20240508100830.jpg

文章标题:Identifying squalene epoxidase as a metabolic vulnerability in high-risk osteosarcoma using an artificial intelligence-derived prognostic index
中文标题:利用人工智能得到的预后指数(artificial intelligence-derived prognostic index,AIDP1),发现鲨烯环氧酶(SQLE)在高危骨肉瘤中的代谢脆弱性

研究背景
骨肉瘤(OSA)作为最常见的原发性恶性骨肿瘤,其五年存活率低,且治疗过程极具挑战性。目前,在临床上缺少有效的患者风险分级模型,这大大限制了针对个体患者的治疗策略的制定。为了改善这一现状,本研究致力于发现新的生物标志物,以便更准确地识别高风险的OSA患者。

研究思路2流程图.png

研究优势

  1. 干湿结合,生信数据挖掘+湿实验验证,高性价比;
  2. 方法学的多重筛选,多种传统机器学习算法的叠加,综合分析,结果可靠;
  3. Bulk-seq + scRNA-seq,粗细粒度分析结合。

Q1:来源解析——如何获取数据?
本篇文章生信部分的数据均来自公共数据库。主要使用到的数据集如下表所示:3表格_数据来源.png

表1. AIDP1模型构建和靶基因选择所使用的数据集

Q2:如何最大化分析方法价值,构建模型挖掘数据?
AIDPI模型的开发和验证
“机器学习”、“101种算法组合”听起来似乎既复杂又深奥,但熟悉生信的小伙伴们或多或少都听过和使用过几种机器学习算法,例如随机生存森林(RSF)、LASSO回归和支持向量机(SVM)等,这些算法在关键基因的识别中提供了极大的帮助。
绝大多数文章使用的机器学习算法至多3到5种,或类型单一没有组合,而本研究突破了这一瓶颈,创新性地组合了常用的一系列机器学习算法,包括LASSO、GBM、RSF、plsRcox、StepCox、SuperPC、ridge、Survival-SVM、CoxBoost和Enet。就像我们通常在LASSO回归之前使用Cox分析一样,作者将RSF、LASSO、CoxBoost、StepCox这些具备降维和变量筛选功能的算法作为第一步,与其他算法组合起来,于是产生了101种不同的机器学习算法组合。
在所有组合中,CoxBoost和GBM组合的mean C-index最高,预测性能最好,因此选择CoxBoost + GBM作为AIDPI模型(图1)。4top15模型.png

图1. 101种算法组合的C-index(此处仅展示Top15算法组合,完整组合请参见文章原文)

Q3:如何充分利用模型,探究对疾病的影响?
AIDPI和临床特征构建预后模型

单因素Cox回归分析表明(图2A),AIDPI可作为OSA患者的预后生物标志物,并同年龄、MSTS分期、Huvos分级和肿瘤原发部位一起,与患者生存显著相关。此外,基于AIDPI、年龄、MSTS分期和原发肿瘤部位构建的列线图在预测OSA患者的生存概率方面,表现优于其他单独的临床特征,验证了其作为预后预测工具的优越性(图2B)。5临床特征.png

图2. 基于AIDPI和其他临床病理特征对OSA患者进行生存预测

高AIDPI患者的失调通路
GSEA显示在高AIDPI组中,MYC靶基因、胆固醇稳态和mTORC1信号通路等基因集富集增强,而与凋亡和特定免疫反应相关的基因集则发生负富集(图3A)。KEGG富集分析揭示了对OSA进展至关重要的通路,如PI3K-Akt信号通路、细胞因子与细胞因子受体相互作用、破骨细胞分化等(图3B)。6通路分析.png

图3. 高AIDPI组患者的通路分析

Q4:如何利用单细胞数据提升颗粒度,进一步挖掘疾病核心?
单细胞分析确定高AIDPI患者核心治疗靶点

我们已经通过构建模型,获得了AIPDI差异基因和AIPDI模型基因。为了进一步缩小基因的范围,作者随后进行了单细胞分析,从6个OSA活检样本中得到了9种细胞类型:OSA细胞、B细胞、内皮细胞、骨髓细胞、NK细胞、成骨细胞、浆细胞、间质细胞和T细胞。对不同细胞类型进行差异比较,以鉴定每种细胞特异性的高表达基因(图4A)。其中,只有8%的DEGs(高、低AIDPI组差异基因)在OSA细胞中表达(图4B)。将单细胞得到的特异性高表达基因、高、低AIDPI组差异基因和AIDPI模型的12个基因取交集(图4C),最终得到3个核心基因:CORT、MYC和SQLE(图4D)。7单细胞.png

图4. OSA单细胞数据集分析

Q5:如何寻找关键靶点,与疾病创造关联?
SQLE过表达与OSA进展密切相关

根据canSAR数据库(https://cansar.ai/),只有MYC和SQLE编码的蛋白具备可药用结构,成为高AIDPI患者的潜在治疗靶点。鉴于众多研究已经表明MYC的表达升高与OSA的不良预后相关,作者选择将重点放在SQLE上,进一步探索其作为治疗靶标的潜力。
与正常相邻组织和可能的祖细胞(成骨细胞OB和间充质干细胞MSC)相比,OSA中SQLE表达明显增加(图5A、B)。此外,Huvos I/II级的OSA样本中SQLE表达升高,在MTX(甲氨蝶呤)耐药的Saos2细胞系中也观察到相同的趋势(图5C)。SQLE基因与MYC基因在基因组上邻近,并且二者的拷贝数和mRNA表达水平都呈现出强相关性,这可能导致OSA中SQLE和MYC mRNA水平的同步升高(图5D-H)。SQLE因其位于细胞质中的代谢酶特性,相对于位于细胞核内、难以直接靶向的MYC蛋白而言,提供了一个更易于靶向的治疗靶点。8SQLE过表达.png

图5. OSA中SQLE的过表达与肿瘤进展有关

Q6:如何进行湿实验验证?
敲除SQLE阻碍了OSA的进展

为了深入研究SQLE对OSA进展的影响,作者在高内源性SQLE蛋白表达的MNNG和U2OS细胞系中进行了SQLE基因的敲除(图6A),随即发现细胞的恶性表型受到了抑制,包括增殖、集落形成、迁移和侵袭(图6B-E)。此外,在不存在和存在药物治疗的情况下,SQLE沉默都会促进细胞凋亡(图6F、G),并增强肿瘤细胞对 MAP方案(甲氨蝶呤MTX、顺铂DDP和阿霉素ADM)的药物敏感性(图6H)。9SQLE敲除1.png

图6. SQLE沉默在体内外均可阻碍OSA的进展

在体内外实验中确认SQLE敲除能有效抑制OSA进展之后,作者进一步探讨了SQLE在分子层面对OSA的作用机制。对敲除SQLE的细胞系进行RNA测序后发现,SQLE沉默导致胆固醇稳态基因组发生显著下调(图7A、B),同时导致PI3K-Akt信号通路的显著富集(图7C)和PI3K-Akt-mTOR通路的显著下调(图7D)。此外,SQLE mRNA水平与三种PI3K/mTOR通路拮抗剂的AAC 值显示出强相关性(图7E),表明SQLE mRNA水平可能与此通路的激活有关。后续利用Rescue实验和蛋白印迹实验证明SQLE沉默降低了细胞内胆固醇水平,导致FAK/PI3K/Akt/mTOR信号通路失活,最终抑制OSA进展(图7F-H)。10SQLE敲除2.png

图7. SQLE沉默可通过降低胆固醇和抑制FAK/PI3K/Akt/mTOR通路来阻止OSA的进展

Q7:如何升华文章,将研究成果应用在疾病治疗中?
SQLE抑制剂阻止了OSA的进展并增强化疗效果

鉴于SQLE能够阻碍OSA的进展,作者考虑到SQLE抑制剂可能具有治疗效果。因此,作者采用了哺乳动物SQLE抑制剂FR194738进行实验,结果表明FR194738能显著抑制OSA细胞的增殖和集落形成,并有效降低细胞内胆固醇水平(图8A-H)。此外,FR194738与常用化疗药物特别是DDP联合使用时,抗肿瘤效果增强(图8I)。这些结果表明FR194738通过靶向SQLE不仅单独有效,而且能增强传统化疗药物的疗效,提供了一种可能的新策略来提高OSA患者的治疗反应。这为未来临床试验和治疗方案的设计提供了重要依据。11SQLE抑制剂.png

图8. SQLE抑制剂FR194738可抑制OSA进展并增进化疗疗效


亮点结论
  1. 通过机器学习构建了新的OSA预后标志物AIDPI,用于区分胆固醇代谢失调的高风险OSA患者。
  2. 抑制SQLE能够阻碍OSA的进展,其机制是通过减少胆固醇的生成和抑制FAK/PI3K/Akt/mTOR信号通路。
  3. 在体内实验中,SQLE抑制剂能够抑制OSA的进展,并增强化疗的效果。12结论图.png

本篇文章思路明确,行文结构清晰。由此推而广之,当将此思路应用于类似问题时,我们需要考虑以下几个方面以优化研究方法(Call Back):
1) 适用范围:该研究方法主要适用于肿瘤分析。针对非肿瘤疾病,由于缺乏生存状态和生存时间的信息,应用思路时需适当调整替换分析方法。
2) 数据获取:如何有效地获取所需数据,如何整合和利用多个数据集;
3) 分析方法的运用:考虑多种数据分析方法,最大化机器学习在特征选择中的潜力,获得可靠的分析结果;
4) 模型性能与解释力:优秀的模型不仅表现出卓越的预测性能,还能帮助发现并且解释不同表型(计算角度)之间的生物学差异;
5) 综合分析的深度与广度:结合粗、细粒度(Bulk Seq + Single cell Seq),多维度(snATAC + scRNA)分析,深入挖掘分子层面的差异;
6) 结果展示:清晰展示研究成果,特别是将新发现的靶点基因与疾病联系在一起。
7) 实验辅助:湿实验结果验证,增强研究说服力;药物敏感性实验,升华文章价值。

作者写在最后:

非常感谢纽科生物对我的文章做出的解读,并邀请我在这分享一些心得。毕业季的气氛中,我也有诸多感慨和回忆想要分享。

相比上海骨科创新材料领域的其他研究者来说,我的科研成果几乎微不足道。尽管如此,我对自己感到满意,因为我已竭尽全力。每个人的起点不同,可调动的资源也各不相同,短期内的成果自然千差万别。我的满意并非源于文章本身,而是因为我证实了自己的想法是行得通的,我找到了自己的道路。《道德经》中说:“有道无术,术尚可求;有术无道,止于术。”这句古训根据个人经历有着不同的解读。

2017年,我被推免为骨科学术型硕士,但不幸的是,我在临床工作了近2年半,我的实验技能仍停留在本科水平。然而,在不幸中有幸,我有机会在全国最大的骨肿瘤中心之一学习,遇到了许多同龄的骨肉瘤患者。或许是由于我天生的同理心,我渴望找到有效的治疗方法来帮助这些患者,这成了我研究的初衷。因此,我果断将研究方向从骨质疏松转向骨肉瘤。

作为新手的我,所在的课题组也缺乏研究方向和经验。幸运的是,我的导师具有丰富的临床经验,他设计了一套利用临床、影像等指标预测骨肉瘤耐药性的方法,这启发我将这些指标扩展到两万多个个mRNA的表达量,开展数据驱动的研究。这就是我当时找到的“道”。有了这一明确的研究方向,我便开始学习必要的技术。我也曾尝试过建立自己的骨肉瘤多组学数据库,奈何人微言轻,能调动的资源实在有限。我只能转而学习R语言,提升数据挖掘能力,利用公开的数据集开展自己的研究。从2021年开始,我通过生信技能数的在线课程逐步提高自己的生信分析技术,直到2024年2月份才得以发表这一篇文章。尽管有人质疑使用公开数据的价值,也有人认为SQLE在很多肿瘤中都被报道过,缺乏创新性,我却对自己的研究持有不同看法。

我不认同仅追求热门技术的研究方式,也不理解为何“缺乏创新性”的观点会存在。我从未对任何技术抱有过盲目的热情,因为我相信,我们医生的研究应以解决临床问题为核心,将问题拆解成基础科学问题,如果能用最最简单且成熟的技术回答这些问题那就再好不过了。我认为一个研究的创新性在于,我回答了这个问题,且比前人做得更好,这就足够创新。我认为研究中最重要的是逻辑思辨和自我诘问,是条理清晰地讲述自己的故事,这也是研究的乐趣所在。

我相信,每位直接面对患者的医生都有自己的“道”。只要时间足够,他们一定能学会足够的“术”来解决这些问题。如果临床工作太忙,找到一个可靠的团队合作也是一个有效的解决方案。

目录
打赏
0
0
0
0
4
分享
相关文章
DeepSeek加持的通义灵码2.0 AI程序员实战案例:助力嵌入式开发中的算法生成革新
本文介绍了通义灵码2.0 AI程序员在嵌入式开发中的实战应用。通过安装VS Code插件并登录阿里云账号,用户可切换至DeepSeek V3模型,利用其强大的代码生成能力。实战案例中,AI程序员根据自然语言描述快速生成了C语言的base64编解码算法,包括源代码、头文件、测试代码和CMake编译脚本。即使在编译错误和需求迭代的情况下,AI程序员也能迅速分析问题并修复代码,最终成功实现功能。作者认为,通义灵码2.0显著提升了开发效率,打破了编程语言限制,是AI编程从辅助工具向工程级协同开发转变的重要标志,值得开发者广泛使用。
7853 67
DeepSeek加持的通义灵码2.0 AI程序员实战案例:助力嵌入式开发中的算法生成革新
PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型
DeepSeek 系列模型以其卓越性能在全球范围内备受瞩目,多次评测中表现优异,性能接近甚至超越国际顶尖闭源模型(如OpenAI的GPT-4、Claude-3.5-Sonnet等)。企业用户和开发者可使用 PAI 平台一键部署 DeepSeek 系列模型,实现 DeepSeek 系列模型与现有业务的高效融合。
基于CS模型和CV模型的多目标协同滤波跟踪算法matlab仿真
本项目基于CS模型和CV模型的多目标协同滤波跟踪算法,旨在提高复杂场景下多个移动目标的跟踪精度和鲁棒性。通过融合目标间的关系和数据关联性,优化跟踪结果。程序在MATLAB2022A上运行,展示了真实轨迹与滤波轨迹的对比、位置及速度误差均值和均方误差等关键指标。核心代码包括对目标轨迹、速度及误差的详细绘图分析,验证了算法的有效性。该算法结合CS模型的初步聚类和CV模型的投票机制,增强了目标状态估计的准确性,尤其适用于遮挡、重叠和快速运动等复杂场景。
基于机器学习的人脸识别算法matlab仿真,对比GRNN,PNN,DNN以及BP四种网络
本项目展示了人脸识别算法的运行效果(无水印),基于MATLAB2022A开发。核心程序包含详细中文注释及操作视频。理论部分介绍了广义回归神经网络(GRNN)、概率神经网络(PNN)、深度神经网络(DNN)和反向传播(BP)神经网络在人脸识别中的应用,涵盖各算法的结构特点与性能比较。
扩散模型=进化算法!生物学大佬用数学揭示本质
在机器学习与生物学交叉领域,Tufts和Harvard大学研究人员揭示了扩散模型与进化算法的深刻联系。研究表明,扩散模型本质上是一种进化算法,通过逐步去噪生成数据点,类似于进化中的变异和选择机制。这一发现不仅在理论上具有重要意义,还提出了扩散进化方法,能够高效识别多解、处理高维复杂参数空间,并显著减少计算步骤,为图像生成、视频合成及神经网络优化等应用带来广泛潜力。论文地址:https://arxiv.org/pdf/2410.02543。
39 21
单纯接入第三方模型就无需算法备案了么?
随着人工智能的发展,企业接入第三方模型提升业务能力的现象日益普遍,但算法备案问题引发诸多讨论。根据相关法规,无论使用自研或第三方模型,只要涉及向中国境内公众提供算法推荐服务,企业均需履行备案义务。这不仅因为服务性质未变,风险依然存在,也符合监管要求。备案内容涵盖模型基本信息、算法优化目标等,且需动态管理。未备案可能面临法律和运营风险。建议企业提前规划、合规管理和积极沟通,确保合法合规运营。
使用 PAI-DSW x Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理
使用 PAI-DSW x Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理
FastAPI + ONNX 部署机器学习模型最佳实践
本文介绍了如何结合FastAPI和ONNX实现机器学习模型的高效部署。面对模型兼容性、性能瓶颈、服务稳定性和安全性等挑战,FastAPI与ONNX提供了高性能、易于开发维护、跨框架支持和活跃社区的优势。通过将模型转换为ONNX格式、构建FastAPI应用、进行性能优化及考虑安全性,可以简化部署流程,提升推理性能,确保服务的可靠性与安全性。最后,以手写数字识别模型为例,展示了完整的部署过程,帮助读者更好地理解和应用这些技术。
120 20
全网首发 | PAI Model Gallery一键部署阶跃星辰Step-Video-T2V、Step-Audio-Chat模型
Step-Video-T2V 是一个最先进的 (SoTA) 文本转视频预训练模型,具有 300 亿个参数,能够生成高达 204 帧的视频;Step-Audio 则是行业内首个产品级的开源语音交互模型,通过结合 130B 参数的大语言模型,语音识别模型与语音合成模型,实现了端到端的文本、语音对话生成,能和用户自然地进行高质量对话。PAI Model Gallery 已支持阶跃星辰最新发布的 Step-Video-T2V 文生视频模型与 Step-Audio-Chat 大语言模型的一键部署,本文将详细介绍具体操作步骤。
解锁机器学习的新维度:元学习的算法与应用探秘
元学习作为一个重要的研究领域,正逐渐在多个应用领域展现其潜力。通过理解和应用元学习的基本算法,研究者可以更好地解决在样本不足或任务快速变化的情况下的学习问题。随着研究的深入,元学习有望在人工智能的未来发展中发挥更大的作用。

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等