RNA和机器学习:多维生物标志物的合理设计

简介: RNA和机器学习:多维生物标志物的合理设计

过去的十年中,现代肿瘤疗法获得了重大的创新。现在是时候使用由合理设计和最新计算方法驱动的生物标记物。

image.png

医学的早期,新疗法经常被“意外”发现。关于结构或功能的技术知识很少,无法指导开发治疗方法的过程。反复试验决定了进度,导致成功缓慢且难以预测。随着人们对小分子,蛋白质及其结构关系了解的增加,研究人员进入了合理药物设计的时代。合理的药物设计在肿瘤学领域产生了重大影响,在肿瘤学领域,研究者对配体结合和生化途径有了深入的了解。现代药物策略利用合理的药物设计框架,由计算实验驱动,以进一步加快潜在治疗方法的识别速度。


预测性生物标志物


生物标志物设计的演变与药物设计的变化没有太大不同。即使采用最有效的疗法,也不是所有的患者都能做出反应。此外,当将患者与某些疗法匹配的过程出错时,不良事件可能代价高昂,甚至致命。一段时间以来,该行业一直在努力寻找生物标志物,这些标志物可为使患者适应正确的治疗方法提供预测见解。从历史上看,这意味着确定应接受或不接受治疗的特定患者人群。

image.png

早期,使用宏观病理特征来为患者做出治疗决策。记录了肿瘤的等级,大小和位置,并根据许多患者的临床结果统计得出了谁应该接受治疗,谁不应该接受治疗的概括。组织学一旦可用,将提供更多的见解,使研究人员对某些患者为何反应而其他患者没有反应的分子水平的理解又向前迈进了一步。但是,随着人类基因组计划的完成和基因组医学的出现,医学界发生了翻天覆地的变化。


基因组医学时代


人类基因组计划的成果并非是经常引用的静态参考序列。相反,在里程碑式的努力过程中以及完成后不久所取得的进步导致了基因组医学的诞生。基因组医学代表着研究人员所谓的精准医学的重大突破和重要推动力,精准医学通常被定义为合适的患者在正确的时间接受正确的治疗。自人类基因组计划完成以来,被称为高通量测序或下一代测序(NGS)的技术已从癌症患者的肿瘤组织中产生了数万亿个基因组序列。

image.png

不幸的是,将这些数据用于合理的生物标志物设计的早期尝试并不像希望的那样有效。该领域严重依赖于DNA数据。将DNA的观察结果与表观遗传学的下游生物学含义联系起来,以及转录和翻译修饰,已经引起了挑战。已经挖掘出巨大的数据集以识别DNA中的药物靶标和生物标志物,但是单个静态突变的效用却不足。研究人员了解生物学上的含义涉及许多突变,但是这些突变的存在并不像研究人员希望在某些药物的情况下预测反应那样准确。


用于生成和分析高通量RNA数据的分子和计算工具的进步,为生物标记物的发现创造了一种新的有希望的途径。由于RNA距蛋白质水平的下游生物学仅一步之遥,但是可以通过为高通量DNA测序开发的相同技术进行测量,因此它可以提供患者分子概况的丰富而动态的视图。高通量RNA测序已用于确认突变或融合转录本的表达,具有重要的临床价值。但是,这些单分析物生物标志物,例如RNA级别的基因融合或突变,在许多方面都限制了分析,类似于DNA。他们试图基于生物学的一个方面来预测患者的反应,而生物学的这一方面被大大简化了。


多维生物标志物


从合理药物设计书中抽出一页,进行合理的生物标志物设计的下一步是增加尺寸。正如双特异性和联合疗法已发展为针对多种疾病的靶标一样,生物标志物也应寻求捕获和利用尽可能多的有关分子谱的信息。研究人员还开始构建RNA的“签名”,其中包括排名基因列表,以更好地对患者进行分类。如今,通过利用机器学习工具,研究人员可以过滤出大量噪声,仅识别出最有用的数据信号即可构建所谓的RNA模型。

image.png

使用通过机器学习建立的多维RNA模型来预测生物标志物优于单一分析物生物标志物。除了上述的分子优势之外,使用机器学习构建这些模型还提供了一种合理的,数据驱动的方法,并且输出是信号的最佳组合。


这种方法要求研究人员将患者资料放在中心,捕获代表疾病,免疫反应,治疗反应等的无数信号。在探索性研究中,所得的生物标志物在预测准确性方面已显著提高,即使在使用预测模型建立的生物标志物新时代的早期。


下一步是什么?


关于疾病建模的叙述中,可能会假设是在谈论疾病还是癌细胞本身。然而,越来越明显的是,诸如对疾病的免疫应答之类的因素可以高度预测患者的存活,对传统疗法的应答以及对目前可用的某些最先进疗法的应答。免疫系统的多维预测生物标志物模型是使用一种称为“预测免疫建模”的方法构建的。与许多模型一样,这些模型可用来捕获生物复杂性并使用数据来预测患者的反应。将来,许多综合性生物标志物将需要组织高度标准化的多维生物标志物数据库,其中包括元数据,临床数据,结果数据等。


如今,构建用于对一个患者群体进行分层的生物标志物将如何告知具有相似分子特征的另一患者群体或选择具有相似作用机制的疗法?毫无疑问,要实现精准医学的目标,我们将需要继续投资,使用当今最有用的分子和计算工具,包括RNA测序和机器学习工具,对合理的生物标志物设计进行投资。


目录
相关文章
|
7月前
|
机器学习/深度学习 算法 数据挖掘
JCR一区5.4分|经典~非肿瘤机器学习筛选生物标志物+qPCR
本文介绍了一项使用机器学习算法识别间变性甲状腺癌(ATC)新型生物标志物和免疫浸润特征的研究。该研究发表在2023年9月的《Journal of Endocrinological Investigation》上,IF为5.4。通过对GEO数据库中的RNA测序数据进行分析,研究人员鉴定出425个差异表达基因,并利用LASSO和SVM-RFE算法确定了4个ATC特征基因(ADM、PXDN、MMP1和TFF3)。这些基因在诊断、药物敏感性和免疫微环境中具有潜在价值,可能成为ATC诊断和治疗的生物标志物。
140 0
|
7月前
|
机器学习/深度学习 Python
Python机器学习一维/多维数据集顺序打乱
Python机器学习一维/多维数据集顺序打乱
|
机器学习/深度学习 数据可视化
生物统计学下的机器学习(3)
生物统计学下的机器学习(3)
210 0
|
机器学习/深度学习
生物统计学下的机器学习(2)
生物统计学下的机器学习(2)
208 0
|
机器学习/深度学习 知识图谱
生物统计学下的机器学习(1)
生物统计学下的机器学习(1)
201 0
|
机器学习/深度学习 自然语言处理 监控
Nat. Mach. Intell. | 生物医学关系抽取的机器学习新框架
Nat. Mach. Intell. | 生物医学关系抽取的机器学习新框架
154 0
Nat. Mach. Intell. | 生物医学关系抽取的机器学习新框架
|
机器学习/深度学习
Nat. Methods | 基于机器学习和生物物理的蛋白质-肽相互作用预测
Nat. Methods | 基于机器学习和生物物理的蛋白质-肽相互作用预测
154 0
Nat. Methods | 基于机器学习和生物物理的蛋白质-肽相互作用预测
|
机器学习/深度学习 算法 数据挖掘
Nat. Methods | ilastik:为生物图像分析而生的交互式机器学习平台
Nat. Methods | ilastik:为生物图像分析而生的交互式机器学习平台
537 0
Nat. Methods | ilastik:为生物图像分析而生的交互式机器学习平台
|
机器学习/深度学习 人工智能 达摩院
「百图生科」再添虎将,国际机器学习大牛宋乐加入李彦宏生物计算军团
近日,百图生科首席 AI 科学家宋乐接受了机器之心专访。作为世界知名机器学习专家,他领导着百图生科 AI 算法团队,为独具特色的生物计算引擎研发提供技术动力。他眼中的生物计算未来,在于「高通量干湿实验闭环」。
240 0
「百图生科」再添虎将,国际机器学习大牛宋乐加入李彦宏生物计算军团
|
机器学习/深度学习 Web App开发 人工智能
机器学习遇见生物学:详解蛋白质折叠预测中的算法
蛋白质折叠问题耗费巨大,而使用机器学习或许能够更为高效、准确地解决这一难题。本文介绍了目前这一领域遇到的问题,以及机器学习怎样帮助解决的具体算法。
235 0
机器学习遇见生物学:详解蛋白质折叠预测中的算法
下一篇
DataWorks