Drug Discov. Today | 药物发现中的先进机器学习技术

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: Drug Discov. Today | 药物发现中的先进机器学习技术

今天给大家介绍一篇由Abdul W.Basit等人2020年12月5日发表在Drug Discovery Today上的一篇综述文章” Advanced machine-learning techniques in drug discovery”。机器学习(ML, machine learning)在药物发现中的受欢迎程度持续增长,取得了令人印象深刻的结果。随着其使用的增加,其局限性也变得明显。这些局限性包括它们对大数据的需求、数据的稀疏性以及缺乏可解释性。此外,这些技术也变得很明显,它们并不是真正的自主技术,甚至需要在部署后进行再培训。综述中详细介绍了先进技术的使用,以规避这些挑战。此外,还介绍了新兴技术及其在药物发现中的潜在作用。


image.png

image.png背景

ML在药物发现领域的应用持续增长,促进了众多途径的研究。越来越多的制药公司将ML作为其商业模式的核心,大型制药公司也在探索ML用于药物发现。这样的成功证明了ML对于药物发现的必要性和实用性,也毫不含糊地表明药物发现将与ML有着内在的联系。其目标是减少药物发现的资源和劳动密集型,主要是高通量筛选(HTS)技术。ML的另一个目的是消除对动物试验的需求,而动物试验近来受到了负面的宣传。

image.png

传统的ML技术已经在药物发现方面进行了彻底的探索。这些技术包括有监督和无监督的ML技术,包括k-最近邻(kNN)、决策树、随机森林、支持向量机(SVM)、人工神经网络(ANN)、主成分分析(PCA)和k-均值。它们的吸引力来自于它们的简单性,计算量不大,但与传统预测算法相比,预测精度有所提高。同样,传统技术的底层机制也可以被非计算机科学家研究人员认知理解。例如,对于kNN来说,用户只需要控制一个参数,即k值,而k值又是根据复数投票来决定分类搜索空间。另一个例子是SVM,它利用超平面结合支持向量来划分类别,使不同类别之间的距离最大化。SVM的优势在于使用了内核技巧,可以对数据进行非线性映射,这在非线性数据集上得到了广泛的应用。该技术也可用于PCA(kernel PCA;kPCA)。最近的一项研究发现,kPCA可以用来改善线性模型的分类,其性能与非线性模型相当,不过速度明显更快。


传统的ML技术尽管简单,但也有其缺点。kNN受到维度的诅咒,即在高维空间,预测性能开始减弱。同样,当维数大于样本量时,SVM的性能也开始下降。增加随机森林中的树的数量可以提高预测精度,尽管大量的树结果产生的算法对于实时监测来说效率不高。然而,ML技术有两个主要的批评是其对大数据的需求和缺乏透明度。鉴于数据的收集可能具有挑战性、成本高、耗时长,因此需要解决这些限制。此外,透明度可能会促进用户对发现过程的理解,并最大限度地减少他们对ML理解过程的依赖。传统ML技术的另一个限制是它们缺乏自主性。此外,一旦部署,它将需要后期维护,特别是随着数据集的发展。为了解决这些限制,研究界已经采用了新的技术,并取得了可喜的成果。预计这些先进的技术将进一步扩大ML的应用范围。最终,人们的目标是实现药物发现管道中的人工智能(AI)。AI是计算机科学中一个广泛的分支,旨在利用机器创造人类智能,其中ML是实现这一目标的核心。近年来,ML的一个子集--深度学习作为一种能够从大数据中实现高准确度的技术出现,同时处理结构化和非结构化数据。


先进机器学习技术

ML技术的一些批评包括需要大量的数据集和人为干预。从这些言论中,人们研究了先进的技术,以解决传统ML技术的缺点,从而进一步扩大其适用性。这些先进的技术包括强化学习(RL, Reinforcement learning),它弥补了自主学习技术的差距;迁移学习,以及多任务学习,用于开发缺乏大数据的预测模型。


强化学习(RL, Reinforcement learning)

当代RL的核心是新分子设计或分子优化。Popova等人针对药物的全新设计进行了一项结合这两方面的值得注意的研究。通过这种方法,RL与两种深度学习技术相结合。一种技术,即生成模型,作为代理,生成表面上可行的化学分子。另一种技术,预测模型,作为批评者,据此它奖励或惩罚生成模型的每一个生成的分子。研究还进一步证明,通过深层RL,可以优化理想的物理性质、化学复杂性或生物活性的新型化合物。虽然该研究表明,RL可以被利用来生成新的化合物,但还需要进一步的工作来完善该模型。


迁移学习(Transfer learning)

如果数据供不应求,那么可以使用一些技术来规避这个问题。其中一种技术是迁移学习,它是将从解决一个任务中获得的知识转移到另一个相关任务的过程。


ML在材料科学中也得到了应用,尽管它的应用不像在药物发现和开发中那样发达。材料科学与药物制剂息息相关,实际上也是一个同盟领域,有着相似的研究理念和方法。最近,迁移学习被应用于各种材料,包括小分子、聚合物和无机晶体材料。该研究能够成功地将迁移学习应用于一个观测值较少的数据集。此外,还揭示了小分子和聚合物之间、无机化学和有机化学之间的潜在联系。


多任务学习(Multitask learning)

迁移学习是顺序学习以及随后知识向另一任务的转移,而多任务学习是在一个模型中同时学习不同任务。据观察,与单学习任务时相比,学习相关任务可同时提高预测性能。多任务学习的好处在小批量数据集或噪声很大的情况下特别有用。此外,发现多任务学习优于传统的MLT,尤其是在数据相对稀疏的情况下。


药物发现中,多任务学习已发现可用于解决多靶点药物的作用。对此类候选物进行研究是因为它们具有严重的不利影响,这是对多个靶标采取行动的不利结果。同样重要的是,最近证明,对于几种复杂疾病,例如癌症和代谢性疾病,多靶点药物比单靶点药物更有效。


主动学习(Active learning)

主动学习是一种独特的半自动化机器学习方法,试图使用用户反馈来解决低标签数据集的问题。与被动学习相比,主动学习是理想的选择,因为在这种情况下,大量的无监督训练数据需要昂贵且耗费资源的实验来标记。因此,用户可以进行实验并随后为数据集的子集标记数据,并使用主动学习来获得对其余未标记数据的预测。例如,使用ML预测药物通过血脑屏障的渗透率,一个人可以对10%的分子进行实验,并使用所述10%的分子训练模型以预测其他90%的分子。如果模型不确定,它将进行查询,然后研究人员可以对这些样本进行实验。因此,与被动学习相比,它有可能需要相当少的标记数据,从而在最小化成本的同时加快了药物发现过程。


生成模型(Generative models)

如前所述,生成模型是能够生成新样本的ML技术。生成模型通过直接从输入数据中学习而将自己与区分模型区分开,并不一定要求用户编写明确的规则。生成模型可以通过实现数据分布的概率估计器来生成新数据实例,其中新数据位于分布内。换句话说,生成模型能够为给定的分布生成新的样本。这与判别模型形成对比,判别模型揭示了给定数据实例的情况下标记数据的概率,而与数据实例是否有效无关。最近的研究中使用的深度生成模型,其中,在除了生成新的化合物,可以用小的数据集时用于数据扩张。如前所述,将需要对新产生的分子进行彻底评估,以确保它们与市场上已经存在的化合物不同和/或与输入模型的化合物不同。


贝叶斯神经网络(BNN, Bayesian neural networks)

BNN是利用贝叶斯推理将多个神经网络模型组合在一起的集合模型。与传统的神经网络不同,传统的神经网络需要大量的数据进行训练,而BNN由于能够避免过拟合,所以能够处理小数据集。过拟合是大多数传统ML技术相关的问题,BNN在训练过程中通过先验概率分布来计算众多模型的平均值,从而产生网络的正则化效应,从而避免了这个问题。换句话说,神经元的权重和偏置不是一个单一的值,而是从一个分布中抽样出来的,这个分布会定期更新来训练BNN。BNN在药物发现中的应用还没有被彻底探索。最近的一项研究显示,利用ChEMBL数据集,贝叶斯图网络在预测分子的抑制活性方面表现优于传统图网络。最近,BNN被应用于识别药物相似性,其中单个分类器的贝叶斯误差分布可以产生93%的准确率,用于区分类药物和非类药物分子。


可解释性算法(Explainable algorithms)

ML的使用确实可以促进和加快决策的制定,特别是对于日常任务。因此,可能没有必要了解该模型实现的决策过程。但是,了解ML做出的决策过程将灌输研究人员的信心。解释模型可以帮助研究人员解决模型出现错误的问题。此外,决策过程中的洞察力可能会引发合理的研究问题。另外,它可以通过提供决策制定的见解来促进研究理解。同样,如果要将技术商业化,透明度也可能会引起对监管机构的信任。


最近一个可解释的机器学习实例被应用到构效关系建模中,其中半监督的回归树的表现优于监督的回归树。Rodriguez-Perez和Bajorath使用不同的策略来预测活性,开发了一种方法,该方法阐明了传统技术的预测过程以及集成和深度学习模型。他们的工作重点是消除ML模型的“黑匣子”性质。


新兴的机器学习技术

混合量子-机器学习

(H-QML, Hybrid quantum-machine learning)


机器学习与量子计算的混合已经成为预测分析中的一项强大技术。量子计算的主要前景是能够解决复杂问题的效率,而这些问题对于传统计算机而言却过于昂贵。


H-QML的优势确实可以在制药科学中加以利用,但是,该技术尚未得到应用。2018年IBM发表了一篇关于量子计算在药物发现中的潜力的文章,其中作者将量子ML的潜力纳入了其综述范围。最近,Google LLC发布了针对python的开放访问量子ML框架,该框架将使研究人员能够使用混合量子机器学习技术。因此,制药科学中的混合量子ML有望很快实现。


推荐系统

推荐系统在2006年因Netflix竞赛而声名鹊起,该竞赛旨在为其用户创建准确的用户偏好内容。推荐系统是一种ML框架,它基于在一组用户到一组项目之间建立链接的数据。推荐系统在电子商务中被大量使用,例如亚马逊和YouTube。此类技术的优势在于它们具有处理数据稀疏性,在先验信息不可用时进行预测的能力,以及通过解释推荐系统如何做出决策来提供透明度的能力。


推荐系统已被研究用于医疗应用中,正确的治疗是根据患者的病史提出的。但是,在药物发现和开发中的应用尚未建立。Sosnina等开发了用于化合物与靶标相互作用预测抗病毒药物发现的推荐系统。作者使用了基于内容的过滤推荐系统,该系统适用于稀疏数据和可解释性。


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与机器学习:探索未来的技术边界
【10月更文挑战第18天】 在这篇文章中,我们将深入探讨人工智能(AI)和机器学习(ML)的基础知识、应用领域以及未来趋势。通过对比分析,我们将揭示这些技术如何改变我们的生活和工作方式,并预测它们在未来可能带来的影响。文章旨在为读者提供一个全面而深入的理解,帮助他们更好地把握这一领域的发展趋势。
|
4天前
|
机器学习/深度学习 传感器 运维
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
本文探讨了时间序列分析中数据缺失的问题,并通过实际案例展示了如何利用机器学习技术进行缺失值补充。文章构建了一个模拟的能源生产数据集,采用线性回归和决策树回归两种方法进行缺失值补充,并从统计特征、自相关性、趋势和季节性等多个维度进行了详细评估。结果显示,决策树方法在处理复杂非线性模式和保持数据局部特征方面表现更佳,而线性回归方法则适用于简单的线性趋势数据。文章最后总结了两种方法的优劣,并给出了实际应用建议。
27 7
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
|
5天前
|
编解码 机器人 测试技术
技术实践 | 使用 PAI+LLaMA Factory 微调 Qwen2-VL 模型快速搭建专业领域知识问答机器人
Qwen2-VL是一款具备高级图像和视频理解能力的多模态模型,支持多种语言,适用于多模态应用开发。通过PAI和LLaMA Factory框架,用户可以轻松微调Qwen2-VL模型,快速构建文旅领域的知识问答机器人。本教程详细介绍了从模型部署、微调到对话测试的全过程,帮助开发者高效实现定制化多模态应用。
|
21天前
|
机器学习/深度学习 Python
机器学习中模型选择和优化的关键技术——交叉验证与网格搜索
本文深入探讨了机器学习中模型选择和优化的关键技术——交叉验证与网格搜索。介绍了K折交叉验证、留一交叉验证等方法,以及网格搜索的原理和步骤,展示了如何结合两者在Python中实现模型参数的优化,并强调了使用时需注意的计算成本、过拟合风险等问题。
41 6
|
23天前
|
机器学习/深度学习 搜索推荐 算法
在数字化时代,推荐系统成为互联网应用的重要组成部分,通过机器学习技术根据用户兴趣和行为提供个性化推荐,提升用户体验
在数字化时代,推荐系统成为互联网应用的重要组成部分,通过机器学习技术根据用户兴趣和行为提供个性化推荐,提升用户体验。本文探讨了推荐系统的基本原理、常用算法、实现步骤及Python应用,介绍了如何克服数据稀疏性、冷启动等问题,强调了合理选择算法和持续优化的重要性。
58 4
|
1月前
|
机器学习/深度学习 自然语言处理 语音技术
探索机器学习中的自然语言处理技术
【10月更文挑战第38天】在本文中,我们将深入探讨自然语言处理(NLP)技术及其在机器学习领域的应用。通过浅显易懂的语言和生动的比喻,我们将揭示NLP技术的奥秘,包括其工作原理、主要任务以及面临的挑战。此外,我们还将分享一些实用的代码示例,帮助您更好地理解和掌握这一技术。无论您是初学者还是有经验的开发者,相信您都能从本文中获得宝贵的知识和启示。
34 3
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
思通数科AI平台在尽职调查中的技术解析与应用
思通数科AI多模态能力平台结合OCR、NLP和深度学习技术,为IPO尽职调查、融资等重要交易环节提供智能化解决方案。平台自动识别、提取并分类海量文档,实现高效数据核验与合规性检查,显著提升审查速度和精准度,同时保障敏感信息管理和数据安全。
107 11
|
22天前
|
机器学习/深度学习 数据可视化 算法
机器学习中的特征选择与降维技术
机器学习中的特征选择与降维技术
58 0
|
3月前
|
机器学习/深度学习 数据可视化 JavaScript
探索机器学习模型的可视化技术
【9月更文挑战第23天】在数据科学中,理解和解释机器学习模型的决策过程是至关重要的。本文将介绍几种流行的可视化工具和库,如TensorBoard、D3.js等,帮助读者更好地理解模型内部工作原理及其预测结果。通过实例演示如何使用这些工具进行模型可视化,增强模型的可解释性。
|
4月前
|
人工智能 Anolis
展示全栈式AI平台,探讨软硬件技术!英特尔分论坛议程来啦 | 2024 龙蜥大会
英特尔分论坛将依托英特尔云到端的全面产品组合,围绕至强可扩展处理器、AI 加速器、以及 oneAPI、OpenVINO 等软硬件技术展开探讨。
展示全栈式AI平台,探讨软硬件技术!英特尔分论坛议程来啦 | 2024 龙蜥大会