预测药物-靶标相互作用是药物发现的关键。近期,虽然基于深度学习的方法显示出强有力的性能,但是仍然存在两个挑战:如何明确地建模和学习药物和目标之间的局部相互作用以更好地预测和解释,以及如何优化新药物-目标对预测的泛化性能。
英国谢菲尔德大学(The University of Sheffield)和阿斯利康的研究人员合作开发了 DrugBAN,这是一个深度双线性注意网络(BAN)框架,具有域适应性,可以显式学习药物和目标之间的成对局部相互作用,并适应分布外的数据。
DrugBAN 对药物分子图和目标蛋白序列进行预测,使用条件域对抗性学习来对齐不同分布中学习到的交互表示,以便更好地泛化新的药物-目标对。在域内和跨域设置下对三个基准数据集的实验表明,DrugBAN 相对于五个当前最先进的基线模型实现了最佳的整体性能。此外,可视化学习到的双线性注意力图可以从预测结果中提供可解释的见解。
该研究以「Interpretable bilinear attention network with domain adaptation improves drug–target prediction」为题,于 2023 年 2 月 2 日发布在《Nature Machine Intelligence》。
药物-靶点相互作用(DTI)预测是药物发现过程中的重要一步。传统的体外实验生物医学测量是可靠的,但成本高且开发周期耗时,阻碍了其应用于大规模数据。相比之下,通过计算机方法识别高置信度的 DTI 对可以大大缩小候选化合物的搜索范围,并提供对药物组合中潜在副作用原因的深入了解。因此,计算机模拟方法在过去几年中受到越来越多的关注并取得了很大进展。
对于计算机模拟方法,传统的基于结构和基于配体的虚拟筛选方法因其相对有效的性能而得到广泛研究。然而,基于结构的虚拟筛选需要分子对接模拟,如果目标蛋白质的三维(3D)结构未知,则不适用。此外,基于配体的虚拟筛选基于同一蛋白质的已知活性来预测新的活性分子,但当已知活性的数量不足时性能较差。
最近,基于深度学习的方法在计算 DTI 预测方面取得了快速进展,能够在相对较短的时间内进行大规模验证。其中许多是从化学基因组学的角度构建的,它将化学空间、基因组空间和相互作用信息整合到一个统一的端到端框架中。由于具有可用 3D 结构的生物靶标数量有限,许多基于深度学习的模型将药物和蛋白质的线性或二维(2D)结构信息作为输入。它们将 DTI 预测视为二元分类任务,并通过将输入馈送到不同的深度编码和解码模块,例如深度神经网络 (DNN)、图神经网络 (GNN) 或 transformer 架构,来进行预测。随着深度学习技术的进步,此类模型可以从大规模 DTI 数据中自动学习药物和蛋白质的数据驱动表示,而不是仅使用预定义的描述符。
尽管取得了这些有希望的发展,但现有的基于深度学习的方法仍然存在两个挑战。
第一个挑战是明确学习药物和蛋白质局部结构之间的相互作用。DTI 本质上是由药物化合物中重要的分子亚结构与蛋白质序列中的结合位点之间的相互作用决定的。然而,许多以前的模型使用它们单独的编码器来学习全局表示,而没有明确地学习局部交互。所以,首先为整个结构学习药物和蛋白质表示,并且仅在黑盒解码模块中隐式学习互信息。药物和靶标之间的相互作用与其关键的子结构特别相关;因此,单独的全局表示学习往往会限制建模能力和预测性能。此外,如果没有对局部交互的显式学习,即使预测准确,预测结果也很难解释。
第二个挑战是跨域推广预测性能,超越学习分布。由于化学和基因组空间的广阔区域,需要在现实世界应用中预测的药物-目标对通常是看不见的,并且与训练数据中的任何对都不相似。它们具有不同的分布,因此需要跨域建模。一个健壮的模型应该能够将学到的知识转移到只有未标记数据的新领域。在这种情况下,研究人员需要通过学习可迁移表示来对齐分布并提高跨域泛化性能;例如,从「来源」到「目标」。这是药物发现中一个尚未充分探索的方向。
为了应对这些挑战,英国谢菲尔德大学和阿斯利康的研究人员合作,提出了一种可解释的基于双线性注意网络的模型(DrugBAN)用于 DTI 预测。DrugBAN 是一个深度学习框架,可以显式学习药物和目标之间的局部相互作用,以及用于学习跨域可迁移表征的条件域适应。
具体来说,首先使用图卷积网络(GCN)和卷积神经网络(CNN)将局部结构编码为二维分子图和一维 (1D) 蛋白质序列。然后将编码的局部表示输入到由双线性注意网络组成的成对交互模块,以学习局部交互表示。局部联合交互表示由全连接层解码以进行 DTI 预测。通过这种方式,研究人员可以利用成对双线性注意力图来可视化每个子结构对最终预测结果的贡献,提高可解释性。对于跨域预测,应用条件域对抗网络 (CDAN) 将学习到的知识从源域转移到目标域,以增强跨域泛化。
图示:DrugBAN 框架概述。(来源:论文)
研究人员对药物发现的域内和跨域设置的五种最先进的 DTI 预测方法进行了全面的性能比较。与其他最先进的 DTI 模型和传统机器学习模型相比,实验结果表明 DrugBAN 在域内和跨域设置中始终如一地实现改进的 DTI 预测性能。此外,通过将注意力权重映射到蛋白质子序列和药物化合物原子,该模型可以为解释相互作用的性质提供生物学见解。论文中所提出的想法本质上是通用的,可以扩展到其他相互作用预测问题,例如药物-药物相互作用和蛋白质-蛋白质相互作用的预测。
图示:使用随机拆分和冷对拆分的人类数据集的域内性能比较(五次随机运行的统计数据)。(来源:论文)
这项工作侧重于使用一维蛋白质序列和二维分子图作为输入的基于化学基因组学的 DTI。鉴于高度准确的 3D 结构化蛋白质的数量仅占已知蛋白质序列的一小部分,因此这项工作没有考虑使用此类结构信息进行建模。尽管如此,DeepMind 的 AlphaFold 在蛋白质 3D 结构预测方面取得了长足进步,最近从 100 万个物种中生成了 20 亿个蛋白质 3D 结构预测。这种进展为在基于化学基因组学的 DTI 预测中利用 3D 结构信息打开了大门。
图示:用于可解释性研究的配体和结合口袋的可视化。(来源:论文)
遵循成对本地交互学习和域适应的想法,研究人员相信将该想法进一步扩展到复杂的 3D 结构,可以在未来的工作中带来更好的性能和可解释性。另外,这项工作分别研究了不同的数据集;将数据集集成与 DrugBAN 相结合将是另一个有趣的未来探索方向。
谢菲尔德大学机器学习教授 Haiping Lu 说,「我们设计 AI 有两个主要目标。首先,我们希望 AI 能够更精细地捕捉药物如何与其靶标相互作用,因为这可以提供有用的生物学见解,帮助研究人员在分子水平上理解这些相互作用。其次,我们希望该工具能够预测这些与新药或靶点的相互作用,以帮助加速整体预测过程。我们今天发表的研究表明,我们的 AI 模型可以做到这两点。」
阿斯利康数据科学、临床药理学和安全科学 (CPSS) 主任 Bino John 博士说,「DrugBAN 的一个关键新颖之处在于它依赖于双线性注意力网络,该网络允许它同时从药物及其靶标的子结构中学习相互作用。我们还向公众免费提供源代码,希望这将支持更多人工智能方法,从而继续加速药物发现。」
使用传统方法发现和开发药物可能非常困难,开发时间长且支出巨额。然而,药物发现过程有可能显著加快;随着人工智能和数字技术的进步,研究人员正在寻找新的方法来确定药物可能与我们体内的哪些蛋白质相互作用。
阿斯利康 CPSS 成像和数据分析主管 Nick Brown 说:「看到这篇论文我真的很兴奋,特别是因为与其他方法不同,DrugBAN 使用双线性注意力网络同时从候选药物及其目标中学习,并且明确设计用于泛化问题。」
谢菲尔德大学计算机科学系主任 Guy Brown 教授补充说:「这是一项令人兴奋的研究,有望在治疗学设计方面取得重大进展。该方法还因其对可解释性的关注而与众不同,使人类专家能够从人工智能系统产生的见解中受益。」
论文链接:https://www.nature.com/articles/s42256-022-00605-1
相关报道:https://medicalxpress.com/news/2023-02-ai-discovery-medicines.html