哈佛CASTER | 基于化学子结构表征预测药物相互作用-阿里云开发者社区

开发者社区> DrugAI> 正文

哈佛CASTER | 基于化学子结构表征预测药物相互作用

简介: 哈佛CASTER | 基于化学子结构表征预测药物相互作用
+关注继续查看

image.png

作者 | 陈雨洁

指导 | 曾湘祥教授

单位 | 湖南大学

研究方向 | 药物相互作用

image.png

研究背景


药物相互作用(DDI)是指病人在同时服用两种或两种以上的药物时,一种药物的药效受到另一种药物、食物或者环境的影响而发生改变,从而导致药效下降,或是药效增强导致明显毒副作用。例如,乙酰水杨酸(俗称:阿司匹林)本身具有抗炎解热、抑制血小板聚集、预防血栓和心肌梗塞的作用,但是当它与1-苄基咪唑相结合时会使高血压的风险增加。所以,对于药物相互作用的预测研究是有重要意义的,不仅能够减少非预期药物相互作用的情况,还能降低药物开发成本,以及优化药物设计过程。


目前的DDI预测模型,主要基于DrugBank、KEGG、PharmGKB等数据,使用基于特征的、基于相似性度量的方法,取得了一定效果,但这些预测模型存在以下局限性:(1)在DDI预测中缺少对药物表示形式的具体设计(2)模型仅仅是依赖有标签数据进行预测,不能很好地将模型泛化到新药或者DDI中(3)模型的参数多,难以提供可解释性。


针对这些局限性,近期哈佛大学的Kexin Huang等人提出了CASTER(ChemicAl SubstrucTurE Representation)模型,根据给定药物化学结构预测DDI,并且能对预测提供可解释性。

image.png

方法


CASTER通过三个模块很好地缓解之前计算模型的局限性:(1)基于DDI机制的序列模式挖掘模块,有效地描述药物的功能子结构(2)自编码模块 ,利用标签数据和无标签的化学结构数据来提高模型的准确性和通用性(3)字典学习模块,测量每个输入子结构与DDI结果的相关性的一组系数来解释预测 。


序列挖掘模块(SPM, sequential pattern mining module)


将药物的SMILES字符串按照层次分解为子结构、更小的子结构和原子。具体算法如下:

image.png

根据SPM算法生成离散的频繁子结构的集合,将用于推导所有有标签和无标签数据集中药物对的功能表示(Functional Representations )。


自编码模块(auto-encoding module)


Encoder使用神经网络(Neural Network)将药物-药物、药物-食物的功能表示成潜在特征嵌入z,映射到隐空间中。


Decoder根据潜在特征嵌入,使用另一个神经网络(NN)重构功能表示。

image.png

重构损失(Reconstruction Loss)只需要用无标签的药物对作为训练数据进行优化,能够利用更多的无标签药物数据源来提取更多相关的特征。

image.png

字典学习模块(dictionary learning module)


可以通过该模块了解CASTER如何进行预测,并确定哪些子结构可能导致药物间的交互。


深度字典表示(Deep Dictionary Representation)


深度字典表示是将每一个频繁子结构使用single-hot向量生成功能表示,再通过上述的encoder生成潜在特征向量,最后生成矩阵形式B。

image.png

将生成的药物对的潜在特征向量z投影到由span(B)定义的子空间,将投影系数r通过损失函数进行计算:

image.png

使用闭式解进行解析求解,找到产生最小投影损失的有意义的系数r:

image.png

最后得到的投影系数作为对应药物对的字典表示。

计算药物对的概率分数

基于投影系数r来计算药物对相互作用的分数,评估药物间交互的可能性,并通过交叉熵损失函数进行优化。

image.png

image.png

训练过程


使用无标签的药物-药物和药物-食物对来对自编码模块和字典学习模块进行预训练,编码器可以学习任意化学结构的最有效的表示。


使用有标签的数据集微调DDI预测的整个学习流水线。


可解释性预测


投影系数r用来评估基特征向量b和预测结果之间的相关性,而每个基向量b和频繁的子结构C有关联, r系数越大表示在DDI预测中对应的功能子结构对药物交互起作用,从而可以解释CASTER预测的合理性。


实验


数据集和评价指标


使用DrugBank数据库包括1850已批准药物,提取221,523有标签 DDI;使用BIOSNAP数据库包括1322已批准药物,提取41520 有标签DDI;随机生成220,000药物-药物对和220,000药物-食物对作为预训练的无标签数据。使用ROC-AUC、PR-AUC、F1 Score作为评价指标。


DDI预测中CASTER实现更高的精度


作者将CASTER模型与5种经典的端到端算法进行比较,包括有:LogisticRegression(LR) 、Nat.Prot(Vilar et al. 2014) 、Mol2Vec: (Jaeger, Fulle, and Turk 2018)、MolVAE(Gómez-Bombarelli et al. 2018) 、DeepDDI(Ryu, Kim, and Lee 2018) ,实验证明CASTER能够捕捉重要的交互机制。实验结果如下图:

image.png

CASTER利用无标签数据可以成功提高预测性能

使用少量的标签数据,调整无标签数据的数量进行实验,实验证明随着无标签数据的增加,CASTER能够利用无标签数据中的更多信息,并不断提高其对两个数据集的DDI预测的准确性。实验结果如下图:

image.png

CASRTER能够生成可解释性预测

以西地那非(Sildenafil)和其他硝酸盐类药物(如IM)为例,二者同时服用会引起血压下降,从而导致心脏病发作。实验测试CASTER在预测二者相互作用时是否将高系数分配给硝酸盐组。

image.png

实验结果很明显显示出由CASTER识别的21种功能子结构中硝酸盐结构系数(8.25)最高,从而对CASTER预测结果中可能导致DDI的子结构提出合理线索。


结论


本文在药物相互作用的化学机制的启发下,提出了一个新的DDI预测计算框架CASTER,它是一个端到端的字典学习框架,包含了DDI预测的具体表示。证明了比先前使用通用药物表示的方法能够提供更准确并且具有可解释的DDI预测。


版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
使用NAT网关轻松为单台云服务器设置多个公网IP
在应用中,有时会遇到用户询问如何使单台云服务器具备多个公网IP的问题。 具体如何操作呢,有了NAT网关这个也不是难题。
26729 0
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
9481 0
阿里云服务器ECS远程登录用户名密码查询方法
阿里云服务器ECS远程连接登录输入用户名和密码,阿里云没有默认密码,如果购买时没设置需要先重置实例密码,Windows用户名是administrator,Linux账号是root,阿小云来详细说下阿里云服务器远程登录连接用户名和密码查询方法
11189 0
windows server 2008阿里云ECS服务器安全设置
最近我们Sinesafe安全公司在为客户使用阿里云ecs服务器做安全的过程中,发现服务器基础安全性都没有做。为了为站长们提供更加有效的安全基础解决方案,我们Sinesafe将对阿里云服务器win2008 系统进行基础安全部署实战过程! 比较重要的几部分 1.
9048 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
13163 0
阿里云服务器ECS登录用户名是什么?系统不同默认账号也不同
阿里云服务器Windows系统默认用户名administrator,Linux镜像服务器用户名root
4008 0
阿里云ECS云服务器初始化设置教程方法
阿里云ECS云服务器初始化是指将云服务器系统恢复到最初状态的过程,阿里云的服务器初始化是通过更换系统盘来实现的,是免费的,阿里云百科网分享服务器初始化教程: 服务器初始化教程方法 本文的服务器初始化是指将ECS云服务器系统恢复到最初状态,服务器中的数据也会被清空,所以初始化之前一定要先备份好。
6885 0
+关注
497
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载