Nat. Commun. | 条件GAN网络和基因表达特征用于类苗头化合物的发现

本文涉及的产品
公网NAT网关,每月750个小时 15CU
简介: Nat. Commun. | 条件GAN网络和基因表达特征用于类苗头化合物的发现

image.png

今天给大家介绍的是拜耳作物科学公司、拜耳公司机器学习研发部和遗传毒理学部于2020年1月联合发表在Nature Communications上的一篇论文,这篇文章通过一种生成模型进行分子的从头设计以及合成优化。该生成模型利用转录组学数据进行训练,这样可高概率地自动生成所需转录组谱的分子,在只提供所需状态的基因表达标记而无需对任何训练的化合物进行提前靶标注释的情况下,该模型就能自动为所需靶标设计类似活性的分子,并且得到了与活性化合物更相似的分子,这为药物研发提供了一种新的方法。


1


背景


药物研发是一个漫长而又艰难的过程,其困难在于理论上可能存在的1060个类药物分子中只有一小部分可以用于治疗,所以在药物发现过程中面临的挑战之一是苗头化合物(Hit)的识别。苗头化合物是指对特定靶标或作用环节具有初步活性的化合物,这一阶段决定了整个药物发现过程的起点。苗头化合物可能是天然配体,也可能是从文献、专利或者分子的结构信息中选取的分子。但对于新型靶标或者孤立靶标这种没有先前的信息可利用的分子,之前的方法例如使用组合库或者高通量筛选(HTS)费时费力,效率不高。后来随着计算机的发展,出现了基于计算方法或数据驱动的方式来辅助苗头化合物的识别,一类是从包含大量分子的虚拟筛选库的虚拟筛选技术,通常这种方法是利用分子的相似性或者分子对接技术(molecular docking),一类是利用逆QSAR、粒子群优化或者遗传算法等自动生成具有特定性质的新分子,但总体来说这些方法效果也不是特别好。而在如今的人工智能时代,深度生成模型的出现使得药物分子的生成得以很好的解决。生成模型能够从特定训练样本学习到样本的属性,然后自动生成具有类似特征的新实体,所以其广泛应用于分子设计、组合优化和苗头化合物的发现,但是现有的分子生成模型几乎都忽略了配体与靶标的相互作用,针对该问题,作者提出了一种将条件GAN网络和WGAN-GP(带梯度惩罚的WGAN)网络结合在一起的生成模型,该生成模型将系统生物学和分子设计联系在一起,在仅使用靶标基因敲除的基因表达特征即可生成活性分子,使得该模型可在无先验知识的情况下生成类苗头化合物,并且是多功能的,在同一模型下可为几种靶标或生物状态下设计分子。


2


模型


首先作者利用Grammar VAE模型将分子的SMILES序列编码到一个隐空间,随后可以将其解码为重建原始SMILES序列所需的语法生成规则集。其次,为了得到更高清晰度的合成数据,作者使用StackGAN,核心思想就是搭建两个生成器(generator),主要采用一种逐步递进的思想,将分子生成分为两个阶段来操作,利用第二阶段来改进第一阶段生成的结构,两个阶段的区别在于第二阶段的输入数据不使用随机生成的向量,而是第一阶段生成的结果。整个模型的图示结构如下:

image.png

两个阶段使用的具体GAN网络是将条件GAN网络和WGAN-GP网络结合,利用条件GAN的原因是引入基因表达特征,将其作为条件c,而WGAN-GP是在WGAN上提出的改进模型,WGAN在处理Lipschitz限制条件时直接采用了weight clipping,而处理Lipschitz条件时直接把weight限制住也带来了一些问题,例如导致很容易一不小心就梯度消失或者梯度爆炸。在两者模型结合下第一阶段的判别器和生成器的损失函数如下:

image.png

其中,x是分子表示,c是作为条件的基因表达特征,它们都是从真实数据分布preal中采样,而第一阶段的输入数据z满足高斯分布,函数f0是衡量与分子表示相对应的基因表达特征的概率,是正则化的系数,前者是平衡了梯度惩罚项对判别器损失的影响,后者是对f0进行加权,根据经验将两者设置为10.第二阶段的判别器和生成器的损失函数与第一阶段的区别在之前已经说明,具体形式如下:

image.png

3


实验


从化合物诱导的基因表达中生成分子


结果是每个特征产生约8.5%的有效分子,大约8.2%是独有的SMILES表示形式,只有约1.6%是易合成的,而且StackGAN的第二阶段生成的分子数并没有比第一阶段多。另外,在分子生成中,参考化合物和训练集的基因表达谱会有很大的欧几里得距离,这样会导致和参考化合物的相似性降低。(仅为一部分,其余请参考原文)

image.png

设计类抑制剂分子

image.png

下图显示了几个靶标各自产生的分子及其最接近的已知活性分子的示例。(仅为一部分,其余请参考原文)

image.png

从上图可以看到在许多情况下,所产生的分子与活性分子共享官能团,甚至具有相似的分子长序列片段。从这些例子中可以看出,进行基因敲除后靶标的基因表达特征能够将分子的生成引向与活性分子相关的化学空间的特定区域。

 

优化长序列片段(scaffolds)

image.png

下图是实验中根据特定靶点优化的一些分子示例,通过使用AKT1,EGFR,ERG和TP53的基因敲除后的基因表达优化苯环而生成的分子,并且在圆圈外显示了和它们的活性最相关和最邻近的分子。

image.png

相似性搜索和本模型的对比

image.png

用于化学空间的特定区域

image.png

4


总结


作者提出了一种基于条件生成对抗网络的方法,该方法从特定的基因表达特征中生成了新的分子,由于不依赖靶标注释和活性数据使得它在诸如靶标脱孤中无法获得此类信息的情况下非常有用。但该方法仍有改进的空间,例如,评估是否可以将其应用于先导化合物的优化或寻找产生具有与特定药物靶标活性相关的已知结构特征的化合物的方法。作者也正计划扩展此方法,以自动生成具有多目标特征或能够逆转毒理学相关或疾病相关基因表达特征的分子。


相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
目录
相关文章
|
2月前
|
存储 网络协议 安全
30 道初级网络工程师面试题,涵盖 OSI 模型、TCP/IP 协议栈、IP 地址、子网掩码、VLAN、STP、DHCP、DNS、防火墙、NAT、VPN 等基础知识和技术,帮助小白们充分准备面试,顺利踏入职场
本文精选了 30 道初级网络工程师面试题,涵盖 OSI 模型、TCP/IP 协议栈、IP 地址、子网掩码、VLAN、STP、DHCP、DNS、防火墙、NAT、VPN 等基础知识和技术,帮助小白们充分准备面试,顺利踏入职场。
103 2
|
2月前
|
运维 负载均衡 安全
|
3月前
|
网络协议 安全 网络安全
Cisco-网络端口地址转换NAPT配置
Cisco-网络端口地址转换NAPT配置
|
3月前
|
安全 网络安全 数据安全/隐私保护
Cisco-网络地址转换动态NAT
Cisco-网络地址转换动态NAT
|
3月前
|
安全 网络安全 数据安全/隐私保护
Cisco-网络地址转换静态NAT
Cisco-网络地址转换静态NAT
|
5月前
|
虚拟化
VMware NAT 模式 虚拟机网络电缆被拔出,连不上网
VMware NAT 模式 虚拟机网络电缆被拔出,连不上网
126 0
|
20天前
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
59 17
|
30天前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将介绍网络安全的重要性,分析常见的网络安全漏洞及其危害,探讨加密技术在保障网络安全中的作用,并强调提高安全意识的必要性。通过本文的学习,读者将了解网络安全的基本概念和应对策略,提升个人和组织的网络安全防护能力。
|
1月前
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将从网络安全漏洞、加密技术和安全意识三个方面进行探讨,旨在提高读者对网络安全的认识和防范能力。通过分析常见的网络安全漏洞,介绍加密技术的基本原理和应用,以及强调安全意识的重要性,帮助读者更好地保护自己的网络信息安全。
49 10
|
1月前
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
在数字化时代,网络安全和信息安全已成为我们生活中不可或缺的一部分。本文将介绍网络安全漏洞、加密技术和安全意识等方面的内容,并提供一些实用的代码示例。通过阅读本文,您将了解到如何保护自己的网络安全,以及如何提高自己的信息安全意识。
61 10

热门文章

最新文章