Nat. Commun. | 条件GAN网络和基因表达特征用于类苗头化合物的发现

本文涉及的产品
公网NAT网关,每月750个小时 15CU
简介: Nat. Commun. | 条件GAN网络和基因表达特征用于类苗头化合物的发现

image.png

今天给大家介绍的是拜耳作物科学公司、拜耳公司机器学习研发部和遗传毒理学部于2020年1月联合发表在Nature Communications上的一篇论文,这篇文章通过一种生成模型进行分子的从头设计以及合成优化。该生成模型利用转录组学数据进行训练,这样可高概率地自动生成所需转录组谱的分子,在只提供所需状态的基因表达标记而无需对任何训练的化合物进行提前靶标注释的情况下,该模型就能自动为所需靶标设计类似活性的分子,并且得到了与活性化合物更相似的分子,这为药物研发提供了一种新的方法。


1


背景


药物研发是一个漫长而又艰难的过程,其困难在于理论上可能存在的1060个类药物分子中只有一小部分可以用于治疗,所以在药物发现过程中面临的挑战之一是苗头化合物(Hit)的识别。苗头化合物是指对特定靶标或作用环节具有初步活性的化合物,这一阶段决定了整个药物发现过程的起点。苗头化合物可能是天然配体,也可能是从文献、专利或者分子的结构信息中选取的分子。但对于新型靶标或者孤立靶标这种没有先前的信息可利用的分子,之前的方法例如使用组合库或者高通量筛选(HTS)费时费力,效率不高。后来随着计算机的发展,出现了基于计算方法或数据驱动的方式来辅助苗头化合物的识别,一类是从包含大量分子的虚拟筛选库的虚拟筛选技术,通常这种方法是利用分子的相似性或者分子对接技术(molecular docking),一类是利用逆QSAR、粒子群优化或者遗传算法等自动生成具有特定性质的新分子,但总体来说这些方法效果也不是特别好。而在如今的人工智能时代,深度生成模型的出现使得药物分子的生成得以很好的解决。生成模型能够从特定训练样本学习到样本的属性,然后自动生成具有类似特征的新实体,所以其广泛应用于分子设计、组合优化和苗头化合物的发现,但是现有的分子生成模型几乎都忽略了配体与靶标的相互作用,针对该问题,作者提出了一种将条件GAN网络和WGAN-GP(带梯度惩罚的WGAN)网络结合在一起的生成模型,该生成模型将系统生物学和分子设计联系在一起,在仅使用靶标基因敲除的基因表达特征即可生成活性分子,使得该模型可在无先验知识的情况下生成类苗头化合物,并且是多功能的,在同一模型下可为几种靶标或生物状态下设计分子。


2


模型


首先作者利用Grammar VAE模型将分子的SMILES序列编码到一个隐空间,随后可以将其解码为重建原始SMILES序列所需的语法生成规则集。其次,为了得到更高清晰度的合成数据,作者使用StackGAN,核心思想就是搭建两个生成器(generator),主要采用一种逐步递进的思想,将分子生成分为两个阶段来操作,利用第二阶段来改进第一阶段生成的结构,两个阶段的区别在于第二阶段的输入数据不使用随机生成的向量,而是第一阶段生成的结果。整个模型的图示结构如下:

image.png

两个阶段使用的具体GAN网络是将条件GAN网络和WGAN-GP网络结合,利用条件GAN的原因是引入基因表达特征,将其作为条件c,而WGAN-GP是在WGAN上提出的改进模型,WGAN在处理Lipschitz限制条件时直接采用了weight clipping,而处理Lipschitz条件时直接把weight限制住也带来了一些问题,例如导致很容易一不小心就梯度消失或者梯度爆炸。在两者模型结合下第一阶段的判别器和生成器的损失函数如下:

image.png

其中,x是分子表示,c是作为条件的基因表达特征,它们都是从真实数据分布preal中采样,而第一阶段的输入数据z满足高斯分布,函数f0是衡量与分子表示相对应的基因表达特征的概率,是正则化的系数,前者是平衡了梯度惩罚项对判别器损失的影响,后者是对f0进行加权,根据经验将两者设置为10.第二阶段的判别器和生成器的损失函数与第一阶段的区别在之前已经说明,具体形式如下:

image.png

3


实验


从化合物诱导的基因表达中生成分子


结果是每个特征产生约8.5%的有效分子,大约8.2%是独有的SMILES表示形式,只有约1.6%是易合成的,而且StackGAN的第二阶段生成的分子数并没有比第一阶段多。另外,在分子生成中,参考化合物和训练集的基因表达谱会有很大的欧几里得距离,这样会导致和参考化合物的相似性降低。(仅为一部分,其余请参考原文)

image.png

设计类抑制剂分子

image.png

下图显示了几个靶标各自产生的分子及其最接近的已知活性分子的示例。(仅为一部分,其余请参考原文)

image.png

从上图可以看到在许多情况下,所产生的分子与活性分子共享官能团,甚至具有相似的分子长序列片段。从这些例子中可以看出,进行基因敲除后靶标的基因表达特征能够将分子的生成引向与活性分子相关的化学空间的特定区域。

 

优化长序列片段(scaffolds)

image.png

下图是实验中根据特定靶点优化的一些分子示例,通过使用AKT1,EGFR,ERG和TP53的基因敲除后的基因表达优化苯环而生成的分子,并且在圆圈外显示了和它们的活性最相关和最邻近的分子。

image.png

相似性搜索和本模型的对比

image.png

用于化学空间的特定区域

image.png

4


总结


作者提出了一种基于条件生成对抗网络的方法,该方法从特定的基因表达特征中生成了新的分子,由于不依赖靶标注释和活性数据使得它在诸如靶标脱孤中无法获得此类信息的情况下非常有用。但该方法仍有改进的空间,例如,评估是否可以将其应用于先导化合物的优化或寻找产生具有与特定药物靶标活性相关的已知结构特征的化合物的方法。作者也正计划扩展此方法,以自动生成具有多目标特征或能够逆转毒理学相关或疾病相关基因表达特征的分子。


相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
目录
相关文章
|
7天前
|
编解码 异构计算
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
41 9
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
|
7天前
|
计算机视觉 Perl
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为CVPR-2024 PKINet 获取多尺度纹理特征,适应尺度变化大的目标
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为CVPR-2024 PKINet 获取多尺度纹理特征,适应尺度变化大的目标
38 10
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为CVPR-2024 PKINet 获取多尺度纹理特征,适应尺度变化大的目标
|
7天前
|
机器学习/深度学习 编解码 计算机视觉
RT-DETR改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合
RT-DETR改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合
31 10
RT-DETR改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合
|
9天前
|
编解码 异构计算
YOLOv11改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
YOLOv11改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
30 7
YOLOv11改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
|
4月前
|
机器学习/深度学习 人工智能
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念对齐人类
【10月更文挑战第18天】这篇论文提出了一种名为AligNet的框架,旨在通过将人类知识注入神经网络来解决其与人类认知的不匹配问题。AligNet通过训练教师模型模仿人类判断,并将人类化的结构和知识转移至预训练的视觉模型中,从而提高模型在多种任务上的泛化能力和稳健性。实验结果表明,人类对齐的模型在相似性任务和出分布情况下表现更佳。
98 3
|
2月前
|
机器学习/深度学习 网络架构
揭示Transformer重要缺陷!北大提出傅里叶分析神经网络FAN,填补周期性特征建模缺陷
近年来,神经网络在MLP和Transformer等模型上取得显著进展,但在处理周期性特征时存在缺陷。北京大学提出傅里叶分析网络(FAN),基于傅里叶分析建模周期性现象。FAN具有更少的参数、更好的周期性建模能力和广泛的应用范围,在符号公式表示、时间序列预测和语言建模等任务中表现出色。实验表明,FAN能更好地理解周期性特征,超越现有模型。论文链接:https://arxiv.org/pdf/2410.02675.pdf
128 68
|
11天前
|
计算机视觉 Perl
YOLOv11改进策略【Backbone/主干网络】| 替换骨干网络为CVPR-2024 PKINet 获取多尺度纹理特征,适应尺度变化大的目标
YOLOv11改进策略【Backbone/主干网络】| 替换骨干网络为CVPR-2024 PKINet 获取多尺度纹理特征,适应尺度变化大的目标
12 0
YOLOv11改进策略【Backbone/主干网络】| 替换骨干网络为CVPR-2024 PKINet 获取多尺度纹理特征,适应尺度变化大的目标
|
11天前
|
机器学习/深度学习 编解码 计算机视觉
YOLOv11改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合
YOLOv11改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合
31 0
YOLOv11改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合
|
3月前
|
存储 网络协议 安全
30 道初级网络工程师面试题,涵盖 OSI 模型、TCP/IP 协议栈、IP 地址、子网掩码、VLAN、STP、DHCP、DNS、防火墙、NAT、VPN 等基础知识和技术,帮助小白们充分准备面试,顺利踏入职场
本文精选了 30 道初级网络工程师面试题,涵盖 OSI 模型、TCP/IP 协议栈、IP 地址、子网掩码、VLAN、STP、DHCP、DNS、防火墙、NAT、VPN 等基础知识和技术,帮助小白们充分准备面试,顺利踏入职场。
203 2
|
3月前
|
运维 负载均衡 安全

热门文章

最新文章