Chem. Sci. | SyntaLinker: 基于Transformer神经网络的片段连接生成器

简介: Chem. Sci. | SyntaLinker: 基于Transformer神经网络的片段连接生成器

今天给大家介绍的是生物岛实验室陈红明研究员的团队,联合中山大学药学院药物分子设计中心的徐峻教授,发表在英国皇家化学学会出版的化学核心期刊Chemical Science上的一篇论文。题为“SyntaLinker: Automatic Fragment Linking with Deep Conditional Transformer Neural Networks”。文章提出一种基于Transformer神经网络的片段连接生成器SyntaLinker。它通过学习现有化合物数据库中大量分子的隐含连接规则来建立生成模型,训练好的模型可根据给定的起始分子片段结构和自定义的连接段(Linker)约束条件,自动生成大量符合约束条件且结构多样的分子。


image.png

image.png

1


研究背景


高通量筛选(HTS,High-throughputScreening)和组合化学(CC, Combinatorial Chemistry)等新兴技术的兴起,使得药物发现由过去的随机筛选逐渐变得系统化。这些方法能显著提高药物的研发速度,缩短新药研发进程,但是高昂的筛选费用也加重了小型药物开发企业和科研单位的研究负担。因此,越来越多的研究人员将目光聚集在基于片段的药物设计(FBDD, Fragment-baseddrug design)中。相较于传统的药物设计方法,FBDD从小分子片段出发,极大的缩小了所需的筛选化合物库的规模,规避了分子的不良ADMET属性,同时可增强设计结构的多样性。此外,FBDD对于困难靶标的药物设计有着潜在的优势,已经在小型药物开发企业和科研单位逐渐发展为主流药物设计方法。


众所周知,一个成功的FBDD设计案例,有两个关键的制约点:(1)活性片段的识别;(2)活性片段合理“生长”并优化成先导化合物。幸运的是,NMR、SPR,X-ray、虚拟筛选等多种实验或计算的方法已经大大简化了片段识别的工作难度。而如何对已知的活性片段进行扩展,形成最终的先导化合物依旧是一个具有挑战的工作。常见的扩展片段的策略有三种:片段生长(growing)、片段融合(merging)及片段连接(linking)。其中,片段连接策略在理论上具有更大的潜在优势,它通过连接多个弱活性片段,维持这些片段与靶标蛋白的结合模式不变,从而获得良好的配体结合效率(LE,ligand efficiency)。此外,它甚至可能产生一些附加效应(additive binding potency),使设计出的分子具有更大的活性潜力。这些潜在的优势同时也使得片段连接极具挑战性,已有的成功的实验案例也鲜有报道。因此,开发基于片段连接的新型计算方法,将有助于提高片段连接实验的成功率。

image.png

2


研究方法


2.1.数据


已有的片段连接实际案例鲜有报道,作者利用切割算法人为构造了所需的片段-分子对作为训练数据。采用分子对匹配算法(MMPs, Matched Molecular Pairs)的切割方式,将一个分子拆解成两个终端片段和一个连接段,同时加上一些合理的筛选条件,使得产生的片段-分子对更加合理。作者最终共计从ChEMBL数据库中提取出了70多万条隐含的分子连接数据。

image.png

2.2模型


作者的目的是实现给定起始终端片段和自定义连接段约束条件的情况下,模型能生成大批符合要求且结构多样的类药性分子。因此,作者将这一问题类比成自然语言处理(NLP)中的完成句子(Sentence Completion)任务,借鉴神经机器翻译(Transformer)模型,构建了深度条件生成模型SyntaLinker。SyntaLinker包含两种类型的约束,即连接段最短键长(SLBD)和药效团等多重混合约束,用户可以根据特定靶点蛋白口袋的具体信息,定义合理的约束条件,生成预期的分子。

image.png

3


研究结果


3.1 模型表现


作者为了考察SyntaLinker的生成结果,首先分析了模型的基本评价指标:有效率、新颖度均高于90%,复现率和独特性均不低于80%;接着统计了生成分子的属性分布,证实绝大多数分子符合类药性原则;最后,重点探究了约束条件的控制能力,通过比对分析,发现约束条件的引入起到了很好的控制作用,使模型按照用户定义的约束条件生成分子结构。

image.png

3.2 模型可视化

SyntaLinker的本质是多层注意力(Attention)网络,作者用一个真实的训练案例,将SyntaLinker的学习过程,通过注意力的权重分布,以热点图的形式展示出来。

image.png

可以发现,模型实质上首先识别终端片段的信息,并在生成的分子中将这些信息重排。其次,模型结合约束条件和起始片段上下文信息,在连接点“.”处结合,逐步填充连接段。两个终端片段最终被连接在一起,生成了一个输出分子。


3.3 案例分析


最后,作者结合三个真实的研究案例,验证了SyntaLinker可以被成功的用于片段连接、先导化合物优化、骨架跃迁等多个药物设计问题中。

image.png

在片段连接和先导化合物优化案例中,通过约束SLBD的大小或解构-重构的方式,SyntaLinker成功复现了原始先导化合物,同时也产生了一批具有较高对接分值(docking score)且结构多样的潜在活性候选分子。而在骨架跃迁案例中,SyntaLinker也可以产生和原始配体三维形状相似度较高的多种不同骨架的类药性分子。


4


结论


在这项工作中,作者提出了一种新的深度生成模型SyntaLinker,用于进行片段连接。与早先报道的使用图卷积神经网络的方法(DeLinker)相比,我们的方法仅在二维结构上进行训练,不需要搜索三维构象数据库和复杂的构象分析。这种新颖的条件Transformer神经网络架构,通过学习给定起始片段对的结构信息来生成化合物。简单地将起始片段之间的连接点的最短键长距离设置为约束条件,可以获得满足约束的大量新颖的候选化合物。作者通过大量分析证明,这种生成模型能够学习和推断与预定义约束条件匹配的新颖连接片段。此外,作者还建立了具有多重药效团约束的模型,以进行更精确的连接片段设计。更重要的是,通过几个案例研究示例,证明了这种方法可以应用于片段连接,先导物优化和骨架跃迁等多种药物设计任务。大多数生成的分子具有比原始先导化合物更好的对接分数,同时能保持与原有片段相似的结合模式,并与PDB晶体结构中的原始配体构象具有高度三维形状相似性。我们期望SyntaLinker可以成为进行基于片段的药物设计或者骨架跃迁的一个有用工具,给化学家提供更多的启发性化学结构。


目录
相关文章
|
2月前
|
传感器 运维 物联网
蓝牙Mesh网络:连接未来的智能解决方案
蓝牙Mesh网络:连接未来的智能解决方案
260 12
|
18天前
|
物联网 5G 数据中心
|
21天前
|
Docker 容器
docker swarm启动服务并连接到网络
【10月更文挑战第16天】
20 5
|
28天前
|
安全 网络架构
无线网络:连接未来的无形纽带
【10月更文挑战第13天】
63 8
|
1月前
|
存储 网络协议 Java
【网络】UDP回显服务器和客户端的构造,以及连接流程
【网络】UDP回显服务器和客户端的构造,以及连接流程
51 2
|
1月前
|
人工智能 安全 搜索推荐
|
1月前
|
监控 安全 5G
|
1月前
|
安全 5G 网络安全
5G 网络中的认证机制:构建安全连接的基石
5G 网络中的认证机制:构建安全连接的基石
109 0
|
3月前
|
网络协议 Linux
在Linux中,如何分析网络连接和端口占用情况?
在Linux中,如何分析网络连接和端口占用情况?

热门文章

最新文章