Drug Discovery Today | 频繁命中化合物机制探究:PAINS规则的局限性

简介: Drug Discovery Today | 频繁命中化合物机制探究:PAINS规则的局限性

频繁出现的假阳性结果对高效的药物研发是一个极大的挑战。为了能够提前筛选假阳性化合物,避免无效的成本和投入,2010年Baell等人提出一套PAINS筛选规则(Pan-assay interference compounds)用于假阳性化合物筛选。然而,在后续研究中发现,PAINS筛选规则对于假阳性化合物筛选的有效性和正确性有待考证。基于这个问题,本文收集了一个涵盖6种常见频繁命中化合物机制且包含600,000分子的大型基准数据集用于PAINS规则测评。


image.png

背景


高通量筛选是药物研发的一个重要手段,然而研究中发现一些化合物在不同类型靶点筛选中均表现出阳性结果,这类化合物称为“频繁命中化合物”。其中,通过干扰实验条件而在多个实验中呈现出阳性结果的假阳性化合物是应该在药物研发前期尽量避免的无效投入。2010年,Baell等人在基于六个不同靶点AlphaScreen高通量筛选实验结果,并将其中频繁出现(≥4次)的化合物和相关结构总结为包含480个子结构的筛选规则PAINS(Pan-assay interference compounds)用于假阳性化合物筛选。这篇文章在Google Scholarship的引用次数已经超过2090次,药学领域权威杂志《Journal of Medicinal Chemistry》要求作者在提交论文时必须附带研究分子通过PAINS筛选规则的结果,对于含有PAINS子结构的化合物需要提供实验数据证明该化合物不是频繁命中化合物。然而,在实际应用中,PAINS规则筛选的化合物类型实际多种多样且甚至相互矛盾的,包括无活性化合物、已上市药物及候选化合物等。由于机制的不明确,使得后续PAINS规则筛选化合物的处理复杂且不明朗。


数据库筛选


为了探究PAINS规则背后的机制和筛选能力,课题组从文献及数据库中收集到6种常见频繁命中化合物机制的大型基准数据集,包括胶体聚集化合物、自荧光化合物、荧光酶抑制剂、易反应化合物和多靶点化合物。经过一系列分子预处理,包含正集和负集,超过600,000个分子用于PAINS规则测评。

image.png

图1. PAINS规则测评结果


结果发现,PAINS规则只能大约检测出10%的频繁命中化合物,平均正确率在42%左右。后续对于PAINS子结构具体分析的环节发现,虽然部分PAINS子结构对于频繁命中化合物有鉴别能力,但是仍然有241个PAINS子结构在这次筛选中并未检测到,结合后续对从 ZINC数据库中收集的400,000,000可购买分子的PAINS筛选结果,仍然有超过13%的PAINS子结构在这两次筛选中都未出现。以上数据表明PAINS规则仍需改进。

image.png

图2. PAINS规则具体情况


与其他规则比较


为了进一步探究PAINS规则的筛选能力,课题组收集了一些其他常用的频繁命中化合物筛选规则用于基准数据集筛选。结果表明,相较PAINS规则,机制分明的规则的筛选结果普遍更高效且更准确。这个结果也说明探究原始数据机制对于规则筛选能力的重要性。

image.png

总结

频繁命中化合物的筛选对于药物正常高效研发具有重要作用,然而现今使用的PAINS子结构规则仍有较大的发展空间,后续相关筛选规则的发展需要注意:(1). 机制分明的原始数据集,包含正集和负集;(2). 对于子结构规则的合理编排;(3). 与筛选模型的结合,相互补充。

目录
相关文章
|
人工智能 API
Chain-Of-Note:解决噪声数据、不相关文档和域外场景来改进RAG的表现
CoN框架由三种不同的类型组成,研究称之为阅读笔记。
152 0
|
数据挖掘
白话Elasticsearch53-深入聚合数据分析之Collect Model_bucket优化机制:深度优先、广度优先
白话Elasticsearch53-深入聚合数据分析之Collect Model_bucket优化机制:深度优先、广度优先
94 0
|
机器学习/深度学习 算法 BI
逆向倾向评分 (Inverse Propensity Scoring, IPS) 原理解析与MF算法的结合使用
逆向倾向评分 (Inverse Propensity Scoring, IPS) 原理解析与MF算法的结合使用
|
算法 测试技术 分布式数据库
ES本地分片逆文档频率评分策略(Shard Local IDF)导致的评分异常原理解析
ES本地分片逆文档频率评分策略(Shard Local IDF)导致的评分异常原理解析
ES本地分片逆文档频率评分策略(Shard Local IDF)导致的评分异常原理解析
|
C# 数据处理
C#使用拉依达准则(3σ准则)剔除异常数据(.Net剔除一组数据中的奇异值)
原文:C#使用拉依达准则(3σ准则)剔除异常数据(.Net剔除一组数据中的奇异值) 1、问题的提出: 电池生产中,遇到一批电池的测量结果数据: 电压值 电池个数 电压值 电池个数 电压值 电池个数 电压值 电池个数 0.
1779 0
|
机器学习/深度学习 算法 数据库
Drug Discovery Today| 频繁命中化合物:高通量筛选中需警惕的假阳性结果
Drug Discovery Today| 频繁命中化合物:高通量筛选中需警惕的假阳性结果
196 0
Drug Discovery Today| 频繁命中化合物:高通量筛选中需警惕的假阳性结果
|
传感器 运维
故障检测指标的贡献分析(Reconstruction Based Contribution,RBC)新方法
故障检测指标的贡献分析(Reconstruction Based Contribution,RBC)新方法
故障检测指标的贡献分析(Reconstruction Based Contribution,RBC)新方法
|
机器学习/深度学习 算法 数据挖掘
迁移学习中如何利用权值调整数据分布?DATL、L2TL两大方法解析
本文综述了两篇在迁移学习中利用权值调整数据分布的论文。通过这两个重要工作,读者可了解如何在迁移学习中进行微调的方法和理论。
231 0
迁移学习中如何利用权值调整数据分布?DATL、L2TL两大方法解析
|
机器学习/深度学习 新零售 算法
主动学习入门篇:如何能够显著地减少标注代价
在大数据和算力的助力下,深度学习掀起了一波浪潮,在许多领域取得了显著的成绩。以监督学习为主的深度学习方法,往往期望能够拥有大量的标注样本进行训练,模型能够学到更多有价值的知识(如下左图展示了3组常见的图像分类数据集,拥有上万的标注样本)。
7824 0
主动学习入门篇:如何能够显著地减少标注代价