Drug Discovery Today | 频繁命中化合物机制探究:PAINS规则的局限性

简介: Drug Discovery Today | 频繁命中化合物机制探究:PAINS规则的局限性

频繁出现的假阳性结果对高效的药物研发是一个极大的挑战。为了能够提前筛选假阳性化合物,避免无效的成本和投入,2010年Baell等人提出一套PAINS筛选规则(Pan-assay interference compounds)用于假阳性化合物筛选。然而,在后续研究中发现,PAINS筛选规则对于假阳性化合物筛选的有效性和正确性有待考证。基于这个问题,本文收集了一个涵盖6种常见频繁命中化合物机制且包含600,000分子的大型基准数据集用于PAINS规则测评。


image.png

背景


高通量筛选是药物研发的一个重要手段,然而研究中发现一些化合物在不同类型靶点筛选中均表现出阳性结果,这类化合物称为“频繁命中化合物”。其中,通过干扰实验条件而在多个实验中呈现出阳性结果的假阳性化合物是应该在药物研发前期尽量避免的无效投入。2010年,Baell等人在基于六个不同靶点AlphaScreen高通量筛选实验结果,并将其中频繁出现(≥4次)的化合物和相关结构总结为包含480个子结构的筛选规则PAINS(Pan-assay interference compounds)用于假阳性化合物筛选。这篇文章在Google Scholarship的引用次数已经超过2090次,药学领域权威杂志《Journal of Medicinal Chemistry》要求作者在提交论文时必须附带研究分子通过PAINS筛选规则的结果,对于含有PAINS子结构的化合物需要提供实验数据证明该化合物不是频繁命中化合物。然而,在实际应用中,PAINS规则筛选的化合物类型实际多种多样且甚至相互矛盾的,包括无活性化合物、已上市药物及候选化合物等。由于机制的不明确,使得后续PAINS规则筛选化合物的处理复杂且不明朗。


数据库筛选


为了探究PAINS规则背后的机制和筛选能力,课题组从文献及数据库中收集到6种常见频繁命中化合物机制的大型基准数据集,包括胶体聚集化合物、自荧光化合物、荧光酶抑制剂、易反应化合物和多靶点化合物。经过一系列分子预处理,包含正集和负集,超过600,000个分子用于PAINS规则测评。

image.png

图1. PAINS规则测评结果


结果发现,PAINS规则只能大约检测出10%的频繁命中化合物,平均正确率在42%左右。后续对于PAINS子结构具体分析的环节发现,虽然部分PAINS子结构对于频繁命中化合物有鉴别能力,但是仍然有241个PAINS子结构在这次筛选中并未检测到,结合后续对从 ZINC数据库中收集的400,000,000可购买分子的PAINS筛选结果,仍然有超过13%的PAINS子结构在这两次筛选中都未出现。以上数据表明PAINS规则仍需改进。

image.png

图2. PAINS规则具体情况


与其他规则比较


为了进一步探究PAINS规则的筛选能力,课题组收集了一些其他常用的频繁命中化合物筛选规则用于基准数据集筛选。结果表明,相较PAINS规则,机制分明的规则的筛选结果普遍更高效且更准确。这个结果也说明探究原始数据机制对于规则筛选能力的重要性。

image.png

总结

频繁命中化合物的筛选对于药物正常高效研发具有重要作用,然而现今使用的PAINS子结构规则仍有较大的发展空间,后续相关筛选规则的发展需要注意:(1). 机制分明的原始数据集,包含正集和负集;(2). 对于子结构规则的合理编排;(3). 与筛选模型的结合,相互补充。

目录
相关文章
|
4天前
|
存储 缓存 自然语言处理
SCOPE:面向大语言模型长序列生成的双阶段KV缓存优化框架
KV缓存是大语言模型(LLM)处理长文本的关键性能瓶颈,现有研究多聚焦于预填充阶段优化,忽视了解码阶段的重要性。本文提出SCOPE框架,通过分离预填充与解码阶段的KV缓存策略,实现高效管理。SCOPE保留预填充阶段的关键信息,并在解码阶段引入滑动窗口等策略,确保重要特征的有效选取。实验表明,SCOPE仅用35%原始内存即可达到接近完整缓存的性能水平,显著提升了长文本生成任务的效率和准确性。
16 3
SCOPE:面向大语言模型长序列生成的双阶段KV缓存优化框架
|
2月前
|
机器学习/深度学习 数据采集 算法
基于Liquid State Machine的时间序列预测:利用储备池计算实现高效建模
**Liquid State Machine (LSM)** 是一种 **脉冲神经网络 (Spiking Neural Network, SNN)** ,在计算神经科学和机器学习领域中得到广泛应用,特别适用于处理 **时变或动态数据**。它是受大脑自然信息处理过程启发而提出的一种 **脉冲神经网络** 。
88 4
基于Liquid State Machine的时间序列预测:利用储备池计算实现高效建模
|
8月前
|
人工智能 算法 数据可视化
R语言DTW(Dynamic Time Warping) 动态时间规整算法分析序列数据和可视化
R语言DTW(Dynamic Time Warping) 动态时间规整算法分析序列数据和可视化
|
人工智能 API
Chain-Of-Note:解决噪声数据、不相关文档和域外场景来改进RAG的表现
CoN框架由三种不同的类型组成,研究称之为阅读笔记。
141 0
|
机器学习/深度学习 算法 数据挖掘
Sentieon | 每周文献-Benchmark and Method Study(基准与方法研究)-第八期
Sentieon | 每周文献-Benchmark and Method Study(基准与方法研究)-第八期
102 0
|
机器学习/深度学习 人工智能 算法
强化学习从基础到进阶-案例与实践[5]:梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数(credit)
强化学习从基础到进阶-案例与实践[5]:梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数(credit)
强化学习从基础到进阶-案例与实践[5]:梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数(credit)
|
数据挖掘
白话Elasticsearch53-深入聚合数据分析之Collect Model_bucket优化机制:深度优先、广度优先
白话Elasticsearch53-深入聚合数据分析之Collect Model_bucket优化机制:深度优先、广度优先
90 0
|
算法
白话Elasticsearch26-深度探秘搜索技术之function_score自定义相关度分数算法
白话Elasticsearch26-深度探秘搜索技术之function_score自定义相关度分数算法
126 0
|
机器学习/深度学习 算法 BI
逆向倾向评分 (Inverse Propensity Scoring, IPS) 原理解析与MF算法的结合使用
逆向倾向评分 (Inverse Propensity Scoring, IPS) 原理解析与MF算法的结合使用