频繁出现的假阳性结果对高效的药物研发是一个极大的挑战。为了能够提前筛选假阳性化合物,避免无效的成本和投入,2010年Baell等人提出一套PAINS筛选规则(Pan-assay interference compounds)用于假阳性化合物筛选。然而,在后续研究中发现,PAINS筛选规则对于假阳性化合物筛选的有效性和正确性有待考证。基于这个问题,本文收集了一个涵盖6种常见频繁命中化合物机制且包含600,000分子的大型基准数据集用于PAINS规则测评。
背景
高通量筛选是药物研发的一个重要手段,然而研究中发现一些化合物在不同类型靶点筛选中均表现出阳性结果,这类化合物称为“频繁命中化合物”。其中,通过干扰实验条件而在多个实验中呈现出阳性结果的假阳性化合物是应该在药物研发前期尽量避免的无效投入。2010年,Baell等人在基于六个不同靶点AlphaScreen高通量筛选实验结果,并将其中频繁出现(≥4次)的化合物和相关结构总结为包含480个子结构的筛选规则PAINS(Pan-assay interference compounds)用于假阳性化合物筛选。这篇文章在Google Scholarship的引用次数已经超过2090次,药学领域权威杂志《Journal of Medicinal Chemistry》要求作者在提交论文时必须附带研究分子通过PAINS筛选规则的结果,对于含有PAINS子结构的化合物需要提供实验数据证明该化合物不是频繁命中化合物。然而,在实际应用中,PAINS规则筛选的化合物类型实际多种多样且甚至相互矛盾的,包括无活性化合物、已上市药物及候选化合物等。由于机制的不明确,使得后续PAINS规则筛选化合物的处理复杂且不明朗。
数据库筛选
为了探究PAINS规则背后的机制和筛选能力,课题组从文献及数据库中收集到6种常见频繁命中化合物机制的大型基准数据集,包括胶体聚集化合物、自荧光化合物、荧光酶抑制剂、易反应化合物和多靶点化合物。经过一系列分子预处理,包含正集和负集,超过600,000个分子用于PAINS规则测评。
图1. PAINS规则测评结果
结果发现,PAINS规则只能大约检测出10%的频繁命中化合物,平均正确率在42%左右。后续对于PAINS子结构具体分析的环节发现,虽然部分PAINS子结构对于频繁命中化合物有鉴别能力,但是仍然有241个PAINS子结构在这次筛选中并未检测到,结合后续对从 ZINC数据库中收集的400,000,000可购买分子的PAINS筛选结果,仍然有超过13%的PAINS子结构在这两次筛选中都未出现。以上数据表明PAINS规则仍需改进。
图2. PAINS规则具体情况
与其他规则比较
为了进一步探究PAINS规则的筛选能力,课题组收集了一些其他常用的频繁命中化合物筛选规则用于基准数据集筛选。结果表明,相较PAINS规则,机制分明的规则的筛选结果普遍更高效且更准确。这个结果也说明探究原始数据机制对于规则筛选能力的重要性。
总结
频繁命中化合物的筛选对于药物正常高效研发具有重要作用,然而现今使用的PAINS子结构规则仍有较大的发展空间,后续相关筛选规则的发展需要注意:(1). 机制分明的原始数据集,包含正集和负集;(2). 对于子结构规则的合理编排;(3). 与筛选模型的结合,相互补充。