今天给大家介绍麻省理工大学的Bonnie Berger教授课题组的一篇文章 “Learning with uncertainty for biological discovery and design”。作者通过对预训练特征使用基于高斯过程的不确定性预测,解决了用于产生生物学假设的机器学习方法在探索超出训练数据分布的范围时容易失败的问题。此外,作者展示了不确定性如何促进计算和实验之间的紧密迭代循环,如何改善新型生化结构的生成设计,并概括了不同的生物学领域。
1
研究背景
高通量测定研究带来了大量的实验数据,机器学习算法则提供了一种将现有实验数据转化为可行性的生物假设的途径。但是,假设的生成通常依赖于人类专家的直觉确定性或不确定性,机器学习算法并不具备这种直觉,这会导致算法容易出现过分自信的预测,针对这一问题,一种量化预测不确定性的算法可以帮助人们将实验工作集中于成功可能性很高的假设上。为此,作者提出了一种基于高斯过程量化预测不确定性的方法,这种方法在训练数据有限的情况下也可以进行实质性的生物发现。在实验中,作者使用72种激酶抑制剂的信息来训练模型,对10833个化合物的化学文库进行筛选,再通过实验验证机器生成的体外结合测定的假说。实验结果表明基于GP的模型在原则上考虑了不确定性,预测了一系列的化合物-靶标相互作用,命中率为90%。
2
方法
2.1 预测采集函数
输出不确定性得分的模型通常使用采集函数对要采集的复合激酶对进行排序,标准的采集函数是一个置信上限(UCB),当需要低预测值时,UCB采用以下形式:
其中
和
分别是第i个样本的预测Kd值和不确定性评分。其中
是控制分配给不确定性评分的权重。在获取前k个示例以进行进一步实验时,研究人员可以简单地使用具有最小k个采集函数值的示例
2.2 高斯过程
GP是一种贝叶斯机器学习策略,可以学习非线性函数,可以处理有限的数据,并可以在原则上合并先验信息。GP与该研究最相关的方面是它们使研究人员能够明确指定编码“基线”预测和相应不确定性的先验信息。在与任何训练示例都非常不同的预测示例上,GP的预测不确定性接近先前不确定性的值。
高斯过程回归器由均值函数和协方差函数完整描述。对于化合物激酶实验和蛋白质荧光实验,均值函数设置为一个常数值,均值函数设置为一个常数值。协方差函数设置为高斯或平方指数,内核根据与先验不确定性相关的常数
来设置:
表示
距离,
依据具体实验来设置。每个预测都采用高斯分布的形式,使用均值作为预测值,并使用方差作为不确定性估计。
2.3 多层感知器+高斯过程
由于对机器学习的很多兴趣都集中在改善神经网络模型的性能上,因此以不确定性增强神经网络的一种简单方法是将神经网络的预测与GP的预测结合起来。作者使用一个MLP回归器,将GP拟合到MLP回归残差中,具有与上述常规GP相同的形式,但其中回归问题表示为:
其中
表示训练样本和
表示样本标签。为了计算预测值,同时计算了MLP和GP并对MLP预测和GP平均值求和,另外还可以使用GP标准偏差进行计算不确定性估计值。
3
实验
3.1 理论和概念用例
研究中的关键概念是预测“不确定性”可以帮助机器学习算法更有效地探索新的生物学假设,实验验证结果如图1A所示,其次,“样本效率”(图1B)和“预训练”(图1C)的概念也有助于提高生物学发现不确定性预测的实用性和性能。基于这些概念,研究者认为GP是基于机器学习的假设生成的主要候选者,因为它们自然地量化了预测不确定性,具有很高的采样效率,并且可以很容易地合并预训练的特征。
图1 机器引导的生物发现的不确定性预测
3.2 模型对比
为了评估对不确定性建模是否与其他基准方法具有竞争性,并且验证在确定生物假设的优先级时,不确定性预测是否会提供任何真正的优势,作者通过预测分子化合物与蛋白质激酶的亲和力来对比基于高斯过程的不确定性建模方法与其他基准方法的有效性。
首先对预测和发现过程进行了计算机模拟,获得了一个公开可用的数据集,其中包含在72个化合物和442种独特激酶蛋白之间的完整激酶-化合物对的结合亲和力测量值,通过将已知数据分为训练数据和测试数据建立基于交叉验证的模拟。主要的基准方法包括:(1)基于高斯过程(GP)的不确定性模型:GP回归、多层感知器(MLP)+GP;(2)其他不确定性预测模型:贝叶斯多层感知器(BMLP)、每一个都发出高斯分布的MLP集合(GMLPE);(3)不进行不确定性预测的模型:MLP、集体矩阵分解(CMF)和DGraphDTA。实验的结果表明,基于GP的模型与其他基于方法始终保持竞争优势,并且通常比其他方法更好。其中,GP和MLP + GP模型,在所有测试数据上,预测Kds和真实Kds之间的皮尔森相关性分别为0.35和0.38,而 MLP、CMF和DGraphDTA基线分别只有0.26、0.23和0.21,实验结果如图2所示。
图2 模型预测有效性对比结果
此外,作者还进行了根据预测的亲和力确定化合物激酶相互作用的优先级、不确定性预测发现化合物激酶的生化活性以及使用具备不确定预测的自主学习展示具有PknB生化活性的结构化合物等实验,具体实验结果可参考论文原文。
4
总结
生物发现通常需要在相当大的不确定性下以有限的数据做出有根据的假设。在这项研究中,作者展示了生成生物学假设的机器学习模型如何克服这些挑战,并提出了一种广泛有用的范例:基于神经预训练特征的特定于任务的有监督GP模型。该研究表明,不确定性为防止过度拟合和病理模型偏差提供了有效的保护,样品效率可在广泛的实验规模上成功进行迭代学习,并且预训练能够提升不确定性模型的性能。