大家好,今天推荐的是Nature Communication发表的UMD研究人员使用人工智能语言工具解码分子运动的文章,文章的通讯作者是来自马里兰大学化学与生物化学系和物理科学与技术学院的医学博士Pratyush Tiwary。通过将自然语言处理工具应用于蛋白质分子的运动,马里兰大学的科学家创造了一种抽象语言,用于描述蛋白质分子可以采取的多种形状,以及如何以及何时从一种形状转变为另一种形状。
1
介绍
循环神经网络(RNN)是一种人工智能(AI)技术,为时间序列建模而开发。RNNs的一个具体且极为流行的实例是长短期记忆(LSTM)神经网络,它拥有更多的灵活性,可用于语言建模、机器翻译和天气预报等挑战性任务。LSTMs的开发是为了缓解之前现有的RNN架构的局限性,这种架构中,它们无法学习源自远古时间的信息。这就是所谓的消失梯度问题,这个术语捕捉了RNN参数所经历的梯度如何消失,作为基础数据中的变化发生在多长时间前的函数。LSTMs通过门控机制控制梯度的流动来处理这个问题,其中门控机制可以打开或关闭由其为每个输入学习的值决定。梯度现在可以保留较长的序列,LSTMs可以通过允许网络动态学习忘记信息的某些方面来长期积累信息。最近,LSTMs还被证明有可能模仿实验或模拟产生的轨迹,在获得大量过去数据的情况下,对未来短时间内做出准确的预测。这项工作中,研究人员考虑了RNNs,特别是LSTMs的另一种可以说是新颖的用途,在进行预测时,与以前的工作相比,这些预测在很长一段时间内都是有效的,但只是在统计意义上。尽管只在短时间内有效,这里研究人员感兴趣的是来自化学和生物物理学的问题,其中强调的是更多的是在统计上有效的预测,在极长的时间内有效。
本研究工作中研究人员提出了一种替代方法,使用基于LSTM的语言模型,从高维系统的计算机模拟或实验产生的一些低维阶参数沿时间序列学习概率模型。研究人员还通过对不同模型系统的计算模拟表明,该语言模型不仅可以产生正确的玻尔兹曼统计量,而且可以产生表征基础数据中动态的动力学。我们在这里强调这个计算的一个独特的方面,我们的框架需要的顺序参数可以任意远离真正的底层慢模式,通常称为反应坐标。这反过来又决定了必须捕获多长的内存内核,这在一般情况下是一个非常难以解决的问题。我们的框架是不可知的接近从真正的反应坐标和重建统计学上准确的动态在一个广泛的秩序参数。我们还展示了损失函数的最小化如何导致学习物理系统的路径熵,并建立嵌入层和过渡概率之间的联系。按照这种联系,我们还展示了如何通过嵌入向量来定义过渡概率。我们分别提供了模型电位的Langevin动力学的Boltzmann统计和动力学的测试,丙氨酸二肽的MD模拟,以及从单分子力谱实验对多态核糖开关的轨迹。我们还比较了我们的协议与替代方法,包括隐藏马尔科夫模型。研究人员的工作代表了一个流行的人工智能框架的新用途,以执行动态重建在一个潜在的高基本和实际相关的领域,包括材料和药物设计。
2
方法
2.1 模型
所有模型的微分都有两个自由度x和y。本研究的前两个模型有三个可转移的状态,其控制微分U(x, y)由下列公式给出:
研究人员还建立了一个4-state模型系统:
2.2 分子动力学
Langevin动力学模拟的积分时间步长为0.01个单位,线性3态和4态势的模拟在β=9.5下进行,三角形3态势的模拟在β=9.0下进行,其中β=1/kBT。丙氨酸二肽的MD模拟使用软件GROMACS 5.0.4,用PLUMED 2.4修补获得的。
3
结果
3.1 分子动力学可以映射成一个字符序列
这项工作的核心是在空间和时间上充分分化的分子动力学轨迹,可以映射到一些语言中的字符序列中。通过使用一个字符级的语言模型,有效地预测未来的字符,给定序列中迄今为止的字符,可以学习被映射到字符中的MD轨迹的演变。研究人员使用的模型是随机的,因为它通过每个字符在用于训练的语料库中出现的概率来学习它们。这个语言模型由三个顺序部分组成:首先是一个嵌入层,将一热向量映射到密集向量,然后是一个LSTM层,它通过一个可训练的递归函数连接不同时间步长的输入状态和隐藏状态,最后是一个密集层,将LSTM的输出转化为分类概率向量。
3.2 训练网络等同于学习路径熵
研究人员通过不同系统的数值结果证明,这项工作的核心发现是用于语言建模的LSTM框架也可以用来捕捉化学和生物物理学中普遍存在的动力学和热力学方面的动态轨迹。
3.3 嵌入层捕捉动能距离
词嵌入理论中,嵌入层提供了对词之间相似性的衡量。然而,从路径概率表示来看,由于推导可以不需要嵌入向量x,所以不清楚嵌入层是如何工作的。研究人员通过测试系统的数值示例表明,LSTM嵌入层具有通过等式的转移概率,可以捕获原始物理系统中两个状态之间的平均通勤时间,而与馈入LSTM的低维投影的质量无关。
3.4 测试系统
为了证明想法,研究人员考虑一系列不同的动力学轨迹。包括三个模型电位、分子丙氨酸二肽模型,以及从单分子力谱实验的多态核糖开关的轨迹。当将神经网络应用于模型系统时,嵌入维度M设置为8,LSTM单元L设置为64。当学习丙氨酸二肽和核苷酸的轨迹时,取M=128,L=1024。所有的时间序列都被分批成序列,序列长度为100,批次大小为64。对于每个模型使用随机梯度下降的方法对神经网络进行20个epochs的训练,直到训练损失变得小于验证损失,这意味着已经达到了一个合适的训练。
3.5 模型电势的玻尔兹曼统计学和动力学
尽管研究人员的LSTM模型可以捕获不同模型电位的平衡概率和过渡速率,而不论输入投影方向或顺序参数如何,正如人们所期望的那样,它仍然不是万能。
3.6 丙氨酸二肽的玻尔兹曼统计和动力学
研究人员将LSTM模型应用于丙氨酸二肽的构象转变研究,丙氨酸二肽是一个由22个原子组成的模型生物分子系统,与热浴耦合时会发生热波动。虽然整个系统包括大约63个自由度,但通常使用扭转角ϕ和ψ来识别该肽的构象。多年来大量的方法已在此系统上,以增强扭转采样,以及构建最佳反应坐标被测试。结果表明,研究人员的LSTM模型可以非常准确地捕获正确的玻尔兹曼统计量,以及在两个主要的亚稳态之间移动的跃迁速率。重要的是,无论选择何种形式的LSTM投影时间序列,平衡概率和跃迁动力学的重建都是极其准确的。
3.7 从单分子力谱轨迹学习
研究人员使用LSTM模型从以10.9 pN的恒定力进行的多态核糖开关的单分子力谱实验中学习。结果显示了在5个独立训练集上平均的概率密度曲线与从实验数据计算出的概率密度之间的一致性。
3.8 基于嵌入层的动态距离
该模型通过学习动力学来捕获正确的连通性,清楚地证明了该模型能够沿任何自由度绕过投影误差。结果还说明了,无论研究人员使用何种自由度,LSTM模型仍会给出正确的过渡时间。因此,LSTM中的嵌入矢量可以定义一个有用的距离度量,该距离度量可用于理解和建模动力学。
4
讨论
这项工作展示了在化学和生物物理等不相关领域使用为自然语言处理开发的AI方法的潜力。研究人员的工作证明人工智能方法能够执行人们本来可以完成的任务是至关重要的第一步。未来的工作中,研究人员将探索不同的方向,这里开发的人工智能方法可以用来执行在非人工智能设置中越来越非平凡的任务。更具体地说,这项工作中,研究人员已经表明,基于LSTM神经网络的简单字符级语言模型可以学习从物理系统生成的时间序列的概率模型。该概率模型不仅可以学习Boltzmann统计量,而且还可以捕获大量的动力学轨迹。为编码单词和字符的上下文含义而设计的嵌入层显示出很好的连接性。嵌入层的一个有趣的未来工作线可以是发现不同的状态,当它们被相同的反应坐标值错误地表示时,这类似于寻找同一单词或字符的不同上下文含义。对于这里所考虑的不同模型系统,研究人员可以获得正确的时间尺度和速率常数,而不管输入到LSTM中的阶次参数的质量如何。因此,研究人员认为这种模型优于传统的学习热力学和动力学的方法,传统的方法往往对投影的选择非常敏感。最后,当人们只能获得一些低维投影时,嵌入层可以用来定义一种新型的高维数据的距离度量。研究人员希望这项工作代表了使用RNNs来建模、理解和预测生物学、化学和物理学中发现的复杂随机系统动态的第一步。