Nat. Commun. | AI语言工具揭示分子运动

本文涉及的产品
公网NAT网关,每月750个小时 15CU
简介: Nat. Commun. | AI语言工具揭示分子运动

大家好,今天推荐的是Nature Communication发表的UMD研究人员使用人工智能语言工具解码分子运动的文章,文章的通讯作者是来自马里兰大学化学与生物化学系和物理科学与技术学院的医学博士Pratyush Tiwary。通过将自然语言处理工具应用于蛋白质分子的运动,马里兰大学的科学家创造了一种抽象语言,用于描述蛋白质分子可以采取的多种形状,以及如何以及何时从一种形状转变为另一种形状。



image.png

image.png

1


介绍


循环神经网络(RNN)是一种人工智能(AI)技术,为时间序列建模而开发。RNNs的一个具体且极为流行的实例是长短期记忆(LSTM)神经网络,它拥有更多的灵活性,可用于语言建模、机器翻译和天气预报等挑战性任务。LSTMs的开发是为了缓解之前现有的RNN架构的局限性,这种架构中,它们无法学习源自远古时间的信息。这就是所谓的消失梯度问题,这个术语捕捉了RNN参数所经历的梯度如何消失,作为基础数据中的变化发生在多长时间前的函数。LSTMs通过门控机制控制梯度的流动来处理这个问题,其中门控机制可以打开或关闭由其为每个输入学习的值决定。梯度现在可以保留较长的序列,LSTMs可以通过允许网络动态学习忘记信息的某些方面来长期积累信息。最近,LSTMs还被证明有可能模仿实验或模拟产生的轨迹,在获得大量过去数据的情况下,对未来短时间内做出准确的预测。这项工作中,研究人员考虑了RNNs,特别是LSTMs的另一种可以说是新颖的用途,在进行预测时,与以前的工作相比,这些预测在很长一段时间内都是有效的,但只是在统计意义上。尽管只在短时间内有效,这里研究人员感兴趣的是来自化学和生物物理学的问题,其中强调的是更多的是在统计上有效的预测,在极长的时间内有效。


本研究工作中研究人员提出了一种替代方法,使用基于LSTM的语言模型,从高维系统的计算机模拟或实验产生的一些低维阶参数沿时间序列学习概率模型。研究人员还通过对不同模型系统的计算模拟表明,该语言模型不仅可以产生正确的玻尔兹曼统计量,而且可以产生表征基础数据中动态的动力学。我们在这里强调这个计算的一个独特的方面,我们的框架需要的顺序参数可以任意远离真正的底层慢模式,通常称为反应坐标。这反过来又决定了必须捕获多长的内存内核,这在一般情况下是一个非常难以解决的问题。我们的框架是不可知的接近从真正的反应坐标和重建统计学上准确的动态在一个广泛的秩序参数。我们还展示了损失函数的最小化如何导致学习物理系统的路径熵,并建立嵌入层和过渡概率之间的联系。按照这种联系,我们还展示了如何通过嵌入向量来定义过渡概率。我们分别提供了模型电位的Langevin动力学的Boltzmann统计和动力学的测试,丙氨酸二肽的MD模拟,以及从单分子力谱实验对多态核糖开关的轨迹。我们还比较了我们的协议与替代方法,包括隐藏马尔科夫模型。研究人员的工作代表了一个流行的人工智能框架的新用途,以执行动态重建在一个潜在的高基本和实际相关的领域,包括材料和药物设计。


2


方法


2.1 模型


所有模型的微分都有两个自由度x和y。本研究的前两个模型有三个可转移的状态,其控制微分U(x, y)由下列公式给出:

image.png

研究人员还建立了一个4-state模型系统:

image.png

2.2 分子动力学


Langevin动力学模拟的积分时间步长为0.01个单位,线性3态和4态势的模拟在β=9.5下进行,三角形3态势的模拟在β=9.0下进行,其中β=1/kBT。丙氨酸二肽的MD模拟使用软件GROMACS 5.0.4,用PLUMED 2.4修补获得的。


3


结果


3.1 分子动力学可以映射成一个字符序列


这项工作的核心是在空间和时间上充分分化的分子动力学轨迹,可以映射到一些语言中的字符序列中。通过使用一个字符级的语言模型,有效地预测未来的字符,给定序列中迄今为止的字符,可以学习被映射到字符中的MD轨迹的演变。研究人员使用的模型是随机的,因为它通过每个字符在用于训练的语料库中出现的概率来学习它们。这个语言模型由三个顺序部分组成:首先是一个嵌入层,将一热向量映射到密集向量,然后是一个LSTM层,它通过一个可训练的递归函数连接不同时间步长的输入状态和隐藏状态,最后是一个密集层,将LSTM的输出转化为分类概率向量。

image.png

3.2 训练网络等同于学习路径熵


研究人员通过不同系统的数值结果证明,这项工作的核心发现是用于语言建模的LSTM框架也可以用来捕捉化学和生物物理学中普遍存在的动力学和热力学方面的动态轨迹。


3.3 嵌入层捕捉动能距离


词嵌入理论中,嵌入层提供了对词之间相似性的衡量。然而,从路径概率表示来看,由于推导可以不需要嵌入向量x,所以不清楚嵌入层是如何工作的。研究人员通过测试系统的数值示例表明,LSTM嵌入层具有通过等式的转移概率,可以捕获原始物理系统中两个状态之间的平均通勤时间,而与馈入LSTM的低维投影的质量无关。


3.4 测试系统


为了证明想法,研究人员考虑一系列不同的动力学轨迹。包括三个模型电位、分子丙氨酸二肽模型,以及从单分子力谱实验的多态核糖开关的轨迹。当将神经网络应用于模型系统时,嵌入维度M设置为8,LSTM单元L设置为64。当学习丙氨酸二肽和核苷酸的轨迹时,取M=128,L=1024。所有的时间序列都被分批成序列,序列长度为100,批次大小为64。对于每个模型使用随机梯度下降的方法对神经网络进行20个epochs的训练,直到训练损失变得小于验证损失,这意味着已经达到了一个合适的训练。


3.5 模型电势的玻尔兹曼统计学和动力学


尽管研究人员的LSTM模型可以捕获不同模型电位的平衡概率和过渡速率,而不论输入投影方向或顺序参数如何,正如人们所期望的那样,它仍然不是万能。


image.png

3.6 丙氨酸二肽的玻尔兹曼统计和动力学


研究人员将LSTM模型应用于丙氨酸二肽的构象转变研究,丙氨酸二肽是一个由22个原子组成的模型生物分子系统,与热浴耦合时会发生热波动。虽然整个系统包括大约63个自由度,但通常使用扭转角ϕ和ψ来识别该肽的构象。多年来大量的方法已在此系统上,以增强扭转采样,以及构建最佳反应坐标被测试。结果表明,研究人员的LSTM模型可以非常准确地捕获正确的玻尔兹曼统计量,以及在两个主要的亚稳态之间移动的跃迁速率。重要的是,无论选择何种形式的LSTM投影时间序列,平衡概率和跃迁动力学的重建都是极其准确的。


image.png

3.7 从单分子力谱轨迹学习

研究人员使用LSTM模型从以10.9 pN的恒定力进行的多态核糖开关的单分子力谱实验中学习。结果显示了在5个独立训练集上平均的概率密度曲线与从实验数据计算出的概率密度之间的一致性。

image.png

3.8 基于嵌入层的动态距离


该模型通过学习动力学来捕获正确的连通性,清楚地证明了该模型能够沿任何自由度绕过投影误差。结果还说明了,无论研究人员使用何种自由度,LSTM模型仍会给出正确的过渡时间。因此,LSTM中的嵌入矢量可以定义一个有用的距离度量,该距离度量可用于理解和建模动力学。

image.png

4


讨论


这项工作展示了在化学和生物物理等不相关领域使用为自然语言处理开发的AI方法的潜力。研究人员的工作证明人工智能方法能够执行人们本来可以完成的任务是至关重要的第一步。未来的工作中,研究人员将探索不同的方向,这里开发的人工智能方法可以用来执行在非人工智能设置中越来越非平凡的任务。更具体地说,这项工作中,研究人员已经表明,基于LSTM神经网络的简单字符级语言模型可以学习从物理系统生成的时间序列的概率模型。该概率模型不仅可以学习Boltzmann统计量,而且还可以捕获大量的动力学轨迹。为编码单词和字符的上下文含义而设计的嵌入层显示出很好的连接性。嵌入层的一个有趣的未来工作线可以是发现不同的状态,当它们被相同的反应坐标值错误地表示时,这类似于寻找同一单词或字符的不同上下文含义。对于这里所考虑的不同模型系统,研究人员可以获得正确的时间尺度和速率常数,而不管输入到LSTM中的阶次参数的质量如何。因此,研究人员认为这种模型优于传统的学习热力学和动力学的方法,传统的方法往往对投影的选择非常敏感。最后,当人们只能获得一些低维投影时,嵌入层可以用来定义一种新型的高维数据的距离度量。研究人员希望这项工作代表了使用RNNs来建模、理解和预测生物学、化学和物理学中发现的复杂随机系统动态的第一步。


相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
目录
相关文章
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
Sketch2Lineart:AI绘画工具,自动将手绘草图转换成清晰的线条画
Sketch2Lineart是一款基于人工智能的绘画工具,能够自动将手绘草图转换成清晰的线条画。该工具支持多种功能,如草图转线稿、自动描述生成、细节调整和风格定制等,适用于艺术创作、产品设计、教育培训等多个领域。
126 60
Sketch2Lineart:AI绘画工具,自动将手绘草图转换成清晰的线条画
|
7天前
|
人工智能 小程序
【一步步开发AI运动小程序】十五、AI运动识别中,如何判断人体站位的远近?
【云智AI运动识别小程序插件】提供人体、运动及姿态检测的AI能力,无需后台支持,具有快速、体验好、易集成等特点。本文介绍如何利用插件判断人体与摄像头的远近,确保人体图像在帧内的比例适中,以优化识别效果。通过`whole`检测规则,分别实现人体过近和过远的判断,并给出相应示例代码。
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
AI自己长出了类似大脑的脑叶?新研究揭示LLM特征的惊人几何结构
近年来,大型语言模型(LLM)的内部运作机制备受关注。麻省理工学院的研究人员在论文《The Geometry of Concepts: Sparse Autoencoder Feature Structure》中,利用稀疏自编码器(SAE)分析LLM的激活空间,揭示了其丰富的几何结构。研究发现,特征在原子、大脑和星系三个尺度上展现出不同的结构,包括晶体结构、中尺度模块化结构和大尺度点云结构。这些发现不仅有助于理解LLM的工作原理,还可能对模型优化和其他领域产生重要影响。
39 25
|
6天前
|
编解码 人工智能 监控
VISION XL:支持四倍超分辨率的 AI 视频修复处理工具,提供去除模糊、修复缺失等功能
VISION XL是一款基于潜在扩散模型的高效视频修复和超分辨率工具,能够修复视频缺失部分、去除模糊,并支持四倍超分辨率。该工具优化了处理效率,适合快速处理视频的应用场景。
47 6
VISION XL:支持四倍超分辨率的 AI 视频修复处理工具,提供去除模糊、修复缺失等功能
|
13天前
|
存储 人工智能 数据库
Codel:AI代理工具,支持在终端、浏览器、编辑器执行复杂任务和项目
Codel是一款全自主AI代理工具,支持在终端、浏览器和编辑器中执行复杂任务和项目。它运行在沙盒化的Docker环境中,具备自主操作能力,内置浏览器和文本编辑器,所有操作记录存储于PostgreSQL数据库。Codel能够自动完成复杂任务,如创建项目结构、进行网络搜索等,适用于自动化编程、研究与开发、教育与培训以及数据科学与分析等多个领域。
52 11
Codel:AI代理工具,支持在终端、浏览器、编辑器执行复杂任务和项目
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
Voice-Pro:开源AI音频处理工具,集成转录、翻译、TTS等一站式服务
Voice-Pro是一款开源的多功能音频处理工具,集成了语音转文字、文本转语音、实时翻译、YouTube视频下载和人声分离等多种功能。它支持超过100种语言,适用于教育、娱乐和商业等多个领域,为用户提供一站式的音频处理解决方案,极大地提高工作效率和音频处理的便捷性。
80 10
Voice-Pro:开源AI音频处理工具,集成转录、翻译、TTS等一站式服务
|
14天前
|
Web App开发 机器学习/深度学习 人工智能
Magic Copy:开源的 AI 抠图工具,在浏览器中自动识别图像进行抠图
Magic Copy 是一款开源的 AI 抠图工具,支持 Chrome 浏览器扩展。它基于 Meta 的 Segment Anything Model 技术,能够自动识别图像中的前景对象并提取出来,简化用户从图片中提取特定元素的过程,提高工作效率。
56 7
Magic Copy:开源的 AI 抠图工具,在浏览器中自动识别图像进行抠图
|
17天前
|
人工智能 自然语言处理 算法
Devika AI:开源的 AI 软件开发工具,理解和执行复杂的人类指令
Devika AI 是一款开源的 AI 软件开发工具,能够理解和执行复杂的人类指令。它通过分解任务、信息搜集和代码生成,帮助开发者提高效率,减少人工干预。本文将详细介绍 Devika AI 的功能、技术原理以及如何运行和配置该工具。
43 9
Devika AI:开源的 AI 软件开发工具,理解和执行复杂的人类指令
|
6天前
|
人工智能 小程序 UED
【一步步开发AI运动小程序】十六、AI运动识别中,如何判断人体站位?
【云智AI运动识别小程序插件】提供人体、运动及姿态检测的AI能力,本地引擎无需后台支持,具备快速、体验好、易集成等优势。本文介绍如何利用插件的`camera-view`功能,通过检测人体站位视角(前、后、左、右),确保运动时的最佳识别率和用户体验。代码示例展示了如何实现视角检查,确保用户正或背对摄像头,为后续运动检测打下基础。
|
20天前
|
人工智能 Ubuntu 语音技术
ebook2audiobookXTTS:开源电子书转有声书 AI 工具,支持 16 种语言
ebook2audiobookXTTS 是一款开源的 AI 工具,能够将电子书转换为有声书,支持多种电子书格式和 16 种语言。该工具利用 Coqui XTTS 技术实现高质量的文本到语音转换,并提供命令行、Web 界面和 Docker 容器等多种使用方式。
48 3
ebook2audiobookXTTS:开源电子书转有声书 AI 工具,支持 16 种语言