Nat. Commun. | AI语言工具揭示分子运动

本文涉及的产品
公网NAT网关,每月750个小时 15CU
简介: Nat. Commun. | AI语言工具揭示分子运动

大家好,今天推荐的是Nature Communication发表的UMD研究人员使用人工智能语言工具解码分子运动的文章,文章的通讯作者是来自马里兰大学化学与生物化学系和物理科学与技术学院的医学博士Pratyush Tiwary。通过将自然语言处理工具应用于蛋白质分子的运动,马里兰大学的科学家创造了一种抽象语言,用于描述蛋白质分子可以采取的多种形状,以及如何以及何时从一种形状转变为另一种形状。



image.png

image.png

1


介绍


循环神经网络(RNN)是一种人工智能(AI)技术,为时间序列建模而开发。RNNs的一个具体且极为流行的实例是长短期记忆(LSTM)神经网络,它拥有更多的灵活性,可用于语言建模、机器翻译和天气预报等挑战性任务。LSTMs的开发是为了缓解之前现有的RNN架构的局限性,这种架构中,它们无法学习源自远古时间的信息。这就是所谓的消失梯度问题,这个术语捕捉了RNN参数所经历的梯度如何消失,作为基础数据中的变化发生在多长时间前的函数。LSTMs通过门控机制控制梯度的流动来处理这个问题,其中门控机制可以打开或关闭由其为每个输入学习的值决定。梯度现在可以保留较长的序列,LSTMs可以通过允许网络动态学习忘记信息的某些方面来长期积累信息。最近,LSTMs还被证明有可能模仿实验或模拟产生的轨迹,在获得大量过去数据的情况下,对未来短时间内做出准确的预测。这项工作中,研究人员考虑了RNNs,特别是LSTMs的另一种可以说是新颖的用途,在进行预测时,与以前的工作相比,这些预测在很长一段时间内都是有效的,但只是在统计意义上。尽管只在短时间内有效,这里研究人员感兴趣的是来自化学和生物物理学的问题,其中强调的是更多的是在统计上有效的预测,在极长的时间内有效。


本研究工作中研究人员提出了一种替代方法,使用基于LSTM的语言模型,从高维系统的计算机模拟或实验产生的一些低维阶参数沿时间序列学习概率模型。研究人员还通过对不同模型系统的计算模拟表明,该语言模型不仅可以产生正确的玻尔兹曼统计量,而且可以产生表征基础数据中动态的动力学。我们在这里强调这个计算的一个独特的方面,我们的框架需要的顺序参数可以任意远离真正的底层慢模式,通常称为反应坐标。这反过来又决定了必须捕获多长的内存内核,这在一般情况下是一个非常难以解决的问题。我们的框架是不可知的接近从真正的反应坐标和重建统计学上准确的动态在一个广泛的秩序参数。我们还展示了损失函数的最小化如何导致学习物理系统的路径熵,并建立嵌入层和过渡概率之间的联系。按照这种联系,我们还展示了如何通过嵌入向量来定义过渡概率。我们分别提供了模型电位的Langevin动力学的Boltzmann统计和动力学的测试,丙氨酸二肽的MD模拟,以及从单分子力谱实验对多态核糖开关的轨迹。我们还比较了我们的协议与替代方法,包括隐藏马尔科夫模型。研究人员的工作代表了一个流行的人工智能框架的新用途,以执行动态重建在一个潜在的高基本和实际相关的领域,包括材料和药物设计。


2


方法


2.1 模型


所有模型的微分都有两个自由度x和y。本研究的前两个模型有三个可转移的状态,其控制微分U(x, y)由下列公式给出:

image.png

研究人员还建立了一个4-state模型系统:

image.png

2.2 分子动力学


Langevin动力学模拟的积分时间步长为0.01个单位,线性3态和4态势的模拟在β=9.5下进行,三角形3态势的模拟在β=9.0下进行,其中β=1/kBT。丙氨酸二肽的MD模拟使用软件GROMACS 5.0.4,用PLUMED 2.4修补获得的。


3


结果


3.1 分子动力学可以映射成一个字符序列


这项工作的核心是在空间和时间上充分分化的分子动力学轨迹,可以映射到一些语言中的字符序列中。通过使用一个字符级的语言模型,有效地预测未来的字符,给定序列中迄今为止的字符,可以学习被映射到字符中的MD轨迹的演变。研究人员使用的模型是随机的,因为它通过每个字符在用于训练的语料库中出现的概率来学习它们。这个语言模型由三个顺序部分组成:首先是一个嵌入层,将一热向量映射到密集向量,然后是一个LSTM层,它通过一个可训练的递归函数连接不同时间步长的输入状态和隐藏状态,最后是一个密集层,将LSTM的输出转化为分类概率向量。

image.png

3.2 训练网络等同于学习路径熵


研究人员通过不同系统的数值结果证明,这项工作的核心发现是用于语言建模的LSTM框架也可以用来捕捉化学和生物物理学中普遍存在的动力学和热力学方面的动态轨迹。


3.3 嵌入层捕捉动能距离


词嵌入理论中,嵌入层提供了对词之间相似性的衡量。然而,从路径概率表示来看,由于推导可以不需要嵌入向量x,所以不清楚嵌入层是如何工作的。研究人员通过测试系统的数值示例表明,LSTM嵌入层具有通过等式的转移概率,可以捕获原始物理系统中两个状态之间的平均通勤时间,而与馈入LSTM的低维投影的质量无关。


3.4 测试系统


为了证明想法,研究人员考虑一系列不同的动力学轨迹。包括三个模型电位、分子丙氨酸二肽模型,以及从单分子力谱实验的多态核糖开关的轨迹。当将神经网络应用于模型系统时,嵌入维度M设置为8,LSTM单元L设置为64。当学习丙氨酸二肽和核苷酸的轨迹时,取M=128,L=1024。所有的时间序列都被分批成序列,序列长度为100,批次大小为64。对于每个模型使用随机梯度下降的方法对神经网络进行20个epochs的训练,直到训练损失变得小于验证损失,这意味着已经达到了一个合适的训练。


3.5 模型电势的玻尔兹曼统计学和动力学


尽管研究人员的LSTM模型可以捕获不同模型电位的平衡概率和过渡速率,而不论输入投影方向或顺序参数如何,正如人们所期望的那样,它仍然不是万能。


image.png

3.6 丙氨酸二肽的玻尔兹曼统计和动力学


研究人员将LSTM模型应用于丙氨酸二肽的构象转变研究,丙氨酸二肽是一个由22个原子组成的模型生物分子系统,与热浴耦合时会发生热波动。虽然整个系统包括大约63个自由度,但通常使用扭转角ϕ和ψ来识别该肽的构象。多年来大量的方法已在此系统上,以增强扭转采样,以及构建最佳反应坐标被测试。结果表明,研究人员的LSTM模型可以非常准确地捕获正确的玻尔兹曼统计量,以及在两个主要的亚稳态之间移动的跃迁速率。重要的是,无论选择何种形式的LSTM投影时间序列,平衡概率和跃迁动力学的重建都是极其准确的。


image.png

3.7 从单分子力谱轨迹学习

研究人员使用LSTM模型从以10.9 pN的恒定力进行的多态核糖开关的单分子力谱实验中学习。结果显示了在5个独立训练集上平均的概率密度曲线与从实验数据计算出的概率密度之间的一致性。

image.png

3.8 基于嵌入层的动态距离


该模型通过学习动力学来捕获正确的连通性,清楚地证明了该模型能够沿任何自由度绕过投影误差。结果还说明了,无论研究人员使用何种自由度,LSTM模型仍会给出正确的过渡时间。因此,LSTM中的嵌入矢量可以定义一个有用的距离度量,该距离度量可用于理解和建模动力学。

image.png

4


讨论


这项工作展示了在化学和生物物理等不相关领域使用为自然语言处理开发的AI方法的潜力。研究人员的工作证明人工智能方法能够执行人们本来可以完成的任务是至关重要的第一步。未来的工作中,研究人员将探索不同的方向,这里开发的人工智能方法可以用来执行在非人工智能设置中越来越非平凡的任务。更具体地说,这项工作中,研究人员已经表明,基于LSTM神经网络的简单字符级语言模型可以学习从物理系统生成的时间序列的概率模型。该概率模型不仅可以学习Boltzmann统计量,而且还可以捕获大量的动力学轨迹。为编码单词和字符的上下文含义而设计的嵌入层显示出很好的连接性。嵌入层的一个有趣的未来工作线可以是发现不同的状态,当它们被相同的反应坐标值错误地表示时,这类似于寻找同一单词或字符的不同上下文含义。对于这里所考虑的不同模型系统,研究人员可以获得正确的时间尺度和速率常数,而不管输入到LSTM中的阶次参数的质量如何。因此,研究人员认为这种模型优于传统的学习热力学和动力学的方法,传统的方法往往对投影的选择非常敏感。最后,当人们只能获得一些低维投影时,嵌入层可以用来定义一种新型的高维数据的距离度量。研究人员希望这项工作代表了使用RNNs来建模、理解和预测生物学、化学和物理学中发现的复杂随机系统动态的第一步。


相关实践学习
基于ACK Serverless轻松部署企业级Stable Diffusion
本实验指导您在容器服务Serverless版(以下简称 ACK Serverless )中,通过Knative部署满足企业级弹性需求的Stable Diffusion服务。同时通过对该服务进行压测实验,体验ACK Serverless 弹性能力。
目录
打赏
0
0
0
0
15
分享
相关文章
Motia:程序员福音!AI智能体三语言混编,零基础秒级部署
Motia 是一款专为软件工程师设计的 AI Agent 开发框架,支持多种编程语言,提供零基础设施部署、模块化设计和内置可观测性功能,帮助开发者快速构建和部署智能体。
96 15
Motia:程序员福音!AI智能体三语言混编,零基础秒级部署
ReasonGraph:别让AI成黑箱!这个开源工具把大模型的脑回路画给你看
ReasonGraph是一款开源的可视化分析工具,能将大语言模型的复杂推理过程转化为直观图表,支持50+主流模型和多种推理方法,帮助开发者快速理解AI思考逻辑并优化模型表现。
68 0
Manus再遭复刻!开源多智能体协作工具,实时查看每个AI员工的"脑回路"
LangManus 是一个基于分层多智能体系统的 AI 自动化框架,支持多种语言模型和工具集成,能够高效完成复杂任务,适用于人力资源、房产决策、旅行规划等多个场景。
397 0
Cursor 上线最新 AI 模型 Claude 3.7 Max:200k上下文+200次工具调用!史上最强代码助手硬核上线
Claude 3.7 Max 是 Cursor 推出的最新 AI 模型,支持 200k 上下文窗口和 200 次工具调用,专为复杂代码任务设计,适合硬核开发者和大型项目。
172 6
Cursor 上线最新 AI 模型 Claude 3.7 Max:200k上下文+200次工具调用!史上最强代码助手硬核上线
Resume Matcher:增加面试机会!开源AI简历优化工具,一键解析简历和职位描述并优化
Resume Matcher 是一款开源AI简历优化工具,通过解析简历和职位描述,提取关键词并计算文本相似性,帮助求职者优化简历内容,提升通过自动化筛选系统(ATS)的概率,增加面试机会。
116 18
Resume Matcher:增加面试机会!开源AI简历优化工具,一键解析简历和职位描述并优化
一键部署谷歌最新开源多模态AI模型 Gemma 3:单GPU性能碾压Llama!支持35+种语言
Gemma 3 是谷歌最新推出的开源多模态AI模型,支持超过35种语言,具备文本、图像及短视频处理能力,提供四种模型尺寸,优化单GPU性能,适用于多种AI应用场景。
273 8
一键部署谷歌最新开源多模态AI模型 Gemma 3:单GPU性能碾压Llama!支持35+种语言
【一步步开发AI运动小程序】十八、如何识别用户上传图片中的人体、运动、动作、姿态?
【云智AI运动识别小程序插件】为小程序提供人体、运动及姿态检测的AI能力,本地引擎支持10余种运动,无需后台服务,具备快速、低成本等优势。本文介绍如何通过Canvas方案读取用户上传图片的像素数据,实现人体检测与姿态分析功能,代码简单高效,适合快速集成。更多内容欢迎交流!
WhisperChain:开源 AI 实时语音转文字工具!自动消噪优化文本,效率翻倍
WhisperChain 是一款基于 Whisper.cpp 和 LangChain 的开源语音识别工具,能够实时将语音转换为文本,并自动清理和优化文本内容,适用于会议记录、写作辅助等多种场景。
716 2
WhisperChain:开源 AI 实时语音转文字工具!自动消噪优化文本,效率翻倍
【一步步开发AI运动小程序】十九、运动识别中如何解析RGBA帧图片?
本文介绍了如何将相机抽取的RGBA帧图像解析为`.jpg`或`.png`格式,适用于体测、赛事等场景。首先讲解了RGBA图像结构,其为一维数组,每四个元素表示一个像素的颜色与透明度值。接着通过`uni.createOffscreenCanvas()`创建离屏画布以减少绘制干扰,并提供代码实现,将RGBA数据逐像素绘制到画布上生成图片。最后说明了为何不直接使用拍照API及图像转换的调用频率建议,强调应先暂存帧数据,运动结束后再进行转换和上传,以优化性能。
AI剧本生成与动画创作:能否成为短视频创作的革命性工具?
《AI剧本生成与动画创作》解决方案结合自然语言处理与深度学习技术,能自动生成剧本并转化为动画,极大提升创作效率,降低门槛。部署过程需约3小时,适合非专业用户快速响应热点内容。尽管在创意和细节上仍存不足,但已为短视频创作者提供高效路径,值得尝试。未来,随着技术进步,AI创作工具将带来更多惊喜。
103 10
AI剧本生成与动画创作:能否成为短视频创作的革命性工具?

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等