OpenFold更多细节公开:重新训练AlphaFold2对其学习机制和泛化能力产生新见解

简介: OpenFold更多细节公开:重新训练AlphaFold2对其学习机制和泛化能力产生新见解


AlphaFold2 彻底改变了结构生物学,能够以极高的准确性预测蛋白质结构。然而,它的实现缺乏训练新模型所需的代码和数据。这些对于解决新任务是必要的,例如蛋白质-配体复杂结构预测;可用于调查模型学习的过程,目前这一过程仍然知之甚少;另外,还可评估模型对折叠空间不可见区域的泛化能力。

在这里,哥伦比亚大学的 Mohammed AlQuraishi 团队联合哈佛大学、哈佛医学院等多个机构的研究人员,开发了 OpenFold(一种快速、内存高效且可训练的 AlphaFold2 实现)和 OpenProteinSet(最大的蛋白质多序列比对公共数据库)。该团队使用 OpenProteinSet 从头开始训练 OpenFold,完全匹配 AlphaFold2 的准确性。

建立奇偶校验后,研究人员通过使用精心设计的数据集对其进行再训练来评估 OpenFold 跨折叠空间进行泛化的能力。研究表明 OpenFold 在泛化方面非常稳健,尽管训练集的大小和多样性极度减少,包括二级结构元素类的近乎完全省略。

通过分析 OpenFold 在训练过程中产生的中间结构,进一步阐明了模型学习折叠蛋白质的方式,研究人员发现空间维度是按顺序学习的。

该研究以「OpenFold: Retraining AlphaFold2 yields new insights into its learning mechanisms and capacity for generalization」为题,于 2022 年 11 月 22 日发布在 BioRxiv 预印平台。

几十年来,根据序列预测蛋白质结构一直是生物学的一项决定性挑战。基于将深度学习应用于多序列比对 (MSA) 和同源结构中编码的共同进化信息的一系列工作,AlphaFold2 可以说已经解决了具有足够深 MSA 的天然蛋白质的问题。该模型已通过 DeepMind 的官方开源实现向公众开放,已用于预测数亿种蛋白质的结构。这一实施使研究人员能够优化 AlphaFold2 的预测程序和用户体验,并将其用作新算法中的一个模块,包括用于蛋白质复合物预测、肽-蛋白质相互作用、结构排名等的算法。

尽管具有出色的实用性,但官方的 AlphaFold2 实现省略了模型复杂训练过程的代码以及运行它所需的计算量大的训练数据。这使得研究 AlphaFold2 的学习行为和对数据组成和模型架构变化的敏感性以及创建模型变体来处理新任务变得困难。鉴于 AlphaFold2 的成功,它的许多新组件可能被证明对蛋白质结构预测以外的任务有用。例如,使用蛋白质-蛋白质复合物的数据集对 AlphaFold2 进行再训练,得到了 AlphaFold2-Multimer,这是预测蛋白质复合物结构的最先进模型。然而,直到最近,这种能力一直是 DeepMind 独有的。

为了解决这个缺点,哥伦比亚大学的 Mohammed AlQuraishi 团队联合哈佛大学、哈佛医学院等多个机构的研究人员开发了 OpenFold,AlphaFold2 的可训练开源实现;以及 OpenProteinSet,一个包含 500 万个深度和多样化 MSA 的数据库,它消除了最重要的计算障碍之一——数百万 CPU 小时——以 AlphaFold2 的规模训练新的蛋白质模型。

图示:OpenFold 与 AlphaFold2 的准确性相匹配。(来源:论文)

研究人员使用 OpenProteinSet 从头开始训练 OpenFold,在预测质量上与 AlphaFold2 相匹配。除了新的训练代码和数据之外,OpenFold 与 AlphaFold2 相比还有几个优势:(i) 它在大多数蛋白质上的运行速度快三倍, (ii) 它使用更少的内存,允许在单个 GPU 上预测极长的蛋白质和多蛋白质复合物,(iii) 它是在 PyTorch 中实现的,PyTorch 是使用最广泛的机器学习框架(AlphaFold2 使用 Google 的 JAX)。因此,OpenFold 可以很容易地被最广泛的开发人员社区使用,并与现有机器学习软件的丰富生态系统进行交互。

研究人员使用 OpenFold 来了解模型如何学习折叠蛋白质,重点关注训练中间阶段预测结构的几何特征,并确定多个不同的行为阶段。具体来说,通过分析多种分辨率下的预测结构并将它们分解为二级和三级元素,研究人员发现 OpenFold 以交错的方式学习空间维度、二级结构元素和三级尺度。

图示:OpenFold 预测的维度增长。(来源:论文)

接下来,由于 OpenFold 可以在约 3% 的训练时间内实现约 90% 的模型准确度,于是研究人员对 OpenFold 进行了多次特殊删减版本的训练集再训练,以量化其泛化到不可见蛋白质折叠的能力。

令人惊讶的是,该模型甚至对折叠空间的大省略也非常稳健,但其泛化能力因蛋白质片段和折叠的空间范围而异。在更多样化但更小的数据集上训练模型时,研究人员观察到了 OpenFold 更强大的性能,甚至有些数据集小到只有 1,000 个实验结构。总而言之,这些结果对 AlphaFold2 类型模型的学习行为产生了基本的新见解,并为生物分子建模算法的开发提供了新的概念和实用工具。

图示:OpenFold 在省略训练集上的泛化能力。(来源:论文)

OpenFold 使两大领域的进步成为可能:(i) 更深入地分析类似 AlphaFold2 模型的优势、劣势和学习行为;(ii) 开发利用 AlphaFold2 模块的新(生物)分子模型。在这项工作中,研究人员更专注于前者。

首先,通过分析部分训练模型的预测结构,研究人员发现类似 AlphaFold2 的模型按顺序学习空间维度。这种行为对模型架构和训练方案的设计有影响。

例如,将物理先验知识整合到机器学习模型中是一个具有突出科学意义的研究领域。此类综合的努力产生了不同的结果,事实上,AlphaFold2 是一个非常成功的模型的开创性例子,该模型几乎完全没有物理先验。它的学习行为说明了为什么合并这样的先验会很困难——在折叠的 1D 和 2D 学习阶段,所有预测的结构都表现出严重违反基本化学定律和大量空间冲突的情况。但是,禁止此类违规行为会极大地改变 AlphaFold2 的学习行为。

事实上,在最初的 AlphaFold2 论文中,未经进一步阐述就观察到,启用违规损失以惩罚空间冲突和非物理键长会破坏训练的稳定性。研究人员对空间折叠学习阶段的观察为这种观察提供了解释。

图示:二级结构类别是按顺序学习的。(来源:论文)

AlphaFold2 针对此问题采用的解决方案,即仅在训练的后期阶段对违反自然规律的行为进行惩罚,提出了一种更广泛的策略来解决物理先验的合并问题:这是一种课程学习方法,其中模型首先可以自由提取信息并从数据中学习,之后可以逐渐引入更复杂的物理先验,从而提高模型的泛化能力。正如,对 OpenFold 所做的那样,分析学习轨迹,为何时可以将此类先验注入训练过程,提供了具体的时间表。

其次,研究人员观察到空间坍缩阶段,对应于最终预测结构的不完美低维 PCA 投影。鉴于其他端到端可区分蛋白质结构模型不表现出相同的行为,所以这种情况无法从文献中得到解释。虽然没有直接证据,但研究人员怀疑 AlphaFold2 架构的某些方面——特别是 FAPE 损失函数——可能会导致这种现象。

研究人员推测,可能类似 PCA 的级数允许模型,通过首先解决对 FAPE 损失具有最大收益的问题来贪婪地最小化错误,根据定义,FAPE 损失位于地面实况结构的最大主成分上。解决后,该模型将继续处理与其他低维投影相关的较小问题。

图示:新 FAPE 钳位协议的稳定性。(来源:论文)

如果是这种情况,学习过程中空间维度的交错将取决于训练集中蛋白质的几何形状。完全由细长管状蛋白质组成的训练集的极端情况会产生更加显著的交错阶段。相反,由完美球形蛋白质组成的训练集将在所有空间维度上呈现均匀增长。这种行为是整个训练集的函数,不一定会反映在单个蛋白质中。无论如何,这些观察结果表明,有可能通过学习课程来故意简化分子建模中的其他难题,在该学习课程中,首先训练「玩具」模型以预测目标分子的低维投影,然后再负责预测其完全实现的实例化 。

图示:OpenFold 对比 AlphaFold2 预测速度。(来源:论文)

研究人员评估了 OpenFold 从大幅缩小的训练集中学习的能力。值得注意的是,研究人员发现即使数据集大小减少 100 倍,模型的性能也比第一版 AlphaFold 更高。换句话说,AlphaFold2 中引入的架构进步使其数据效率比其前身高出 100 倍,后者在推出时树立了新的技术水平。这些结果表明,与更大的数据集相比,架构创新可以对模型准确性产生更深远的影响,特别是在数据采集成本高昂或耗时的领域,如(生物)分子系统中经常出现的情况。

然而,值得注意的是,AlphaFold2 通常学习 MSA 结构关系,而不是序列结构关系。MSAs 隐含地编码了大量的结构知识,正如早期基于协同进化的结构预测方法所证明的那样,这些方法完全不受监督,不使用实验结构数据。因此,AlphaFold2 架构对不表现出共同进化信号的问题的适用性仍未得到证明。

该团队的数据省略结果可以根据最近对大型基于 transformer 的语言模型的研究进行解释,这些研究揭示了广泛适用的「缩放法则」,该法则将模型准确性预测为模型大小、使用的计算和训练集大小的简单函数。当不受这三个支柱中任何一个的限制时,模型会从对其他两个支柱的投资中受益。这些观察主要集中在基于 transformer 的架构上,AlphaFold2 就是一个例子,但最近的工作揭示了其他架构的类似行为。尽管确定 AlphaFold2 的精确缩放属性并不是该团队关注的重点,但他们的结果表明它几乎不受 PDB 的大小或多样性的限制,从而激发了对其架构的更大实例的潜在开发。

OpenFold 为未来旨在改进 AlphaFold2 架构并将其重新用于新的分子建模问题的工作奠定了基础。自 2021 年 11 月该团队发布代码库以来,已经进行了多项构建和扩展 OpenFold 的工作。其中包括用于蛋白质结构预测的 ESMFold 方法,它用蛋白质语言模型取代了 MSA,以及 FastFold,这是一项社区工作,已经实现了包括快速模型并行训练和推理在内的重大改进。

研究人员希望未来的工作能够通过反汇编 OpenFold 来进一步解决蛋白质结构预测之外的问题。例如,evoformer 模块是用于推理进化相关序列的通用原语。DNA 和 RNA 序列也表现出共同进化信号,其努力旨在从快速实现的 MSA 预测 RNA 结构。进化生物学中更基本的问题(例如系统发育推断)可能证明适用于类似进化者的架构,这似乎是合理的。类似地,AlphaFold2 的结构模块,特别是不变点注意机制,为聚合物空间推理提供了一种通用方法,可以进一步扩展到任意分子。

研究人员预计,随着蛋白质结构和其他生物分子从要预测的输出转变为要使用的输入,依赖空间推理能力的下游任务将变得越来越重要。也许 OpenFold 将在促进这些发展方面发挥关键作用。

论文链接:https://www.biorxiv.org/content/10.1101/2022.11.20.517210v1

相关报道:https://twitter.com/gahdritz/status/1595420944880779266


相关文章
|
3天前
|
机器学习/深度学习 数据采集 数据处理
谷歌提出视觉记忆方法,让大模型训练数据更灵活
谷歌研究人员提出了一种名为“视觉记忆”的方法,结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分,支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示,该方法在多个数据集上取得了优异的性能,如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制,但视觉记忆为深度学习提供了新的思路。
12 2
|
17天前
|
机器学习/深度学习 算法 安全
大模型进阶微调篇(二):基于人类反馈的强化学习RLHF原理、优点介绍,但需要警惕LLMs的拍马屁行为
本文探讨了基于人类反馈的强化学习(RLHF)方法的优缺点。作者指出,虽然RLHF能够使模型更好地满足用户需求,但也存在缺乏多样性、创新不足、偏好固化和难以适应动态变化等问题。文章通过具体实验和示例代码,详细解析了RLHF的工作原理,并强调了其在实际应用中的潜在风险。
|
5月前
|
机器学习/深度学习 数据采集 前端开发
深入探讨模型泛化能力的概念、重要性以及如何通过交叉验证来有效评估和提升模型的泛化能力
【6月更文挑战第13天】本文探讨了机器学习中模型泛化能力的重要性,它是模型对未知数据预测的准确性。过拟合和欠拟合影响泛化能力,而交叉验证是评估模型性能的有效工具。通过K折交叉验证等方法,可以发现并优化模型,提高泛化能力。建议包括调整模型参数、选择合适模型、数据预处理、特征选择和集成学习。Python中可利用scikit-learn的cross_val_score函数进行交叉验证。
455 7
|
3月前
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
【8月更文挑战第10天】新研究NoCha挑战显示,即使是顶级的大型语言模型GPT-4o,在处理长篇幅文本时正确率仅55.8%,低于人类直观水平。该挑战基于近作英文小说,检验模型对整本书信息的理解与推理能力。结果显示,模型在全局推理上的表现不佳,倾向于依赖局部信息而非整体上下文,尤其是在复杂推理需求高的科幻小说上表现更弱。这一发现揭示了当前模型在处理长上下文任务上的局限性。论文链接: [https://arxiv.org/pdf/2406.16264](https://arxiv.org/pdf/2406.16264)。
123 65
|
6月前
|
机器学习/深度学习 人工智能 运维
【机器学习】Adaboost: 强化弱学习器的自适应提升方法
在机器学习领域,集成学习是一种通过结合多个弱模型以构建更强大预测模型的技术。Adaptive Boosting,简称Adaboost,是集成学习中的一种经典算法,由Yoav Freund和Robert Schapire于1996年提出。Adaboost通过迭代方式,自适应地调整数据样本的权重,使得每个后续的弱学习器更加关注前序学习器表现不佳的样本,以此逐步提高整体预测性能。本文将深入探讨Adaboost的工作原理、算法流程、关键特性、优势及应用场景,并简要介绍其实现步骤。
94 1
|
6月前
|
存储 机器学习/深度学习 人工智能
论文介绍:InfLLM——揭示大型语言模型在无需训练的情况下处理极长序列的内在能力
【5月更文挑战第18天】InfLLM是一种新方法,无需额外训练即可增强大型语言模型处理极长序列的能力。通过使用记忆单元存储长序列的远距离上下文,InfLLM能更准确地捕捉长距离依赖,提高对长文本理解。实验表明,InfLLM使预训练在短序列上的模型在处理极长序列时表现媲美甚至超过专门训练的模型。尽管有挑战,如动态上下文分割和记忆单元效率,InfLLM为长序列处理提供了有效且未经训练的解决方案。论文链接:https://arxiv.org/abs/2402.04617
151 3
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
让大模型不再巨无霸,这是一份最新的大模型参数高效微调综述
【5月更文挑战第12天】最新综述探讨了大模型参数高效微调,旨在减少计算成本、增强泛化能力和灵活性。方法包括Additive、Selective、Reparameterized和Hybrid PEFT,已应用于NLP、CV和多模态学习。尽管取得进展,仍需解决泛化、效率和可解释性问题。未来研究将关注多任务学习、强化学习和神经架构搜索。论文链接:https://arxiv.org/pdf/2403.14608.pdf
349 2
|
6月前
|
机器学习/深度学习 人工智能 缓存
Contextual发布生成式表征指导调整模型
【2月更文挑战第17天】Contextual发布生成式表征指导调整模型
129 1
Contextual发布生成式表征指导调整模型
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
大模型开发:描述模型可解释性的重要性以及如何实现它。
模型可解释性在AI和机器学习中至关重要,尤其在金融风控等领域,它关乎信任、公平性和法规合规。通过建立信任、发现偏见、排查错误和满足法规要求,可解释性促进了模型的改进和社会接受度。研究者采用简单模型、局部和全局解释方法、模型可视化及原型/反例等策略提升模型透明度。这是一项结合算法、专业知识和伦理的跨学科挑战。
305 1
|
6月前
大模型开发:描述一个你遇到过的具有挑战性的数据集问题以及你是如何解决它的。
在大模型开发中,面对不平衡数据集(某些类别样本远超其他类别)的问题,可能导致模型偏向多数类。在二分类问题中,正样本远少于负样本,影响模型学习和性能。为解决此问题,采用了数据重采样(过采样、欠采样)、SMOTE技术合成新样本、使用加权交叉熵损失函数、集成学习(Bagging、Boosting)以及模型调整(复杂度控制、早停法、正则化)。这些策略有效提升了模型性能,尤其是对少数类的预测,强调了针对数据集问题灵活运用多种方法的重要性。
69 0
下一篇
无影云桌面