结合亲和力提高了 28.7 倍,基于端到端贝叶斯语言模型的方法设计大型、多样化的高亲和力抗体库

简介: 结合亲和力提高了 28.7 倍,基于端到端贝叶斯语言模型的方法设计大型、多样化的高亲和力抗体库

编辑 | 白菜叶

治疗性抗体是一种重要且发展迅速的药物形式。然而,早期抗体疗法的设计和发现仍然是一项耗费时间和成本的工作。

麻省理工学院林肯实验室的研究人员提出了一种基于端到端贝叶斯语言模型的方法,用于设计大型和多样化的高亲和力单链可变片段 (scFvs) 库,然后根据经验进行测量。

在与定向进化方法的直接比较中,该方法生成的最佳 scFv 比定向进化的最佳 scFv 的结合力提高了 28.7 倍。

该研究以「Machine learning optimization of candidate antibody yields highly diverse sub-nanomolar affinity antibody libraries」为题,于 2023 年 6 月 12 日发布在《Nature Communications》。

治疗性抗体是一种重要且发展迅速的药物形式。由于抗体序列有巨大的搜索空间,详尽评估整个抗体空间不可行,因此只能从合成生成、动物免疫或人类供体文库中筛选相对少量的抗体来鉴定候选抗体。筛选的文库只占整个搜索空间的一小部分,由此产生的候选抗体通常是弱结合剂或存在可开发性问题,需要进一步优化。

当前的改进方法非常耗时耗力。并且改进一种特性往往伴随着其他特性的改变,还需要全方位进行优化,从而导致工程周期很长。这个鉴定最终抗体的过程通常需要大约 12 个月才能完成。在开发过程的早期有效地设计具有良好结合和高度多样性的抗体,将减少后期检查、优化不利抗体特性的消耗,将提高可开发性潜力并减少早期药物开发所需的时间。

机器学习 (ML) 方法可用于有效地表示生物数据并在计算机中快速探索其广阔的设计空间。这种方法可以从高维数据中揭示复杂而灵活的特征,并在许多应用领域显示出巨大的前景,包括蛋白质结构预测、药物发现和设计。现有的 ML 驱动的抗体优化在设计具有针对靶标的改进结合特性的抗体方面显示出有希望的结果,并且可以仅从序列数据中学习抗体结合,而无需靶标的结构。然而,现有的方法都不允许在实验之前对设计的抗体库进行评估,这是一个可以加快设计周期的关键特征。

图示:端到端 ML 驱动的 scFv 设计过程的图示。(来源:论文)

麻省理工学院林肯实验室的研究人员开发了一个端到端 ML 驱动的单链可变片段 (scFv) 设计框架,该框架独特地结合了最先进的语言模型、贝叶斯优化和高通量实验。因为研究人员合成了明确定义的 300bp 寡核苷酸池,所以该方法允许设计整个 scFv 链(重链或轻链)。此外,它不假设候选 scFv 与靶标有很强的结合,并且依赖于序列数据而不需要序列比对或靶抗原结构的知识,从而使该方法适用于任何靶抗原的早期抗体开发。

在与传统定向进化策略的直接比较中,使用该 ML 方法设计的 scFvs 具有明显更强的结合能力,尤其是在高度多样性的情况下,并且该模型能够准确预测极高阶突变体的结合亲和力。

经过一轮设计-构建-测试循环后,该模型能够生成重链 scFv,其结合力比 PSSM 文库中最强的 scFv 强 28.7 倍。大多数 ML 设计的 scFv 都是对候选 scFv Ab-14 的改进;超过 90% 的经验评估的 En-GA 和 En-HC 重链 scFvs 是成功的,而 PSSM 文库的成功率不到 20%。

图示:ML 优化的 scFv 文库优于 PSSM 定向进化方法,具有高成功率和高多样性。(来源:论文)

此外,基于集成的方法能够探索更大的序列空间;与 PSSM 文库的 3.17 相比,重链集合文库的平均突变距离范围为 7.9 至 15.6。该流程的单个周期大约为几个月,这使得传统方法在最好的情况下显著减少时间和成本效率。传统方法不太可能达到相同百分比的成功和多样性指标。未来的工作旨在量化将机器学习方法集成到治疗开发中的成本和时间节省,以更快地发现更好的治疗方法,这将支持更广泛地采用此类方法,应该继续进行。

图示:ML 库、PSSM 库和训练数据的 T-SNE 序列嵌入揭示了不同的采样序列子空间。(来源:论文)

通过该方法生成的文库也具有使用 BioPython 计算的多种生物物理特性(补充图 11)。这允许选择多个临床前候选药物,它们的下游故障模式不相关,这样如果一个失败,整个管道不太可能因为同样的原因而失败。将来,已知与可开发性或物理化学特性相关的生物物理特性可以包含在库设计标准中,例如在特定等电点或疏水性范围内设计强结合剂。研究人员认为该框架适用于任何旨在最大化或最小化 scFv 特征的任务,例如最小化脱靶结合或最大化中和。在数据可用之前,研究人员将基于 ML 的多目标 scFv 优化视为简化 scFv 开发的一项可行的任务和可行的选择。

研究人员分别探索了模型性能作为训练数据量的函数,并展示了额外的数据,预计会提高性能。然而,在大约 7000 次测量之后,额外的测量对于性能的提升不再显著。在这里,研究人员在所有可用的测量上训练了他们的监督序列到亲和力模型,但未来的工程尝试可能会通过增加循环次数或待优化的候选 scFv 数量来优化资源的使用,同时减少每个候选 scFv 每个循环的测量次数。由于与 DNA 合成相关的成本限制,研究人员选择通过引入 k = 1、2 或 3 个随机突变来生成训练数据,但该模型能够成功地推断出远不止于此的结果。如果依赖于模型的选择,以及执行多个测量周期是否会影响选择,未来的工作将受益于对训练数据生成方式的更好理解。

该团队还比较了使用和不使用预训练语言模型的序列到亲和力模型的性能。研究人员发现从预训练语言模型微调的模型优于没有预训练语言模型的模型,以及更简单的编码方法,如基于 PSSM 的编码器。Pfam 预训练语言模型的性能优于 OAS 预训练语言模型。研究人员假设从更多样化的蛋白质序列中学习可以捕获更高级别的生物学原理,这些原理可以更有效地转移和完善到抗体特定任务,例如亲和力预测。

总之,该研究的结果突出了 ML 模型对早期 scFv 开发的影响。通过协调数据生成、ML 模型开发、训练和优化,研究人员能够仅从目标蛋白质序列和与目标弱结合的候选抗原结合片段 (Fab) 开始,并在单轮优化后,针对目标生成大型、多样化的高亲和力 scFvs 文库。

论文链接:https://www.nature.com/articles/s41467-023-39022-2

相关文章
|
7月前
|
机器学习/深度学习 人工智能 算法
详解机器学习概念、算法
详解机器学习概念、算法
详解机器学习概念、算法
|
7月前
|
机器学习/深度学习 数据采集 监控
大模型开发:描述一个典型的机器学习项目流程。
机器学习项目涉及问题定义、数据收集、预处理、特征工程、模型选择、训练、评估、优化、部署和监控。每个阶段都是确保模型有效可靠的关键,需要细致操作。
99 0
|
4月前
|
机器学习/深度学习 算法 PyTorch
PyTorch Lightning:简化研究到生产的工作流程
【8月更文第29天】深度学习项目往往面临着从研究阶段到生产部署的挑战。研究人员和工程师需要处理大量的工程问题,比如数据加载、模型训练、性能优化等。PyTorch Lightning 是一个轻量级的封装库,旨在通过减少样板代码的数量来简化 PyTorch 的使用,从而让开发者更专注于算法本身而不是工程细节。
118 1
|
4月前
|
机器学习/深度学习 数据采集 人工智能
使用机器学习进行用户行为预测的技术探索
【8月更文挑战第9天】使用机器学习进行用户行为预测是一项复杂而充满挑战的任务。它要求开发者具备扎实的机器学习基础、丰富的数据处理经验和深入的业务理解。通过不断的数据收集、处理、特征工程、模型训练和优化,可以构建出高效、准确的用户行为预测模型,为企业决策提供有力支持。未来,随着技术的不断发展和数据的不断积累,用户行为预测领域将迎来更加广阔的发展前景。
|
7月前
|
机器学习/深度学习 数据采集 人工智能
构建高效机器学习模型:从数据预处理到模型优化
【5月更文挑战第31天】 在当今数据驱动的时代,构建一个高效的机器学习(ML)模型是解决复杂问题的关键。本文将引导读者通过一系列细致的步骤来搭建健壮且精确的ML模型。我们将重点讨论数据预处理的策略、选择合适的算法、模型训练的技巧以及性能优化的方法。通过实例和代码示例,本技术分享旨在为从业者提供实用的指导,帮助他们在面对实际问题时能够灵活应用机器学习技术,并达到提高预测准确率和模型泛化能力的目的。
|
7月前
|
机器学习/深度学习 数据采集 自然语言处理
构建高效机器学习模型的五大技巧
【5月更文挑战第30天】 在数据科学领域,构建一个高效的机器学习(ML)模型是每个数据科学家追求的目标。本文将介绍五个关键的技巧来优化机器学习模型的性能。这些技巧包括数据预处理、特征选择、模型选择、超参数调优以及模型评估与验证。通过实践这些技巧,读者可以提升其模型的预测准确性和泛化能力。
|
6月前
|
机器学习/深度学习 数据采集 算法
基于机器学习的推荐算法构建技术详解
【6月更文挑战第4天】本文详述了构建基于机器学习的推荐算法,特别是协同过滤方法。从用户和物品相似性的角度,解释了用户-用户和物品-物品协同过滤的工作原理。涵盖了数据准备、预处理、特征工程、模型训练、评估优化及结果展示的构建流程。推荐算法在电商、视频和音乐平台广泛应用,未来将受益于大数据和AI技术的进步,提供更智能的推荐服务。
|
7月前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型的策略与实践
【5月更文挑战第27天】 在数据驱动的时代,机器学习(ML)模型的性能至关重要。本文将探讨一系列策略和最佳实践,用以提升机器学习模型的效率和准确性。我们将从数据处理、特征工程、算法选择、超参数调优以及模型评估等方面入手,提供一套系统性的方法论。通过这些方法的应用,读者能够构建出更加健壮、高效的ML模型,并确保其在实际问题中的适用性和扩展性。
|
6月前
|
机器学习/深度学习 自然语言处理 算法
机器学习场景的的任务
【6月更文挑战第14天】机器学习场景的的任务。
45 2
|
7月前
|
机器学习/深度学习 数据采集 算法
利用机器学习进行用户行为预测的技术解析
【5月更文挑战第17天】本文探讨了利用机器学习预测用户行为的技术,包括数据收集与处理、特征工程、模型选择与训练、评估预测。通过理解用户数据、提取有效特征,使用如RNN、LSTM等深度学习模型进行训练,评估模型性能后,可实现用户行为预测,助力企业决策,如个性化推荐和精准营销。随着技术发展,机器学习在该领域的应用将更加广泛。