结合亲和力提高了 28.7 倍,基于端到端贝叶斯语言模型的方法设计大型、多样化的高亲和力抗体库

简介: 结合亲和力提高了 28.7 倍,基于端到端贝叶斯语言模型的方法设计大型、多样化的高亲和力抗体库

编辑 | 白菜叶

治疗性抗体是一种重要且发展迅速的药物形式。然而,早期抗体疗法的设计和发现仍然是一项耗费时间和成本的工作。

麻省理工学院林肯实验室的研究人员提出了一种基于端到端贝叶斯语言模型的方法,用于设计大型和多样化的高亲和力单链可变片段 (scFvs) 库,然后根据经验进行测量。

在与定向进化方法的直接比较中,该方法生成的最佳 scFv 比定向进化的最佳 scFv 的结合力提高了 28.7 倍。

该研究以「Machine learning optimization of candidate antibody yields highly diverse sub-nanomolar affinity antibody libraries」为题,于 2023 年 6 月 12 日发布在《Nature Communications》。

治疗性抗体是一种重要且发展迅速的药物形式。由于抗体序列有巨大的搜索空间,详尽评估整个抗体空间不可行,因此只能从合成生成、动物免疫或人类供体文库中筛选相对少量的抗体来鉴定候选抗体。筛选的文库只占整个搜索空间的一小部分,由此产生的候选抗体通常是弱结合剂或存在可开发性问题,需要进一步优化。

当前的改进方法非常耗时耗力。并且改进一种特性往往伴随着其他特性的改变,还需要全方位进行优化,从而导致工程周期很长。这个鉴定最终抗体的过程通常需要大约 12 个月才能完成。在开发过程的早期有效地设计具有良好结合和高度多样性的抗体,将减少后期检查、优化不利抗体特性的消耗,将提高可开发性潜力并减少早期药物开发所需的时间。

机器学习 (ML) 方法可用于有效地表示生物数据并在计算机中快速探索其广阔的设计空间。这种方法可以从高维数据中揭示复杂而灵活的特征,并在许多应用领域显示出巨大的前景,包括蛋白质结构预测、药物发现和设计。现有的 ML 驱动的抗体优化在设计具有针对靶标的改进结合特性的抗体方面显示出有希望的结果,并且可以仅从序列数据中学习抗体结合,而无需靶标的结构。然而,现有的方法都不允许在实验之前对设计的抗体库进行评估,这是一个可以加快设计周期的关键特征。

图示:端到端 ML 驱动的 scFv 设计过程的图示。(来源:论文)

麻省理工学院林肯实验室的研究人员开发了一个端到端 ML 驱动的单链可变片段 (scFv) 设计框架,该框架独特地结合了最先进的语言模型、贝叶斯优化和高通量实验。因为研究人员合成了明确定义的 300bp 寡核苷酸池,所以该方法允许设计整个 scFv 链(重链或轻链)。此外,它不假设候选 scFv 与靶标有很强的结合,并且依赖于序列数据而不需要序列比对或靶抗原结构的知识,从而使该方法适用于任何靶抗原的早期抗体开发。

在与传统定向进化策略的直接比较中,使用该 ML 方法设计的 scFvs 具有明显更强的结合能力,尤其是在高度多样性的情况下,并且该模型能够准确预测极高阶突变体的结合亲和力。

经过一轮设计-构建-测试循环后,该模型能够生成重链 scFv,其结合力比 PSSM 文库中最强的 scFv 强 28.7 倍。大多数 ML 设计的 scFv 都是对候选 scFv Ab-14 的改进;超过 90% 的经验评估的 En-GA 和 En-HC 重链 scFvs 是成功的,而 PSSM 文库的成功率不到 20%。

图示:ML 优化的 scFv 文库优于 PSSM 定向进化方法,具有高成功率和高多样性。(来源:论文)

此外,基于集成的方法能够探索更大的序列空间;与 PSSM 文库的 3.17 相比,重链集合文库的平均突变距离范围为 7.9 至 15.6。该流程的单个周期大约为几个月,这使得传统方法在最好的情况下显著减少时间和成本效率。传统方法不太可能达到相同百分比的成功和多样性指标。未来的工作旨在量化将机器学习方法集成到治疗开发中的成本和时间节省,以更快地发现更好的治疗方法,这将支持更广泛地采用此类方法,应该继续进行。

图示:ML 库、PSSM 库和训练数据的 T-SNE 序列嵌入揭示了不同的采样序列子空间。(来源:论文)

通过该方法生成的文库也具有使用 BioPython 计算的多种生物物理特性(补充图 11)。这允许选择多个临床前候选药物,它们的下游故障模式不相关,这样如果一个失败,整个管道不太可能因为同样的原因而失败。将来,已知与可开发性或物理化学特性相关的生物物理特性可以包含在库设计标准中,例如在特定等电点或疏水性范围内设计强结合剂。研究人员认为该框架适用于任何旨在最大化或最小化 scFv 特征的任务,例如最小化脱靶结合或最大化中和。在数据可用之前,研究人员将基于 ML 的多目标 scFv 优化视为简化 scFv 开发的一项可行的任务和可行的选择。

研究人员分别探索了模型性能作为训练数据量的函数,并展示了额外的数据,预计会提高性能。然而,在大约 7000 次测量之后,额外的测量对于性能的提升不再显著。在这里,研究人员在所有可用的测量上训练了他们的监督序列到亲和力模型,但未来的工程尝试可能会通过增加循环次数或待优化的候选 scFv 数量来优化资源的使用,同时减少每个候选 scFv 每个循环的测量次数。由于与 DNA 合成相关的成本限制,研究人员选择通过引入 k = 1、2 或 3 个随机突变来生成训练数据,但该模型能够成功地推断出远不止于此的结果。如果依赖于模型的选择,以及执行多个测量周期是否会影响选择,未来的工作将受益于对训练数据生成方式的更好理解。

该团队还比较了使用和不使用预训练语言模型的序列到亲和力模型的性能。研究人员发现从预训练语言模型微调的模型优于没有预训练语言模型的模型,以及更简单的编码方法,如基于 PSSM 的编码器。Pfam 预训练语言模型的性能优于 OAS 预训练语言模型。研究人员假设从更多样化的蛋白质序列中学习可以捕获更高级别的生物学原理,这些原理可以更有效地转移和完善到抗体特定任务,例如亲和力预测。

总之,该研究的结果突出了 ML 模型对早期 scFv 开发的影响。通过协调数据生成、ML 模型开发、训练和优化,研究人员能够仅从目标蛋白质序列和与目标弱结合的候选抗原结合片段 (Fab) 开始,并在单轮优化后,针对目标生成大型、多样化的高亲和力 scFvs 文库。

论文链接:https://www.nature.com/articles/s41467-023-39022-2

相关文章
|
9天前
|
监控
SMoA: 基于稀疏混合架构的大语言模型协同优化框架
通过引入稀疏化和角色多样性,SMoA为大语言模型多代理系统的发展开辟了新的方向。
25 6
SMoA: 基于稀疏混合架构的大语言模型协同优化框架
|
10天前
|
机器学习/深度学习 数据采集 数据处理
谷歌提出视觉记忆方法,让大模型训练数据更灵活
谷歌研究人员提出了一种名为“视觉记忆”的方法,结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分,支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示,该方法在多个数据集上取得了优异的性能,如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制,但视觉记忆为深度学习提供了新的思路。
18 2
|
3月前
|
机器学习/深度学习 自然语言处理
多语言模型在实际应用中有哪些优势和局限性?
多语言模型在实际应用中有哪些优势和局限性?
|
5月前
|
机器学习/深度学习 语音技术
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再压缩
【6月更文挑战第12天】谷歌DeepMind的Zipper架构解决了多模态大模型灵活性问题,通过分解为单模态模型并用“压缩”过程组合,实现多模态生成。该方法允许独立训练每个模态,提升灵活性和可扩展性,适用于数据有限或领域特定的模态。Zipper利用交叉注意力机制融合模态输出,适用于图像描述、语音识别等任务。尽管需要更多计算资源且性能受限于单模态模型质量,但已在ASR和TTS领域展现潜力。论文链接:https://arxiv.org/pdf/2405.18669
64 3
|
6月前
|
存储 机器学习/深度学习 人工智能
论文介绍:InfLLM——揭示大型语言模型在无需训练的情况下处理极长序列的内在能力
【5月更文挑战第18天】InfLLM是一种新方法,无需额外训练即可增强大型语言模型处理极长序列的能力。通过使用记忆单元存储长序列的远距离上下文,InfLLM能更准确地捕捉长距离依赖,提高对长文本理解。实验表明,InfLLM使预训练在短序列上的模型在处理极长序列时表现媲美甚至超过专门训练的模型。尽管有挑战,如动态上下文分割和记忆单元效率,InfLLM为长序列处理提供了有效且未经训练的解决方案。论文链接:https://arxiv.org/abs/2402.04617
154 3
|
6月前
|
机器学习/深度学习 存储 编解码
沈春华团队最新 | SegViT v2对SegViT进行全面升级,让基于ViT的分割模型更轻更强
沈春华团队最新 | SegViT v2对SegViT进行全面升级,让基于ViT的分割模型更轻更强
111 0
|
11月前
|
自然语言处理 文字识别 算法
RexPrompt:探索兼顾低成本、多模态、多语言、多任务的零少样本通用自然语言理解框架
RexPrompt框架的推理速度较SiamesePrompt框架提升了2倍,F1-Score提升了10%!
|
人工智能 缓存 并行计算
终极「揭秘」:GPT-4模型架构、训练成本、数据集信息都被扒出来了
终极「揭秘」:GPT-4模型架构、训练成本、数据集信息都被扒出来了
942 0
|
达摩院 自然语言处理 测试技术
开源|业界首个应用落地的非自回归端到端语音识别模型,推理效率可提升10倍
近期,阿里巴巴达摩院发布新一代语音识别模型Paraformer,这是业界首个应用落地的非自回归端到端语音识别模型,在推理效率上最高可较传统模型提升10倍,且识别准确率在多个权威数据集上名列第一。 目前,该模型于魔搭社区面向全社会开源,适用语音输入法、智能客服、车载导航、会议纪要等众多场景。
709 0
|
机器学习/深度学习 人工智能 自然语言处理
无需标注海量数据,目标检测新范式OVD让多模态AGI又前进一步
无需标注海量数据,目标检测新范式OVD让多模态AGI又前进一步
561 0