编辑 | 白菜叶
治疗性抗体是一种重要且发展迅速的药物形式。然而,早期抗体疗法的设计和发现仍然是一项耗费时间和成本的工作。
麻省理工学院林肯实验室的研究人员提出了一种基于端到端贝叶斯语言模型的方法,用于设计大型和多样化的高亲和力单链可变片段 (scFvs) 库,然后根据经验进行测量。
在与定向进化方法的直接比较中,该方法生成的最佳 scFv 比定向进化的最佳 scFv 的结合力提高了 28.7 倍。
该研究以「Machine learning optimization of candidate antibody yields highly diverse sub-nanomolar affinity antibody libraries」为题,于 2023 年 6 月 12 日发布在《Nature Communications》。
治疗性抗体是一种重要且发展迅速的药物形式。由于抗体序列有巨大的搜索空间,详尽评估整个抗体空间不可行,因此只能从合成生成、动物免疫或人类供体文库中筛选相对少量的抗体来鉴定候选抗体。筛选的文库只占整个搜索空间的一小部分,由此产生的候选抗体通常是弱结合剂或存在可开发性问题,需要进一步优化。
当前的改进方法非常耗时耗力。并且改进一种特性往往伴随着其他特性的改变,还需要全方位进行优化,从而导致工程周期很长。这个鉴定最终抗体的过程通常需要大约 12 个月才能完成。在开发过程的早期有效地设计具有良好结合和高度多样性的抗体,将减少后期检查、优化不利抗体特性的消耗,将提高可开发性潜力并减少早期药物开发所需的时间。
机器学习 (ML) 方法可用于有效地表示生物数据并在计算机中快速探索其广阔的设计空间。这种方法可以从高维数据中揭示复杂而灵活的特征,并在许多应用领域显示出巨大的前景,包括蛋白质结构预测、药物发现和设计。现有的 ML 驱动的抗体优化在设计具有针对靶标的改进结合特性的抗体方面显示出有希望的结果,并且可以仅从序列数据中学习抗体结合,而无需靶标的结构。然而,现有的方法都不允许在实验之前对设计的抗体库进行评估,这是一个可以加快设计周期的关键特征。
图示:端到端 ML 驱动的 scFv 设计过程的图示。(来源:论文)
麻省理工学院林肯实验室的研究人员开发了一个端到端 ML 驱动的单链可变片段 (scFv) 设计框架,该框架独特地结合了最先进的语言模型、贝叶斯优化和高通量实验。因为研究人员合成了明确定义的 300bp 寡核苷酸池,所以该方法允许设计整个 scFv 链(重链或轻链)。此外,它不假设候选 scFv 与靶标有很强的结合,并且依赖于序列数据而不需要序列比对或靶抗原结构的知识,从而使该方法适用于任何靶抗原的早期抗体开发。
在与传统定向进化策略的直接比较中,使用该 ML 方法设计的 scFvs 具有明显更强的结合能力,尤其是在高度多样性的情况下,并且该模型能够准确预测极高阶突变体的结合亲和力。
经过一轮设计-构建-测试循环后,该模型能够生成重链 scFv,其结合力比 PSSM 文库中最强的 scFv 强 28.7 倍。大多数 ML 设计的 scFv 都是对候选 scFv Ab-14 的改进;超过 90% 的经验评估的 En-GA 和 En-HC 重链 scFvs 是成功的,而 PSSM 文库的成功率不到 20%。
图示:ML 优化的 scFv 文库优于 PSSM 定向进化方法,具有高成功率和高多样性。(来源:论文)
此外,基于集成的方法能够探索更大的序列空间;与 PSSM 文库的 3.17 相比,重链集合文库的平均突变距离范围为 7.9 至 15.6。该流程的单个周期大约为几个月,这使得传统方法在最好的情况下显著减少时间和成本效率。传统方法不太可能达到相同百分比的成功和多样性指标。未来的工作旨在量化将机器学习方法集成到治疗开发中的成本和时间节省,以更快地发现更好的治疗方法,这将支持更广泛地采用此类方法,应该继续进行。
图示:ML 库、PSSM 库和训练数据的 T-SNE 序列嵌入揭示了不同的采样序列子空间。(来源:论文)
通过该方法生成的文库也具有使用 BioPython 计算的多种生物物理特性(补充图 11)。这允许选择多个临床前候选药物,它们的下游故障模式不相关,这样如果一个失败,整个管道不太可能因为同样的原因而失败。将来,已知与可开发性或物理化学特性相关的生物物理特性可以包含在库设计标准中,例如在特定等电点或疏水性范围内设计强结合剂。研究人员认为该框架适用于任何旨在最大化或最小化 scFv 特征的任务,例如最小化脱靶结合或最大化中和。在数据可用之前,研究人员将基于 ML 的多目标 scFv 优化视为简化 scFv 开发的一项可行的任务和可行的选择。
研究人员分别探索了模型性能作为训练数据量的函数,并展示了额外的数据,预计会提高性能。然而,在大约 7000 次测量之后,额外的测量对于性能的提升不再显著。在这里,研究人员在所有可用的测量上训练了他们的监督序列到亲和力模型,但未来的工程尝试可能会通过增加循环次数或待优化的候选 scFv 数量来优化资源的使用,同时减少每个候选 scFv 每个循环的测量次数。由于与 DNA 合成相关的成本限制,研究人员选择通过引入 k = 1、2 或 3 个随机突变来生成训练数据,但该模型能够成功地推断出远不止于此的结果。如果依赖于模型的选择,以及执行多个测量周期是否会影响选择,未来的工作将受益于对训练数据生成方式的更好理解。
该团队还比较了使用和不使用预训练语言模型的序列到亲和力模型的性能。研究人员发现从预训练语言模型微调的模型优于没有预训练语言模型的模型,以及更简单的编码方法,如基于 PSSM 的编码器。Pfam 预训练语言模型的性能优于 OAS 预训练语言模型。研究人员假设从更多样化的蛋白质序列中学习可以捕获更高级别的生物学原理,这些原理可以更有效地转移和完善到抗体特定任务,例如亲和力预测。
总之,该研究的结果突出了 ML 模型对早期 scFv 开发的影响。通过协调数据生成、ML 模型开发、训练和优化,研究人员能够仅从目标蛋白质序列和与目标弱结合的候选抗原结合片段 (Fab) 开始,并在单轮优化后,针对目标生成大型、多样化的高亲和力 scFvs 文库。