华为团队开发组合贝叶斯优化框架,进行抗体计算机设计

简介: 华为团队开发组合贝叶斯优化框架,进行抗体计算机设计

华为团队开发组合贝叶斯优化框架,进行抗设计与目标抗原结合的抗体序列是治疗设计中的一个基本问题。除了与靶抗原的结合外,临床相关的抗体还应具有良好的生物物理(即可开发性)特性。抗原抗体结合亲和力的模拟是一个复杂的过程,需要一个模型从各自的序列中生成抗体和抗原的结构,然后模拟结合亲和力。

抗体可变重链的互补决定区 3(CDRH3)通常支配抗原结合特异性。因此,设计最佳抗原特异性CDRH3以开发治疗性抗体是当务之急。CDRH3 序列的组合结构,使得不可能详尽地预测查询结合亲和力。此外,预期抗体往往具有高靶标特异性和可开发性。

在这里,华为诺亚方舟实验室、伦敦大学以及爱丁堡大学的研究团队开发了 AntBO,这是一种组合贝叶斯优化框架,利用 CDRH3 信任区对具有良好可开发性分数的抗体进行计算机设计。

针对 159 种抗原的计算机实验表明,AntBO 是朝着实际可行的体外抗体设计迈出的一步。在对 oracle 的不到 200 次调用中,AntBO 建议抗体优于来自 690 万个实验获得的 CDRH3 的最佳结合序列。此外,AntBO 在不需要领域知识的情况下仅在 38 种蛋白质设计中发现了非常高亲和力的 CDRH3。

该研究以「Toward real-world automated antibody design with combinatorial Bayesian optimization」为题,于 2023 年 1 月 3 日发布在《Cell Reports Methods》。

抗体简介

免疫系统利用抗体或免疫球蛋白(Ig)来检测、结合和中和入侵的病原体。从结构的角度来看,这些主要是包含可变区域的大型 Y 形蛋白质,能够对称为抗原的外来蛋白质的广泛分子表面进行特异性分子识别。因此,抗体是一类快速增长的生物治疗药物。单克隆抗体现在占十种最畅销药物中的五种。抗体还作为亲和试剂用于分子生物学研究,因为它们能够以高灵敏度和特异性检测低浓度的靶抗原。

典型的抗体结构由四个蛋白质结构域组成:两条重链和两条轻链,通过二硫键连接。每条重链(VH)包括三个恒定域和一个可变域(Fv区),而轻链(VL)则具有一个恒定域和一个可变域。抗体通过其可变区的尖端选择性地结合抗原,称为 Fab 结构域(抗原结合片段),包含六个环,三个在轻链上,三个在重链上,称为互补决定区 (CDR)。

抗体与抗原结合位点的相互作用残基在抗体侧称为互补位,在抗原侧称为表位。抗体的碱基称为可结晶片段 (Fc) 区,它与 Fv 区发生反应。尽管许多研究仅关注抗体的 Fv 区和 CDRH3 环,但已表明 Fc 区对于抗体设计也很重要。Fc 区与聚集、半衰期和稳定性等可开发性参数有关,这些参数对于抗体在临床试验中的成功至关重要。

计算抗体设计概述

计算抗体设计存在的挑战

计算抗体设计的主要总体目标是开发可以与选定抗原(例如病原体、肿瘤新抗原或治疗途径靶标)结合的 CDR 区域,因为 CDR 区域主要定义结合特异性。特别是,CDRH3 区域具有最高的序列和结构多样性,在形成结合位点方面起着至关重要的作用。因此,高度多样化的 CDRH3 是单克隆抗体开发中最广泛重新设计的成分。在这里,研究人员将 CDRH3 区域的设计称为抗体设计。

当已知候选抗体-抗原复合结构时,预测相互作用位点突变时亲和力变化的结构方法,可用于生成具有更高亲和力的抗体。作为最近比较成功的例子,研究人员将结构建模和亲和力评分功能相结合,使抗溶菌酶抗体的亲和力提高了 140 倍。与其他基于亲和力的评分函数相比,使用集成机器学习 (ML) 策略,可以利用单点突变引起的亲和力变化来预测具有更高亲和力的新序列。

mCSM-AB2 使用基于图形的签名来整合抗体-抗原复合物的结构信息,并将其与使用 FoldX 的能量推断相结合以预测结合能的改善。最后,另外两种源自蛋白质-蛋白质相互作用问题的通用方法已用于抗体亲和力预测:TopNetTree 将卷积神经网络 (CNN) 与梯度提升树相结合,GeoPPI 使用图形神经网络代替 CNN。然而,亲和力预测方法的结果之间仍然存在很大差异。

抗体的开发是一个复杂的过程,需要各种工具来为抗体的不同部分建立结构模型,从抗原序列生成结构,并将它们对接。此外,所有可能的 CDRH3 序列的组合性质使得详尽查询任何抗原抗体模拟框架是不切实际的。对于由天然存在的氨基酸(AAs)(m=20)组成的长度为 n 的序列,有 m^n 种可能的序列。因此,即使 n = 11 的适度大小,这个数字也会变得太大而无法穷举搜索。

实际上,搜索空间甚至更大,因为 CDR 序列长度可以达到残基,并且设计的蛋白质不限于天然存在的 AA。此外,并非所有 CDRH3 序列都具有治疗意义。CDRH3 可以对特定目标具有很强的结合亲和力,但由于其不稳定的结构或对患者显示出毒性,可能会导致制造问题。出于这些原因,抗体应该根据被称为可开发性分数的典型特性进行评估。这些分数衡量感兴趣的特性,例如 CDRH3 序列是否不含不需要的糖基化基序或序列的净电荷是否在预先指定的范围内。

近期较大的突破 Absolut!

2022 年 12 月,奥斯陆大学 (University of Oslo) 的 Robert 团队提出了 Absolut!,这是一种用于生成抗体-抗原结合数据集的计算框架,已用于压力测试和基准测试不同的 ML 策略以进行抗体-抗原结合预测。Absolut! 是一种确定性工具,它使用蛋白质的粗粒度晶格表示提供抗体-抗原结合亲和力的端到端模拟。研究人员可以使用 Absolut! 来评估任意 CDRH3 序列与目标抗原的所有可能结合构象,并返回最佳结合构象。

为了更接近真实的抗原抗体,Absolut! 保留了实验数据集中存在的超过八个级别的生物复杂性:抗原拓扑结构;抗原aa组合物;生理 CDRH3 序列;可能的结合构象的巨大组合空间;高亲和力序列中的位置 aa 依赖性;具有不同免疫原性水平的抗原区域等级;互补位-表位结构相容性的复杂性;以及 CDRH3 序列相似性没有很好描述的功能结合景观。

此外,Absolut! 还展示了三个示例,其中不同的 ML 策略与实验数据集相比显示出相同的性能排名。重要的是,评估得出的结论是,Absolut! 生成的模拟数据可以与真实世界的实验数据相当。

然而,CDRH3 序列空间的组合爆炸使得彻底测试每个可能的序列变得不现实,无论是通过实验还是使用 Absolut!因此,抗体-抗原结合设计的问题需要一个样本有效的解决方案来生成结合任意目标抗原的 CDRH3 区域,同时遵守可开发性限制。

一般计算方法的局限性

如上所述,学界已经开发了多种计算方法来支持抗体设计,或者使用基于物理的抗体和抗原结构建模和对接,或者使用 ML 方法直接从序列或结构数据集中学习抗体-抗原结合的规则。(1)互补位和表位预测工具考虑抗原或抗体的序列或结构来预测相互作用的残基。互补位和表位的知识不会直接告知亲和力,但有助于确定重要残基的优先级以提高亲和力。(2)结合预测工具,通常受蛋白质-蛋白质相互作用(PPI)预测工具的启发,预测抗体与抗原序列或结构之间的相容性。相容性标准是通过使用聚类来预测结合到同一目标的序列、使用互补位-表位预测模型或使用结合姿势的排名来对结合序列进行分类来决定的。然而,预测抗体结合模拟了候选抗体的实验筛选,但并不直接有助于获得高亲和力和特异性的抗体序列。(3)亲和力预测工具专门预测抗体或抗原序列突变后的亲和力提高。

结合贝叶斯优化开发 AntBO

贝叶斯优化(BO)为上述问题提供了强大的机制。BO 使用高斯过程(GP)作为黑盒 oracle 的替代模型,该模型结合了关于域的先验信念来指导序列空间中的搜索。GP 的不确定性量化允许获取最大化步骤在搜索空间中权衡探索和开发。(探索的思想是排除搜索空间中大概率不包含最优解的区域。利用保证了搜索以高概率找到最佳样本点。

BO 使用 GP 作为替代模型,对每个数据点引入均值和方差估计。当 BO 在局部搜索中遇到新数据点以最大化采集函数时,它会检查两个点是否具有精确的均值估计并选择具有最高方差的一个,从而探索空间。当数据点具有相同的方差时,BO 选择具有最高平均估计值的那个,从而利用解决方案。)BO 的这一吸引人的特性使研究人员能够开发出一种高效的抗体设计解决方案。

在这里,华为诺亚方舟实验室、伦敦大学以及爱丁堡大学的研究团队开发了 AntBO——一种用于计算机设计目标特异性抗体 CDRH3 区域的组合 BO 框架。该框架使用 Absolut! 的结合能模拟器作为黑盒预言机。原则上,AntBO 可以应用于任何序列区域。这里主要考虑 CDRH3,因为这是抗体工程的主要热点研究领域。另外,Absolut! 框架目前只允许CDRH3绑定模拟。

图:用于抗体设计的 AntBO。(来源:论文)

AntBO 框架利用 CDRH3 序列的生物物理特性作为组合序列空间中的约束,以促进寻找适合治疗开发的抗体。研究人员展示了 AntBO 在 159 种已知的具有治疗意义的抗原上的应用。并且,通过发现的蛋白质序列的不同可开发性得分证明了 AntBO 在计算机抗体设计中的优势。AntBO 的性能大大优于从包含 690 万个实验获得的 CDRH3 的数据库中获得的极高亲和力序列,蛋白质设计要少几个数量级。AntBO 可以建议非常高亲和力的序列,平均只有 38 种蛋白质设计和 100 种设计中的超级结合序列。Absolut! 的多功能性允许根据用户要求定义结合剂/非结合剂水平。

另外,由于湿实验室抗体设计相关实验的巨大成本(时间和资源),而 AntBO 可以指出非常高亲和力的抗体,同时对黑盒 oracle 进行亲和力确定的查询最少。这表明 AntBO 可以部署在样本效率至关重要的真实抗体研发中。

当前 AntBO 的局限性

研究人员表示,AntBO 是第一个针对抗体设计问题展示不同风格的组合 BO 的框架。

AntBO 在其当前范围内的潜在限制是 (1) AntBO 按顺序设计抗体,建议每个评估步骤一个序列。为了实现更高效的实验场景,AntBO 可以适应批处理场景,使研究人员可以在更少的评估中设计更多的序列。

(2) 另一个限制是当前的绑定模拟框架 Absolut! 使用基于预先指定的 aa 间距离和 90° 角的 3D 晶格表示。这种表示在抗体可以与感兴趣的抗原结合的许多配置中具有高度限制性。研究人员希望在未来的工作中解决这个问题,构建一个更现实的框架,将 FoldX 等对接与 AbodyBuilder 和 Alpha-Fold Multimer 等结构预测工具相结合。

(3) 对于当前版本的 AntBO,该团队只设计了 CDRH3 区域,而忽略了可能影响结合特异性的其他 CDR 环的折叠。

未来,该团队将进一步突破这些限制,提升 AntBO 的功能和性能。

论文链接:https://www.cell.com/cell-reports-methods/pdfExtended/S2667-2375(22)00276-4

相关文章
|
1月前
构建安全可靠的系统:第十一章到第十五章
构建安全可靠的系统:第十一章到第十五章
182 0
|
1天前
|
设计模式 算法 数据可视化
分析大型软件系统的经典方法
【6月更文挑战第19天】本文介绍ATAM(架构权衡分析方法)是一种评估大型软件系统架构的工具,着重考虑性能、可用性、安全性和可修改性等质量属性的交互。ATAM提供了一种结构化方法,确保在设计早期就能理解和平衡各种质量属性,以优化系统整体性能。
99 2
分析大型软件系统的经典方法
|
1月前
|
存储 数据挖掘
R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型
R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型
|
1月前
|
监控 数据挖掘
项目组合研究的问题
项目组合管理聚焦于组织如何高效管理多个项目以达成战略目标,在资源有限时最大化整体价值。关键问题包括:战略一致性(确保项目与组织战略匹配,选择驱动战略的项目)、优先级排序(基于标准确定项目优先级,权衡收益、风险和成本)、资源配置(合理分配有限资源,平衡项目需求和优化利用率)、风险管理(识别和管理项目风险,制定应对策略)、绩效监控(建立绩效指标体系,定期审查和调整组合)、决策支持工具(使用工具和技术进行数据分析和决策)、治理结构(设计适应组织的治理框架和决策流程)以及动态调整能力(灵活应对市场变化,基于实时信息调整项目组合)。需进一步研究与项目集管理的区别。【4月更文挑战第2天】
16 1
|
1月前
|
机器学习/深度学习 搜索推荐 物联网
微软开源创新LoRA组合方法,增强文生图复杂细节控制
微软研究团队推出Multi-LoRA Composition技术,改善文本到图像模型的细节控制。利用低秩适应(LoRA)提升图像生成精度,通过LORA SWITCH和LORA COMPOSITE解决组合复杂图像的挑战。新方法在ComposLoRA平台上测试,性能优于基线,为图像生成和个性化内容创作开辟新途径。尽管有学习曲线和定制需求优化的问题,但该研究仍为领域带来显著进步。
274 3
微软开源创新LoRA组合方法,增强文生图复杂细节控制
|
10月前
|
人工智能 自然语言处理 算法
能像乐高一样组合,LoraHub挖掘LoRA 模块化特性
能像乐高一样组合,LoraHub挖掘LoRA 模块化特性
221 0
|
11月前
|
PyTorch 算法框架/工具
pytorch诞生逻辑和演化过程
pytorch诞生逻辑和演化过程
71 0
|
存储 测试技术 数据库
「机会和方案」TOGAF建模:项目环境图
「机会和方案」TOGAF建模:项目环境图
|
机器学习/深度学习 算法 搜索推荐
亚马逊团队使用受物理启发的图神经网络,解决组合优化等问题
亚马逊团队使用受物理启发的图神经网络,解决组合优化等问题
133 0
|
机器学习/深度学习
机器学习增强量子化学领域的新突破,用半经验量子力学方法的结构来构建动态响应的哈密顿量
机器学习增强量子化学领域的新突破,用半经验量子力学方法的结构来构建动态响应的哈密顿量
201 0
机器学习增强量子化学领域的新突破,用半经验量子力学方法的结构来构建动态响应的哈密顿量

热门文章

最新文章