免疫原性增强128倍、11分钟找到最稳定序列,百度mRNA疫苗优化算法登上Nature

简介: 免疫原性增强128倍、11分钟找到最稳定序列,百度mRNA疫苗优化算法登上Nature


信使 RNA(mRNA)疫苗正应用于包括新冠、带状疱疹在内的各类疾病的预防治疗。由于 mRNA 是单链结构,导致其不稳定、易降解,免疫原性会因此遭到破坏。这也是疫苗储存、使用过程中最主要的障碍之一。

能否突破这一障碍,成为了推动各类疾病预防治疗发展的关键。

幸运的是,科学家研究发现,优化 mRNA 的二级结构稳定性可延长它的半衰期;同时,结构稳定性与密码子优化相结合,可提升蛋白质表达。因此,mRNA 设计算法必须同时优化结构稳定性和密码子使用,从而提高 mRNA 疫苗和药物的效力。

然而,由于同义密码子的存在,导致mRNA 设计空间非常大,比如 SARS-CoV-2 Spike 蛋白对应有约 10 的 632 次方条 mRNA,这是传统 mRNA 设计方法难以逾越的挑战。

百度美国研究院的研究人员通过将该问题简化为计算语言学中的经典问题:寻找最佳 mRNA 的过程可类比于在发音相似的语句中找到最可能的句子,以此开发了一个名为 LinearDesign 的算法,该算法可以联合优化二级结构稳定性和密码子使用,在寻找新冠 mRNA 疫苗的最稳定 mRNA 序列时仅用时 11 分钟。

百度邀请斯微生物(上海)公司进行生物学实验验证,包括细胞和动物实验。在头对头实验验证中,与传统的密码子优化的基准相比,百度团队的设计显著改善了体外 mRNA 半衰期和蛋白质表达,使体内抗体反应增强了高达 128 倍。

这是百度生物计算领域最近取得一项重要突破,论文于 2023 年 5 月 2日发表在国际顶级学术期刊《自然》杂志上,这是中国科技企业首次以第一完成单位的身份发表论文于《自然》正刊,也是 AI 应用于 mRNA 领域首篇 CNS 主刊论文。

考虑到此项研究对生物医药研究,尤其是 mRNA 疗法的重要价值,论文还被获准成为 Accelerated Article Preview (AAP) 加速发表论文。此前只有少数像 AlphaGo、AlphaFold 2 等极具影响力的论文能够获准以 AAP 形式快速上线。这也体现了百度在科研领域的实力和创新能力,也标志着中国科技企业在全球科研领域的地位攀升。

依托基于飞桨的生物计算平台-螺旋桨 PaddleHelix,百度正在基于文心生物计算大模型,为生物医药领域的研发者们提供如 LinearDesign 一样的算法工具。百度文心大模型已经形成了大模型技术体系,包括自然语言处理、视觉、跨模态、生物计算等。最近火爆的文心一言就是文心大模型家族一员,是百度自主研发的知识增强大语言模型。据了解,文心一言的企业服务生产力已经被广泛认可和应用。

LinearDesign 的设计思路

百度研究人员直面当前 mRNA 设计中的症结所在。目前 mRNA 设计有两个主要目标,即稳定性和密码子最优性。为了优化稳定性,研究人员需要在编码目标蛋白质所有可能的 mRNA 序列中,找到具有最低“最小折叠自由能变化 (MFE)” 的 mRNA 序列。研究人员使用了两个从自然语言中借用的思想——DFA(lattice)表示和网格解析(lattice parsing)——来解决这个问题。

图1:以 SARS-CoV-2 刺突蛋白为例,mRNA序列设计问题的搜索空间巨大(a),而LinearDesign算法能在11分钟设计出最稳定的mRNA序列(b)。该算法参考了自然语言处理中Lattice Parsing算法(c),针对两个既定目标(稳定性和密码子最优性)设计 mRNA 编码区(d)。

Design Space Representation: DFA (Lattice) 受计算语言学中处理歧义的“词格(word lattice)”表示的启发,研究人员使用类似的网格(计算理论中称之为确定有限自动状态机,即 DFA) 表示每个氨基酸的密码子选择(图2a)。在为每个氨基酸构建密码子 DFA 后,将它们连接成单个 mRNA DFA(图2b);其中从起始状态到最终状态的每条路径,均代表编码该蛋白质的可能 mRNA 序列。

稳定性:RNA的稳定性与其折叠(RNA folding)后的最小自由能(MFE)紧密相关。单个RNA序列 的折叠问题可以等效为自然语言处理中的单个句子解析(parsing), 利用随机上下文无关语法(SCFG)来表示RNA折叠模型。但对于 mRNA 设计,最大的问题是,如何将 DFA 中的所有 mRNA 序列一起折叠?研究人员借用了“lattice parsing”的思想,将单序列分析概括为同时处理 lattice 中的所有句子,从而找到最有可能的句子。类似地,研究人员使用 lattice parsing 同时折叠 mRNA DFA 中的所有序列以找到最稳定的序列。从计算理论的角度,lattice parsing 可以看做是 SCFG 与 DFA 之间取交集的操作。

密码子最优性:为了同时优化稳定性和密码子最优性,研究人员将 DFA 扩展到加权 DFA (WDFA),从而在边权重上整合密码子最优性,继而利用 lattice parsing 在 WDFA 上进行联合优化求解。这也可以看作是 SCFG 和 WDFA 之间取交集。

论文共同一作张贺博士表示:自然语言处理中的语音识别问题与 计算生物学中的 mRNA 设计问题在本质上有着相似之处,最底层的数学逻辑是一样的。mRNA 序列,它本身是由四个碱基组成的,就像是一个个单词组成的句子。比如,给定一个蛋白质序列,那么你可以把这个蛋白质序列想象成一个语音。这个蛋白质序列会对应成千上万个海量的 mRNA 候选序列,所有这些候选序列都可以翻译成给定的蛋白质序列。这就好比我们有很多个句子的文本,它对应着某段语音。

图2:网格解析解决了 mRNA 设计问题。密码子和mRNA序列可以用DFA表示(a-b);在DFA上做lattice parsing可以得到最优序列和结构(b-c)。优化目标既可以是单独优化稳定性(b-c),也可以联合优化稳定性和密码子最优性(d)。

“我们这个算法的优点之一是,它有非常明确的优化目标,具体来说是对 mRNA 的稳定性和密码子偏好,这两个已经被证明其重要性的特征进行优化,具有非常强的解释性。而且我们可以保证利用这个算法生成的序列,就是在海量序列里面全局最优的序列,至少在计算层面上是全局最优的序列。”张贺老师补充道。

可在个人电脑上运行,LinearDesign 为何如此高效?

成效是检验解决方案的重要指标。LinearDesign 算法在效果与部署效率上交出了自己的答卷。

从效果上看,LinearDesign 算法进行超高效运算,是因为它采用了一个计算机科学领域非常经典的动态规划算法,其最重要的特点是可以通过合并等效状态,无损地对海量搜索空间进行压缩。

例如新冠 mRNA 疫苗的设计,它的候选序列有 10 的 632 次方之多;假如进行枚举,假设每秒一个可能也需要 10 的 617 次方亿年。研究人员利用动态规划算法,无损地对海量的 mRNA 序列搜索空间进行压缩,将一个需要指数级复杂度的方法,变成了一个多项式复杂度的算法,运算时间便大大缩短,甚至在 11 分钟便可计算得出最稳定的新冠 mRNA 疫苗序列。

图3:LinearDesign 的运行时间(a)和结果(b-d)分析。这里选取了新冠和带状疱疹(VZV)两种mRNA疫苗作为分析实例。

在部署效率上,有人可能会问“如此高效的运算,是不是需要很高的算力?需要好多个 A100?”

“我们的算法对于算力的要求并不高。它可以在云平台服务器,甚至是个人电脑上运行。”张贺解释道,“另外,这个算法有非常强的普适性,比如说它对于目标序列的长度几乎没有限制,只要你的计算机内存足够大,就可以跑。我们曾经做个简单的测试,一台普通的 mac 笔记本,跑两千以内的蛋白序列是完全没有问题。所以说,几乎一台小小的个人电脑就能满足需求。”

助力医药研发,LinearDesign 潜力巨大

在帮助研究者高效优化 mRNA 序列之外,LinearDesign 算法还有助于提升疫苗的有效性。研究人员对 LinearDesign 生成的 mRNA 序列进行了生物实验验证,证明其在对疫苗性能至关重要的三个属性方面优于传统的密码子优化基准:即化学稳定性、翻译效率和免疫原性。研究人员还选取了这里选取了新冠和带状疱疹(VZV)两种 mRNA 疫苗证明算法的普适性。

图4:新冠mRNA疫苗生物实验结果。a为实验结果总结,b-c为稳定性实验,d为蛋白表达实验,e-g为小鼠实验。

在新冠 mRNA 疫苗头对头实验中(图4),对比疫苗公司进入临床实验的新冠 mRNA 疫苗序列,LinearDesign 设计的序列稳定性(mRNA分子半衰期)最多提升 5 倍以上,蛋白质表达水平(48 小时)最多提升 3 倍,抗体反应最多提升 128 倍。在带状疱疹 mRNA 疫苗头对头实验中(图 5),对比于传统密码子优化方法设计的带状疱疹mRNA疫苗序列,LinearDesign 设计的序列其稳定性(mRNA 分子半衰期)最多提升 6 倍以上,蛋白质表达水平(48 小时)最多提升 5.3 倍,抗体反应最多提升 8 倍。

图5:带状疱疹mRNA疫苗生物实验结果。a为实验结果总结,b-c为稳定性实验,d为蛋白表达实验,e为小鼠实验。

LinearDesign 生成的 mRNA 可以显著提升 mRNA 疫苗的有效性和保护力,这将有助于生物医药公司快速研发更有效的 mRNA 疫苗,并降低研发成本。

此外,理论上来讲,所有蛋白类的药物都可以通过 mRNA 递送到体内,在体内翻译成蛋白来发挥药效。因此,LinearDesign 可以广泛应用于 mRNA 疗法,并可用于单克隆抗体和抗癌药物等等。

“未来我们期待,并且也相信迭代算法能够大规模应用在药物研发的管线上。对此我们提供了多种方式,包括私有化部署、云平台服务等等,非常灵活。可以为各种药企、创业公司、科研机构提供定制化的算法库。”张贺补充道。

论文的共同通讯作者、俄勒冈州立大学教授兼 coderna.ai 创始人黄亮表示,此项目是跨学科合作的成功范例,涉及了人工智能、计算语言学、计算生物学、分子生物学、合成生物学、免疫学等多个学科,是人工智能用于生物医学的一个里程碑。

论文链接:https://www.nature.com/articles/s41586-023-06127-z

相关文章
|
1月前
|
算法
经典控制算法——PID算法原理分析及优化
这篇文章介绍了PID控制算法,这是一种广泛应用的控制策略,具有简单、鲁棒性强的特点。PID通过比例、积分和微分三个部分调整控制量,以减少系统误差。文章提到了在大学智能汽车竞赛中的应用,并详细解释了PID的基本原理和数学表达式。接着,讨论了数字PID的实现,包括位置式、增量式和步进式,以及它们各自的优缺点。最后,文章介绍了PID的优化方法,如积分饱和处理和微分项优化,以及串级PID在电机控制中的应用。整个内容旨在帮助读者理解PID控制的原理和实际运用。
92 1
|
1月前
|
机器学习/深度学习 算法 Oracle
ICLR 2024:近似最优的最大损失函数量子优化算法
【2月更文挑战第27天】ICLR 2024:近似最优的最大损失函数量子优化算法
32 3
ICLR 2024:近似最优的最大损失函数量子优化算法
|
1月前
|
存储 算法 索引
模拟算法题练习(二)(DNA序列修正、无尽的石头)
模拟算法题练习(二)(DNA序列修正、无尽的石头)
|
1月前
|
机器学习/深度学习 算法 搜索推荐
外卖平台推荐算法的优化与实践
外卖平台推荐算法的优化与实践
|
1天前
|
编解码 算法 数据可视化
【视频】时间序列分类方法:动态时间规整算法DTW和R语言实现
【视频】时间序列分类方法:动态时间规整算法DTW和R语言实现
|
1天前
|
算法 索引
数据结构与算法-并查集多种实现以及优化步骤
数据结构与算法-并查集多种实现以及优化步骤
5 0
|
3天前
|
机器学习/深度学习 人工智能 算法
揭秘深度学习中的优化算法
【4月更文挑战第24天】 在深度学习的广阔天地中,优化算法扮演着至关重要的角色。本文将深入探讨几种主流的优化算法,包括梯度下降法、随机梯度下降法、Adam等,并分析它们的特点和适用场景。我们将通过理论分析和实例演示,揭示这些优化算法如何帮助模型更高效地学习参数,从而提高模型的性能。
|
12天前
|
算法
R语言使用随机技术差分进化算法优化的Nelson-Siegel-Svensson模型
R语言使用随机技术差分进化算法优化的Nelson-Siegel-Svensson模型
21 0
|
19天前
|
算法 数据处理 C语言
【数据结构与算法】快速排序(详解:快排的Hoare原版,挖坑法和双指针法|避免快排最坏时间复杂度的两种解决方案|小区间优化|非递归的快排)
【数据结构与算法】快速排序(详解:快排的Hoare原版,挖坑法和双指针法|避免快排最坏时间复杂度的两种解决方案|小区间优化|非递归的快排)
|
21天前
|
算法 索引
【算法与数据结构】深入二叉树实现超详解(全源码优化)
【算法与数据结构】深入二叉树实现超详解(全源码优化)