COVID-19大流行病给社会带来的沉重负担,引发了开发治疗或预防战略的竞赛。其中,抗体和疫苗因其高度的特异性、药物间相互作用的概率低以及潜在的长期保护作用而特别具有吸引力。虽然眼前的威胁证明了研究的速度,但治疗策略的实施不能不考虑安全性。疫苗接种或抗体治疗后,有几种潜在的不良事件报告,但最重要的有两种:抗体依赖性增强(ADE)和细胞因子风暴综合征(CSS)。据报道,T细胞的耗竭或耗尽与COVID-19患者的预后恶化有关。这一观察结果表明,疫苗在引起细胞免疫方面具有潜在的作用,可能同时限制了ADE和CSS的风险。新开发疫苗的所有方面都可能影响其有效性和安全性。这项工作中,研究人员基于人工智能和生物信息学方法支持基于表位疫苗的设计。
1
背景
冠状病毒是与普通感冒相关的人类呼吸道病原体。直到21世纪,它们都被医学界所忽视,但是SARS-CoV的出现和随后的传播在2002/2003引起了对该病毒家族的兴趣,并提高了人们对潜在威胁的认识。目前,有四种感染人类的季节性冠状病毒,它们聚集在甲型冠状病毒和乙型冠状病毒属中。此外,还报告了三种人畜共患病毒株-重症急性呼吸综合征冠状病毒(SARS-CoV; 2002-2003),中东呼吸综合征冠状病毒(MERS-CoV; 2012)和SARS-CoV-2(2019)。高致病性物种聚集在两个亚属中SARS-CoVs和MERS-CoVs。
一般而言,病毒感染一种宿主,但某些病毒具有更广泛的特异性或可以跨种间边界,从而导致暴发\流行和大流行。在这种情况下,值得一提的病毒包括埃博拉病毒、登革热病毒、尼帕病毒、狂犬病病毒或亨德拉病毒。但是,这些病毒是众所周知的且经过长期研究的动物病毒,有时仅会进入人群。冠状病毒略有不同,因为在动物中发现了无数种病毒物种和亚种,因此不太可能预测即将出现的冠状病毒的位置、时间和基因型。这些病毒的经典传播途径包括蝙蝠物种向野生或驯养动物的溢出,在该中间宿主中的快速进化以及随后向人类的传播。
进化研究表明,冠状病毒基因组在基因含量和重组方面表现出很高的可塑性。较长的CoV基因组扩大了可用于适应性突变的序列空间,并且病毒用来与靶细胞结合的刺突糖蛋白可以相对轻松地适应,以利用不同物种中细胞受体的同源物。尽管冠状病毒正在迅速发展,但其突变率却低于RNA病毒的预期。大型基因组需要校对机制来维持其功能,而这种活性所需的蛋白质属于1a/1ab蛋白质。
一项最新研究调查了MARS-CoV和SARS-CoV假病毒体外抗体依赖和受体依赖病毒进入背后的分子机制。研究证明,结合到相应刺突蛋白受体结合域区域的MERS-CoV和SARS-CoV中和单克隆抗体(mAb)能够介导病毒进入表达FcR的人细胞,从而证实了冠状病毒介导的可能性ADE。
尽管SARS-CoV和SARS-CoV-2之间存在明显的相似性,但这两者之间仍存在相当大的遗传变异。因此,评估引发针对先前冠状病毒的免疫反应的表位是否可能有效抵抗SARS-CoV-2并非易事。为了将搜索区域扩展到其他表位,可以应用计算预测模型。疫苗肽的选择方法通常基于肽-HLA(pHLA)复合物的预测结合亲和力或由肽的理化性质定义。这些方法仅考虑了有助于表位最终免疫原性过程的有限部分,因此其预测能力受到限制。
使用机器学习模型来预测表位的免疫原性。在包括病毒表位的实验性T细胞免疫原性数据在内的数据上训练模型。研究人员根据来自冠状病毒科的表位的公开可用免疫原性数据验证了模型。还进行了免疫毒性风险的评估以及不同菌株之间表位保守性的分析。
2
材料和方法
2.1 呈报数据
从公开的数据库中提取了一个包含I类HLAs在宿主细胞表面呈现的肽的策划数据集。数据集内每个肽的呈现方式通过质谱实验确认。所有的肽都来源于人类,并且呈现在单抗人类细胞系的表面。还根据人类蛋白质组制备了合成阴性数据。
2.2 免疫原性数据
从IEDB数据库收集的所有肽都是病毒来源的,并在实验性免疫分析中得到了证实。从选定的出版物中提取了类似的数据。
2.3预测模型设计
基于机器学习的方法可以预测:
pHLA出现在宿主细胞表面的可能性;
这种复合物的免疫原性。
pHLA表示模型基于人工神经网络,并经过精选的肽表示数据训练。肽序列和HLA类型均作为单独输入考虑。研究人员使用自举法,并在训练过程中选择80%的阳性示例。然后,将27个此类神经网络的集合结果合在一起。研究人员的模型是泛特异性的,可用于生成任何肽和任何规范的I类HLA的预测。
上述模型也用作训练免疫原性模型的起点。使用从IEDB以及Ogishi和Yotsuyanagi 2019收集的病毒肽免疫原性数据对后者进行了微调。免疫原性模型使用LOGO交叉验证方案和病毒家族定义的组进行验证。最终模型是11个模型的集合-每个LOGO分割一个。通过汇总来自几个家族的病毒的数据来定义另一个组。这种方法提供了根据病毒家族划分的数据,并可以更好地衡量在训练中未发现的病毒家族的性能。此外,它揭示了各种病毒家族在模型性能上的差异。模型的最终预测是通过将两个模型的预测相结合而获得的。
2.4验证方案
为了验证训练过程中未见过的不同病毒家族的ArdImmune Rank模型,应用了LOGO策略。从数据集中排除了与冠状病毒相关的肽,仅用于测试。在每次LOGO迭代时,数据集都被分为训练集和验证集,并对该模型进行了相应的测试。与训练集中高度相似的训练集中的肽被从训练集中去除。使用聚类算法对肽的相似性进行评估,该算法将它们的序列分为共享共同根的肽组。
每个病毒家族的整理数据库中具有确认免疫原性的pHLA复合物的数量。
所选模型在冠状病毒科数据集上的预测性能。
2.5 SARS-CoV-2数据分析
2.5.1 HLA等位基因的选择
根据HLA类型在美国和欧洲的发生频率进行选择。
2.5.2毒性/耐受性评估
为了评估人类蛋白质组中给定的pHLA与自身表位交叉反应或致耐受性的风险,实施了一种评估潜在毒性/耐受性的程序。
2.5.3肽段的选择
根据以下程序生成由SARS-CoV-2肽组成的数据集:
(1)NCBI数据库;
(2)从每种蛋白质中,选择了所有可能的长度为8-11个氨基酸的肽。
2.5.4 SARS-CoV-2基因组多样性的估计
利用从GISAID数据库和GenBank获得的8 639条完整的基因组序列,对SARS-CoV-2基因组序列的保护性进行分析。
2.6外部比较数据集
为了突出研究人员的方法与其他方法的异同,他们将模型的得分与相对于所选研究列表中报告的相同pHLA的得分进行比较。参考蛋白质组中缺失的肽(“ QSADAQSFLNR”)被去除。仅考虑了8至11个氨基酸之间的肽。还从数据集中删除了ORF1a / ab多蛋白裂解位点产生的肽。
3
结果
3.1模型性能
尽管根据所测试的组观察到ROC AUC分数有显着变化,但每种方法的性能与每个组内的观察次数无关。肺炎科家族在数据集中可能是一个离群值,因为该家族的所有模型的预测性能与其他家族所观察到的模型均存在显着差异。尽管某些群体在pHLA免疫原性和pHLA结合亲和力预测之间显示出明显的相关性,这种趋势在所有组中均未得到确认。方法的性能与结合亲和力和配体似然性预测值所获得的性能相当。
所选模型的预测性能,在训练数据集中各个病毒组之间的平均值。
然后将该模型用于预测SARS-CoV-2蛋白质组中肽段的免疫原性。分别根据“选择肽”和“选择HLA等位基因”部分中描述的程序选择考虑进行分析的目标肽和HLA类型。在结构蛋白和非结构蛋白中均观察到大量具有高分的肽,包括不同的HLA等位基因。结构表位主要由Spike蛋白决定,而非结构表位主要来源于ORF1a / ORF1ab编码的多蛋白。预测与多种HLA相关的肽组如图所示, 这些表位既来自结构抗原又来自非结构抗原
3.2 SARS-CoV-2基因组多样性分析
为了排除源自遗传高度可变区域的肽,计算了SARS-CoV-2基因组内每个氨基酸的突变频率。这些肽所源自的基因很可能发生突变,因此随着时间的推移,包含这些肽可能会降低疫苗效力。通过分析从不同的SARS-CoV-2分离物中获得的8,639个完整基因组序列,然后将其翻译成蛋白质序列,计算出每个氨基酸位置的突变频率。对于SARS-CoV-2蛋白质组中的每种肽,计算了最大突变频率,并且得到的分数≥0.05的肽被认为是高度可变,因此不应将其视为疫苗成分。观察到13个氨基酸位置在至少5%的所选序列中含有突变。其中,在超过10%的选定序列中多达9个氨基酸位置发生了突变,而在一半的样本中(超过50%)有2个位置发生了突变。
3.3毒性/耐受性结果
对SARS-CoV-2蛋白质组中的每种肽进行了研究,以确定与参考人蛋白质组中存在的肽缺乏相似性。当以疫苗形式给药时,与宿主健康组织呈递的肽高度相似的表位可能触发有害的免疫自反应或被免疫系统所耐受。在两种情况下,都应从疫苗组合物中消除这些肽。
4
讨论
由于有生存力的宿主需要对冠状病毒施加的高选择压力以及它们的高遗传变异性,促进了它们的快速进化和逃生突变体的迅速产生。尽管业界付出了巨大的努力,但疫苗设计、临床试验和生产仍需要至少几个月,最可能是几年。在过去的几十年中,进行了许多旨在开发保护人类和动物免受冠状病毒感染的疫苗的研究,这为最近在COVID-19治疗方面的科学进步奠定了基础。但是,与疫苗的批准和商业化相关的一个局限性在于,疫苗的需求仅限于爆发期,其市场价值与受影响人数成正比。另外,大多数冠状病毒生物疗法被设计为利用针对S蛋白的中和抗体。诸如与ADE和CSS事件相关的安全性问题,使得疫苗和基于抗体的疗法的开发更加成问题。结合旨在直接中和病毒的体液免疫反应的刺激,靶向清除感染细胞是针对病毒的免疫反应的关键要素。
这项研究的目的是鉴定SARS-CoV-2表位,以开发专注于T细胞活化的疫苗组合物。研究人员研究了预先确定病毒表位是否可以诱导有效T细胞应答的几个方面,包括MHC-1肽呈递和免疫原性潜力,SARS-CoV-2基因组变异性以及所考虑的肽可能的毒性/免疫耐受性。
与依靠pHLA结合和呈递事件或为单个pHLA结构相互作用建模有关该主题的大多数工作相反,本文应用的模型设计为同时利用有关其公认的HLA和肽的呈递倾向的信息。从类似的实验数据推断出这种pHLA具有免疫原性的可能性。该方法具有比广泛使用的结合亲和力和PHLA呈现预测更高的性能。
通过应用研究人员的方法,在SARS-CoV-2蛋白质组中发现了相当数量的高分T细胞表位,包括结构蛋白和NSP。选定的大多数表位在不同的SARS-CoV-2分离株中均保守。由于其显着的可变性,仅排除了16个表位。来自NSP表位的可用性允许设计专用于T细胞应答的疫苗组分,并且可以与专注于B细胞应答的其他组分进一步整合。采用这种区分的策略可能有助于降低产生非中和抗体的风险,这构成了开发SARS疫苗制剂过程中值得关注的原因。此外,在病毒感染的早期,非结构蛋白的表达明显高于结构蛋白的表达。针对源自非结构蛋白的表位的免疫应答的靶向刺激可用于在疾病的早期诱导免疫应答。发现一些高度分级的肽跨多个HLA呈递,可用于增加人群覆盖率,同时减少疫苗制剂中需要包含的表位数量。对于依赖容量有限的交付系统的解决方案,这方面可能特别重要。
引发潜在有害的,有时甚至是致命的交叉反应的风险是疫苗设计中必须谨慎解决的问题。另一方面,与宿主蛋白质共享的抗原决定簇也可以被宿主的免疫系统所耐受,不适用于疫苗。考虑到这一方面的重要性,在这项研究中对潜在毒性和耐受性进行了分析,从而鉴定了与人类蛋白质组中的蛋白质具有一定程度相似性的4个高度排名的表位。出于安全和功效的原因,去除了这些肽。
5
结论
研究人员以针对其(预测的)免疫原性和HLA人群覆盖率优化的表位列表的形式,建议了SARS-CoV-2疫苗组合物。研究人员的动机是细胞免疫应答是有效SARS-CoV-2疫苗的基础,它还减轻了ADE和CSS的风险,这些风险通常与依赖体液免疫应答激活的方式有关。研究人员的方法是性能优于冠状数据,迄今为止用于设计针对SARS-CoV-2的基于表位的疫苗的其他方法。研究人员的方法不同于其他现有方法,并且显示出与实验数据更好的一致性。与仅基于结合亲和力预测的方法相比,这包括与测得的pHLA稳定性更高的相关性。研究人员方法的局限性与基于预测各种pHLA特性的其他计算机模拟方法中发现的局限性相同。期望随着实验验证数据的增加以及人工智能领域算法的进一步增强,此类模型的准确性和疫苗设计的有效性将继续提高。