作者:柯国霖,深势科技机器学习负责人
一、 蛋白质测序背景
在药物设计中,最关键的两个对象是蛋白质和小分子其,主要特征是小分子药物。比如口服药物进入体内之后,跟身体内某些蛋白的靶点结合,从而改变蛋白的某些功能,实现药物效果。综上所述,靶点药物最关键的是蛋白结构,所以蛋白质结构预测是非常关键的问题。
对于小分子来说,小分子药物是否有毒?好不好代谢?好不好溶解?能否跟靶点结合?这些问题都是非常有挑战性的。
蛋白结构预测的本质是通过蛋白的一级结构,即氨基酸序列,预测蛋白质的三级结构,即安基酸序列上所有原子在空间上的坐标。
目前已知的蛋白序列高达几十亿,但解除蛋白质结构非常消耗实验资源,已知的蛋白结构只有十几万。
常见的蛋白质有两种,即单链蛋白和多链蛋白。最近,很多科研人员将工作集中在单链结构预测上,这些链来自于多聚体组合,利用MSA和自振数据,被DeepMind和AlphaFold很好地解决了。
在自然界中,蛋白质是由多条链组成的集合体,PDB中超过50%的蛋白质是多聚体。所以多聚体的结构预测更具挑战性,但也更重要,但多聚体获得的关注较少。
接下来,讲一讲AlphaFold。AlphaFold是DeepMind开源的人工智能系统,借助AlphaFold可以更加准确的预测蛋白质的形状。目前,主要应用于医疗保健和生命科学领域,有可能加速药物的研究与发现。
虽然AlphaFold有开源代码,但只开放了推理代码,训练代码和训练数据其实没有开放。除此之外,AlphaFold的资源的消耗非常大,给科研人员带来了很多新的困难。