生命科学和智能计算峰会 -AI + 分子模拟,赋能药物发现新源头(一)
嘉宾信息:
张林峰 深势科技创始人&首席科学家 北京科学智能研究院研究员
AI + 分子模拟,赋能药物发现新源头(一)
内容介绍
一、关于深势科技
二、 传统分子模拟面临着为数灾难瓶颈。
三、 AI解决尺度工业设计问题
四、 AI药物计算设计平台
五、 Uni-Fold蛋白单体/多体结构预测
六、 Uni-Fold+Rid赋能无结构靶标结构预测与解析
七、Rid辅助寻找别构位点
八、Uni-EM冷冻电镜结构解析
九、Uni-Docking
十、All in One:面向未来的药物计算设计平台
十一、 上云的诉求和对算力的需求
十二、 计算巢+E-HPC
很高兴跟大家分享这样的一个话题,AI + 分子模拟,赋能药物发现新源头,也非常高兴今天来到阿里云,特别是老师的邀请,做这样样的几个介绍,其实想起来,跟阿里云结缘的一个过程,大约是在一九年底的时候,在那时候,在这个结合ai和科学计算有效的这个加强这个分子模拟的这一个效率的一系列个方案上取了很多突破,然后在这样的一个突破的基础之上,其实我们会发现,下一步想要进一步的这个大规模的突破,需要的是一个微观模拟,我们需要大量的量子数据,基于这样的数据,我们可能才能发展更为通用,更为大规模的模型来推动领域的一步的进展,也是在这样的需求之下,我们想要有一个系统性的,经费的支持来去帮助我们自动化的,规模化的产生数据。
在这样的一个需求之下,我们发现,其实当时并没有自觉的意识到这点,但是发现实际的困难是我们很难在一个学校或者的平台上去灵活的一会儿用一大堆cpu,所以即便得到了一个科研会的支持,也很难真正有效的把我们的数据生产出来,于是不得不考虑云计算,而在那时候,云上的这个的价格还是很昂贵的,我也是接受不起的,甚至说要比我们的资源更贵,然后慢慢的会发现有一系列的高性能的可能性,比如说用这种来去做我们的云计算,然后同时也发现这个ai和科技计算的一个结合,使得我们很多的计算取得了这样的高并大量的资源做一个任务,这样的需求,以高性的需求,我们的需求特点很多,典型的业务是有非常大的互补型,所以这使得我们不自觉的用到了很多的这种低成本的算力,并且逐渐的在跟阿里云互动过程中,把我们的一系列的解决方案沉淀下的计算解决方案的底层基础,所以大家的过程逐渐的深入,我们发现了这样一个贯穿整个科学研究的方方面面,以及我发现这个云的计算其实是一个崭新的场景,并且在二零年的时候,我们在年底得到了哥伦贝尔奖,是这个将我们科学计算的规模推向了一个新的机制。
在这样一系列的进展之下,也很高兴看到我们在进步的这个时间当中,把很多的ai带给我们的计算的能力,逐步的深入到个行业,同时,今天看到了我们很多的这种过去的探索,沉淀成了这个阿里云的新的产品体系,还是非常的有感触,所以这部分其实是因为我前面看到有另外一位会讲,所以我没有带我出来怎样提及,但是,恰好是有所调整,所以常常想先跟大家分享这一个过程。
一、关于深势科技
这样一个过程的驱动之下,我发现这个ai带给我们的一个系统能力,不只是处理大规模的常见的生活的数据,其实还有很自然的处理科学的数据,但其实也不只是处理科学的数据,我们本质的能力其实是表示这种高复杂的函数,这样的一个能力,能够让我们有可能更加好的利用好科学规律,利用好一系列的这量子学方程方程,使得我们能够高效,更准确的求解,让我们在药物计过程中,也有能像我们在做飞机大巴车的过程一样,可以先进行计算模拟,在计算机仿真的这样一个过程中,确保没问题,再去真正的进行实验和进行实体的设计,所以在这个过程中其实是ai带给我们这计算模拟的一个新的可能性,而对于这样的一个可能性,结合ai带给我们的数据驱动的可能性,他们的结合之下,让我们确定这其实是一系列的新的技术的突破,将为我们微观世界的这样的工业化的设计和生产带来新的突破。
而这样的一个底层的范式,驱动一系列的微观世界,计算设计到新工具,将为我们在药物研发,材料研发很多行业的方面面带来核心的不同,这是我们致力于解决的难题。
二、传统分子模拟面临着为数灾难瓶颈
接来是一些介绍,我们面临到今天的计算生物这样的一些问题,以及材料设计,化工设计,比如说像催化剂这样的设计,其实在这样的一些设计的场景当中,我们往往需要们往往要去用这个计算解决问题的是很困难,困难的原因在于,这这些问题的本质,是我们需要有效的去描述微观之间的复杂度作用,然后详细描述的时候,最终对应的其实解一些高复杂的程,也就是方程,其实我们其实很早就知道这个方程长什么样子了,在接近100多年前,我们已经有了这样的一个方程,但是我们一直以来都缺乏有效的这样的一个计算的工具和算法工具能够让我们来克服所谓的这灾难,其实就是一个方程所需要的计算复杂度。
如果解的不够准的话,指数依赖于我们的输入的个数,而当我们想要考虑一个蛋白的体系,蛋白个原则的坐标和则类型,这样的一个输入可能就是几十万,几百万。
而当计算的这个算需求如果是指出依赖于这样的的时候,看到这是完全不可解的的问题,我们真正的利用计算去做这个进步的计算的时候,要引入大量的内容。
过程使得我们仿真的度难以达到我们现实的需求,这其实是我们长期来面临的一最重要的难题,而对这样的一个难题,带给我们的一个工具其实是有效的,表示原子相互作用,从而能够让我们这个克服这里的困难,让我们更高效,更准确的去进行模拟,能够真正的变得跟现实相关,真正的能够直到我们的实验,这是带我们的一个对于计算模拟,但是从概念上可能是一个两种类型的一个区别,就是把这个对应的一些行业的发展积累下来的海量的数据进行直接的模型训练,并期待他能够解决实际问题,但这里面对应的一个问题就在于数据稀缺,怎么办?
或者说其实这里面的数据对于工业这个很多行业的发展的数据往往具有一些不利于ai使用的一些特点,比如说数据样本量非常的少,比如说数据的非常的杂,以及上这些数据里面的信息给我们的目标之间的依赖关系非常的复杂,而并不只是说一个就能够给我们一个好的指示,在这样的情况下,我们其实远不只是对科学,更加深层次的一个可能性是从我们过去做的事情,从行业发展的过程中来看,这个归纳相应的科学原理。
三、AI解决尺度工业设计问题
科学原理是一个最极致的方式,表述为我们熟知的一系列的物理定律,一系列的科学方程,然后ai能够带给我的可能性,其实是学习一些科学原理,或者说物理模型,从而有效的求解这样实际问题,这样就能够让我们克服很多这个数据稀缺所来的问题,问题可能在生物医药这样的个行业非常的普遍。
四、AI药物计算设计平台
我们会发现越有价值的体系,对应稀缺程度是越高的,而同时怎样克服这一个问题,其实我们会发现计算模拟能够带给我们很多新的可能性,而ai就是让这的计算变得更快,建立这样一个带我学应用,尤其是药物设计方面,我们也逐步的发展一系列的新的工具,就在最开始这个解决方案推出的时候,其实是一个单点的突破,但是这里面在面向药物研发的需求的时候,整体的体会还是非常的深。
第一,从药物研发的实际需求出发,需要的并不是一两个核心的计算工具,或者一两个重磅的功能,而是一个体系,一个解决方案的系并不是一个地方的模型,不一个地方用一个准确的模型就能够把所有发相关的题解决掉,而在各个环节上,我们可能解决问题的程度更多一点,进一步的,我们的流程就能够被改进一点。
同时,通过行业不断的迭代,我们才能够真正形成一个面向行业落地的一个需求的解决方案。所以,这样的一个工具不是几个接下来介绍的,也包括了一系列的这种在实际流程,一系列的磨合,另外一个非常深刻的感触是,无论我们提到的基础设施,还是我们的算法,还是我们行业的互动实,发展是非常非常快的。过去的这个两三年时间里面,阿里云就经历了非常快速的发展,以及非常明显的一个迭代,我们所面临的一个可能性和解决方案其实是在重复的升级的同时,算法层面上,就是每一个数据复级的算地方都引来了无数人的关注,所以大家在这个不同算法上有多强,这些方面永远是这样的一个原因。
我们也将自己的注意力从这个药物设计的需求出发来确保我们在这个类似于语的这样理念之下,能够保持持续的一个迭代,一个敏捷的一个研发。研发的这个项目的提升,这样的一个平台也是一个整体的时间的积累。
五、Uni-Fold蛋白单体/多体结构预测
接来是介绍几个具体的例子,第一个是关于蛋白结构结构预测,大家非常熟知的这样的一场景。其从年前带来的可能领域的巨大的突破开始,其实我们在这个领域ai这件事情上就了一新的高潮,而目前,其实我们会发现这个对于我们物设计的一系列问题来说,大多数的数据库里面足够,确实问题已经解决了,比如说一些比较丰富的的问题,对于很多我们较少的,比如说很多的一些具体问题,比如说一些相的需求,以及一些实验的进展体系。
数据的丰富程度还没那么高,而数据丰富程度没那么高的体系,自然的这个模型的效果也就未必好。在这样需求之下,我们发现,一方面,需要这样一些解决,比如的模拟相结合,不只是我们重现了整个蛋结构预测的产品化的过程,取得了可能表现更好的成果,更重的是我们在不光是最开始的这个相关的训练,在这个聚合物以及很多复杂情况下所需要的训练的这个代码,以及需要的数据和相关相应的这个模型都有了这个我们的源社区,因为在这样的一个能力基础之上,我们才可能跟整个领域共来这个进步,推动这个发展。