生命科学和智能计算峰会-AI制药工业落地的痛点与前进方向(二)
嘉宾信息
潘麓蓉 圆壹智慧创始人兼CEO
AI制药工业落地的痛点与前进方向(二)
三、Computational Drug Discovery Approaches
实际上你把这么多庞大的学科体系,怎么样高效的融合,是一个最大的一个挑战,这边的话可能很多的讲者已经介绍过了,里面基本上就涵盖了所有的计算的从q和d和的方法,它也不完全是,实际上里面也有一些参数去进行校准,可以说是完全只是取决于你的输入的这分子的成分,实际上们是在不同的经步进行计算的。但这里面大家是需要知道一个问题,精度和准度,它是完全两个不同的统计学参数,不需要精度最高,但是你需要准确,这对于你的下一步的判断才是更更完整的,过去这些方法论都有一些局限,它算的是电子精度电子结构,但是,基本上只能在材料和一些小型的这种溶业体系里面进行计算。它基本上就你是需要做一些这种更多的这种模拟,就有了这种方法。再到分子动力学的方法,它相当于借用一些经典力学和经验参数,模拟量子力学,就可以把尺度拉到一个单蛋白的程度。但是到以后大家就卡住了,基本上你蛋白以后你要算蛋白,买代码,相互作用,再算更高体系,比如说一个细胞里面有基本上4200万个蛋白,基本上你要用md算的话,全世界的计算机加起来都不可能计算得了。会有一个不可跨越的鸿沟。人体要算生理学的结果。如果你要从原子它是算42个命令成以30个,你才能够真的是从分子层面映射到体内,基本上分子动力学之后,基于这种原子为单位的,这种对生物学的模拟就断了,基本上我不可能去模拟生物系统,这时候就有了信息学介入,信息学的好处说我是基于一种信号读取,但信号它可以是个宏观信号,一层是分子本质的信号,它如果是蛋白质,也是个序列,它是确定的,没有任何的噪音的,你把分子放到某个体系里面,你可以观测到一个电信号,一个荧光信号,任何一个这种它都是单一层面,但是你是放在宏观体系里面,得到的一个信号,它实际上在过程当中就采取的是一个信息学的手段,就有了过去的40年前的化学信息学和生物信息学这两个学科的发展,过去它都是用一些简单的同学统计学的方法,从微观到宏观的做映射,以及之后的学科,把人类的整个所有物种的dna的解析之后,有了层面的一些数据,里面也可以看到计算的复杂度,就美化的时候把计算复杂度给去去掉了。
如果你到统计学或者机器学习的一个预测的话,它实际上接近于线性关系,相当于把你的计算复杂度又拉回了一个大概16到17次方的区间。
为什么到现在来说深度学习会大行其道,也是因为在尺度上,没办法再计算更大的范围,另外一个问题它是动态的,动态体现在哪里?dna是可以算是静态的,基本上是个序列就不会有太多变化,可能会有一些不会太大变化。但是一个人每一天早早饭吃了什么,晚饭吃了什么,生病了,还有没有生命,都是变化的,整个的生命的过程模拟呢?基本上能达到的时间节点,基本上从单元来说大概微级,现在要到秒级,基本不太可能,这一个方面没反应的话,也差不多在在毫秒级的一个过程,用过去的方法,你也不可能真的去进行一个过程模拟,信息学在过当中非常关键。既然你不能过程模拟,就只能做端到端到黑盒子的模拟。
四、Computational Drug Discovery Approaches
这行就是人们不断的进行物理工程,减少你的,我就可以从最小的一个一个药分子,一直算到一个体系观,从这种不同的理论基础,从无到有的话,相当于你都是可以用物理层面去存存模拟的,但实际上,就相当于每一个尺度,你要重新计算一个时间条件,重新计一个单独的工具和一个物理的一个样式,实际上它是一种比较笨拙的方法,现在能够找到最好是精度是可调的,而且它是用一把剑来解决所有问题。实际上,深度学习第一个尝试,就相当于,只要你用每个尺度的数据足够多,你都可以用一个黑盒子来预测每个尺度的问题,就不需要考虑它底层的物理原理了,也是在过去的实践当中被证明,实际上非常有效的,但是依然不是最的最好的。如果可以找到一个数学公式,去模拟把握是不依赖数据,是最好的。基本上从2015年开始,我就研究问题,但基本上展示这些方法论都是已经比较成熟的。
五、Computational Complexity Conventional Physics Based Modeling Technology vs. AI Deep Learning
具体的数学我就不多介绍了,基本上也从一个偏方程到一个线性的,一个经典物理方程的线性加值,这两个理论的基础。计算的时间的话,也基本上说你传统的这种小分子,基本上一个gpu差不多算几小时,过几天的时间就决你什么任务。基本上在一个gpu上精算的话,要一天,要大算基本上是就说它可以拓展非常大的化学空间和可计算的维度。
六、Computational Cost Studies AliCloud
过去在阿里上测试的几个算例就一个是q m,算一个,几个,它基本上是100多个,基本上就算一个一个简单的能量,这预测它的一个准确性的一个稳定性的一个问题。基本上也要几分钟到十几分钟,大概半个小时的时间。如果是按d的话,预测一个大型的一个膜蛋白,基本上它的要算个几百几个小时吧,可以算个每一个纳秒的,要算到微秒或者是毫秒级,就是13次方或6次方,这么多的时间才能算完,但做这种练,也提到训练几个小时。预测的话,基本上也就可以达到一个非常快了。一小时可以有百万级的。行业就勃的发展,基本上也已经用在了,蛋白质的结构预测,蛋白质的功能预测。基因基编辑。
七、How can machine learning and other AI technology help Drug Discovery
系统生物学这种生理性的一些数据,方法论也非常简单,实际这种模型刚刚也说已经非常迅速的在开展的课程,最终的瓶颈还是在于你对生物,生物的大数据的理解。
我给大家讲一下整个发展历史,基本上从给id就可以4个阶段,基本上都是有各种各样的,比较微方案的的一些这种数据驱动办法来进行。
我过去的一个理想,包括之前的工作原因都是希望能够把整个流程里面所有的数据,意义全部打通。有一个最高效的一个方法,里面我给大家讲讲,从学科层面,孩子的突破的地方,刚才讲的都是一些已经大家整个学界都知道的一个现状,首先怎么提方案,里面的这些差距,它实际上是行业的,专家突破不了,但是ai可以突破的,我觉得是比较有意义的,这就想要利用ai的一点并不只是让做得更快,而是让做得更好,而且让它做人做不了的事情,ai能超越人的两个方面,第一个确实不需要休息,而且是可以1000个ai同时做一件事情,一定比两三个专家做得好,它是可以从能力上突破。
第二,对于世界的认知是多维的,人只能在三个维度加上时间的维度,4个维度来认知世界。
大部分的人都在对结构比较,结构就可解释,但实际上ai它是可以在几千个维度或者是一维零的行为,人无法认知的维度下认识世界,取得一个更好的答案,有个很有意思的问题,二维的认知跟的一维的认知是完全相反的,它实际上是一个很重要的。