「百图生科」再添虎将,国际机器学习大牛宋乐加入李彦宏生物计算军团

简介: 近日,百图生科首席 AI 科学家宋乐接受了机器之心专访。作为世界知名机器学习专家,他领导着百图生科 AI 算法团队,为独具特色的生物计算引擎研发提供技术动力。他眼中的生物计算未来,在于「高通量干湿实验闭环」。


继 ICML 2021 时间检验论文奖得主 Max Welling 宣布即将加入微软主攻分子模拟后
,国际机器学习专家宋乐博士也于近日被任命为百图生科首席 AI 科学家。

不出一个月,两位机器学习大牛相继「下海」,投身 AI+生物计算,为人工智能在生化和制药领域掀起的热浪再添波澜。

宋乐博士是著名的机器学习和图深度学习专家,曾任美国佐治亚理工学院计算机学院终身教授、机器学习中心副主任,阿联酋 MBZUAI 机器学习系主任,蚂蚁金服深度学习团队负责人(P10)、阿里巴巴达摩院研究员,国际机器学习大会董事会成员,具有丰富的 AI 算法和工程经验。

微信图片_20211206104225.jpg

宋乐博士与同事合著的论文 Syntax-Directed Variational Autoencoder for Molecule Generation 获得 NIPS2017 研讨会「分子和材料机器学习」最佳论文奖,他在接受佐治亚理工学院采访时表示,相关工作的计算机程序已被深度学习顶会 ICLR 2018 接收。图片来源:cc.gatech.edu


自 2008 年起,宋乐博士在 CMU 从事生物计算相关的研究,利用机器学习技术对靶点挖掘、药物设计取得了一系列突破性成果,获得 NeurIPS、ICML、AISTATS 等主要机器学习会议的最佳论文奖。社区服务方面,他曾担任 NeurIPS、ICML、ICLR、AAAI、IJCAI 等 AI 顶会的领域主席,并将出任 ICML 2022 的大会主席,他还是同行评议期刊 JMLR、IEEE TPAMI 的副主编。

人工智能和机器学习已经证明能在药物发现等过程中起到至关重要的加速作用。随着新冠肺炎疫情在世界范围内的流行,用尽可能短的时间将安全、可靠的药物和疫苗推向市场,比以往任何时候都更加重要。

7 月 30 日,成立不到一年的百图生科(BioMap)宣布完成上亿美元的 A 轮融资,这家由李彦宏牵头发起并亲任董事长、原百度风投 CEO 刘维作为联合创始人兼 CEO 掌舵的「中国首家生物计算驱动的生命科学平台公司」向外界放出雄心:

「致力于通过长周期、大规模的投入,将先进AI技术与前沿生物技术融合创新,打造新型多组学检测分析、高通量实验模拟、智能化分子发现引擎,加速新型药物和诊断产品的研发,造福人类健康。」

宋乐博士表示,他选择加入百图生科,除了从技术上说,AI+生物计算已经到达了一个爆发点,可以切实去做一些事情,更主要是对「干湿实验闭环的模式构建非常有契合度」。

他在接受机器之心专访说:「以前在学校做AI模型预测,很难有高通量多轮湿实验的闭环验证和数据补充,很难让 AI 模型发挥关键价值。百图生科规划的干湿一体化智能实验平台,基本上国内没有其他 AI 制药公司有,所以非常吸引人。」

「干湿实验闭环后,如何用 AI 的方式来更好地规划实验,预测一些更加有可能成功的实验,减少实验次数,一两年就会看到一些成果。」


把实验室仪器连入计算系统构建干湿闭环模式


问:您为什么选择加入百图生科?

我是从 2008 年开始做AI在生物信息处理这方面的工作,当时的一个挑战是数据不多,除了基因序列数据之外,其他的数据比较少,很难用 AI 模型做出预测效果会比实验验证的更好。

现在情况不同了。首先,生物数据量越来越大,比如说蛋白质的序列数据已经有上亿条,现在也能够对单细胞做基因表达的测量。第二是计算能力的提升。第三是 AI 算法能力的积累,AI 和制药领域出现了更多新的模型和方法,能够产生更准确的预测。

结合以上三点条件,至少从技术的角度来说,是到了一个点,AI 可以帮助制药做得更好。未来,可测量的生物特征数量会越来越多,测量数据的成本也会不断下降,生物数据会越来越多,相信在未来 10 年里「AI+生物计算」都会是一个非常好的方向。

选择百图生科,除了计算资源的实力外,更主要是对于干湿实验闭环的模式构建,我们非常有契合度。基本上国内没有其他AI制药公司有这个模式,所以非常吸引人。

问:能具体介绍「干湿实验闭环」的模式吗?

以前在学校做 AI 模型预测,很难有高通量多轮湿实验的闭环验证和数据补充,很难让 AI 模型发挥关键价值。AI 模型主要缺陷在于:它是一个模型,本身有一些参数,没有通过足够实验数据校正和检验,跟现实有差距,不能取代真实数据的验证。只有把 AI 模型和湿实验有机结合,才能真正解决这个问题。

现在我们平台设计时,同时会考虑需要用什么样的实验手段,例如高通量细胞视觉平台,单细胞测序平台,或高通量抗体和蛋白质亲和力实验平台,分别对应涉及到要整合乃至自主研发什么先进仪器。

平台将通过主动学习或强化学习的方式,通过 AI 模型规划,有选择性地做实验,形成「干湿实验闭环验证」,未来通过 AI 大脑控制实现全自动实验室。这是这个行业未来的方向。

我们的愿景是,把实验室仪器都连入一个操作系统,未来实验都是 AI 模型在后面规划,实验员能够腾出手来做更高层次、更有趣、更有创造力的事情。

问:构建这种干湿一体化实验平台有什么门槛?

首先是人才,需要有一个非常交叉的团队。既有能够做实验、对生物信息、对制药、对前沿生物技术有理解的人才,也要有经验丰富的系统工程人才,以及 AI 算法人才,因此我们招人也是朝这个方向去招的。

其次是强大的硬件支持,包括实验设备以及计算资源,以及把这两种资源整合在一起的能力。如果一开始没有将湿实验的硬件以及计算资源规划在一起,后期是很难再调整的。如果没有足够多的计算资源支持,一些大的模型,比如蛋白质的预训练,三维结构预测模型就比较难应用起来。

微信图片_20211206104241.jpg

用模型做预测来进行实验规划,需要对数据的拟合、调参,涉及到云计算等计算资源支持,而百图生科拥有百度强大的算力支持。图片来源:capacitymedia



生物人才+算法人才融合侧重大分子药物研发


问:百图生科希望用 AI 解决药物研发的什么问题,侧重哪些环节?

药物研发过程一般分为三个阶段,第一阶段主要是发现一些潜在靶点和药物,然后通过一些比较可控的细胞实验或是其他生化实验,去发现有效的方向。第二阶段是更进一步的动物等验证实验。第三期是人类的临床实验。百图生科会以第一阶段为核心发力点,发现候选靶点和药物,并进行类器官等先进细胞验证。

这个过程从计算机的角度来说,实际上是一个组合优化的问题。传统药物研发的难点在于,搜索空间太大,从计算角度、实验的角度都比较难对整个空间进行筛选。人工智能在药物发现方面的主要价值在于,怎样根据历史或者实验数据,构建一个 AI 模型,能够很快地在巨大的空间里把最有可能成药、最有效的药物空间缩小,比如从 10 的 60 次方缩短小到 10 的 5 次方,之后就有可能用一些更加精细的计算方式或实验手段去验证这些药物的性能。

生物制药包含小分子药物和大分子药物,现在国内外主要聚焦于 AI 在小分子制药方面的应用,我们侧重于大分子药物研发。具体说,首先是利用人工智能进行靶点发现,主要是基于知识图谱,比如图神经网络去整合知识图谱信息,以及自有多组学实验数据、分子影像数据去预测靶点。在发现靶点之后,利用 AI 技术设计抗体药物,比如对蛋白质序列做预训练模型,针对一些靶点去设计一些蛋白质的序列和抗体的序列,做到更好的亲和力,更加稳定,对靶点起到更好的作用。最后,完成湿实验闭环验证。

问:能否透露百图生科目前的药物探索方向,有哪些已经在落地的项目?

近期 AlphaFold 2 预测蛋白质空间结构的成果引发了广泛的关注,实际上百图生科也在利用自有抗体亲和力预测、结构预测等算法开展独特的药物设计项目。例如研究胃癌、食道癌等亚洲人群高发的肿瘤疾病,进行靶点发现和抗体药物设计,现在还处于早期阶段,但实际上算法已经迭代多次了,目前靶点发现的算法预测准确度相较现有最好的文献方法已经有了 10% 以上的提升,进一步还会进行湿实验的验证。

日前,百图生科投资 10 亿元设立的「免疫图谱卓越计划」首批项目招募正式启动,我们计划联合前沿的生物技术专家、药物开发专家和临床专业团队,打造一个国际领先的免疫图谱,为更精准地探寻癌症、自免、纤维化、衰老等疾病的复杂免疫规律,更高效率的靶点挖掘和药物设计提供可能。目前已收到来自中科院、协和、北大、清华、复旦等系统的近百个临床和研究团队的申报。

微信图片_20211206104431.jpg

微信图片_20211206104246.jpg

2021 年 5 月,百图生科宣布出资 10 亿元设立「免疫图谱卓越计划」,并与 30 余家业内领先技术企业签订战略合作协议,基于百图生科生物计算核心引擎,共同为免疫图谱绘制提供技术能力支持。来源:百图生科


问:主流药企也在使用人工智能技术,与百图生科的 AI 驱动制药有何差异?

首先,主流药企也有生信、统计、数据分析的人员,但是湿实验团队和 AI 团队是分开的,两者的工作相对独立,后期通过交流再各自调整方向。百图生科希望两者能够形成一个闭环系统,把 AI 模型和实验平台统一规划,协同工作,一起把药物发现向前推进。
这是一个新兴的行业,没有一个成熟的解决方案可以直接套用,具有湿实验和药物发现知识的人对 AI 了解少,具有 AI 背景的人反之亦然,因此需要有对AI比较了解,而且也愿意去深入理解生物问题的人,才能核实模型,利用好这些数据去解决这里面涉及到的问题。

以我们现有的两个最小可行性产品为例——靶点发现和药物设计,我们会动态地将生物和AI算法人才,组合在一起去推进某一个管线或产品的研发。在这个过程中,一方面生物人员可以通过和算法人员的合作,更好地判断现有算法能够提供什么;算法人员可以从生物人员处了解到基于现有问题,如何去适配或者创造一个新的模型,从而更好解决问题。我认为这是把生物人才、算法人才放在一起制药的一个优势。

其次,主流药企研发以人的假设和已有实验能力为主导,AI 比较偏辅助型工具,所以能探索的潜在的靶点空间或者制药空间就会受到已有研发积累的较大限制。因为人可以考虑的方面,以及现在能够分析的维度复杂度,与今天快速增长的高维生物数据比起来实际上非常有限。用人工智能方法就可以把更加复杂的数据综合考虑,能够看到更高维度的信息。

基于此,百图生科也希望能够发挥 AI 模型和计算资源优势,结合自产的实验数据和医学、制药等的专业领域知识,发现新的药物靶点。在与药企合作层面,也可以结合制药企业未被充分挖掘的某些专业数据,发现数据之间的更多关联,从而联合进行靶点发现和管线开发,成为传统药企非常有力的合作伙伴。未来,我们希望利用 AI 挖掘更多药物信息,也包括通过开放自有免疫图谱查询,为这方面的专家、生态企业提供更多有价值的工具。

相关文章
|
6月前
|
人工智能 分布式计算 算法框架/工具
揭开阿里巴巴PAI的神秘面纱:引领人工智能计算的新篇章
揭开阿里巴巴PAI的神秘面纱:引领人工智能计算的新篇章 随着人工智能技术的飞速发展,越来越多的企业开始关注并投入到AI的研究和应用中。阿里巴巴作为全球领先的科技公司,也在AI领域做出了卓越的贡献。今天,就让我们一起来揭开阿里巴巴PAI的神秘面纱,了解这个强大的AI平台如何引领人工智能计算的新篇章。 PAI,全称阿里巴巴公共AI平台,是一个集数据准备、模型开发与训练、模型部署于一体的综合性AI平台。PAI的业务架构分为五层,从基础设施层到业务层,涵盖了AI计算的全过程。
465 2
|
1月前
|
机器学习/深度学习 程序员
【机器学习】朴素贝叶斯原理------迅速了解常见概率的计算
【机器学习】朴素贝叶斯原理------迅速了解常见概率的计算
|
5月前
|
机器学习/深度学习 调度 云计算
大规模机器学习的计算资源管理
【6月更文挑战第3天】在机器学习中,计算资源是关键所在,相当于驱动模型运行的“燃料”。有效管理计算资源涉及了解硬件性能、合理分配资源及采用优化策略,如任务调度。Python 示例展示了如何使用 multiprocessing 进行并行处理。随着云计算的发展,更多工具帮助我们扩展和管理计算资源。机器学习的计算资源管理是一场持续的探索游戏,旨在实现高效运行和创新成果。准备好投身这个激动人心的领域了吗?
72 1
|
5月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习】CLIP模型在有限计算资源下的性能探究:从数据、架构到训练策略
【机器学习】CLIP模型在有限计算资源下的性能探究:从数据、架构到训练策略
331 0
|
5月前
|
机器学习/深度学习 人工智能 分布式计算
PAI底层支持多种计算框架
PAI底层支持多种计算框架:
116 0
|
6月前
|
算法
*PAI与静息心率紧密相关,因为静息心率是计算PAI值的重要参数之一
【4月更文挑战第12天】*PAI与静息心率紧密相关,因为静息心率是计算PAI值的重要参数之一
77 3
|
6月前
|
机器学习/深度学习 数据采集 监控
构建高效机器学习模型的策略与实践云端防御:融合云计算与网络安全的未来策略
【4月更文挑战第29天】 在数据驱动的时代,构建一个高效的机器学习模型对于解决复杂问题至关重要。本文将探讨一系列策略和最佳实践,旨在提高机器学习模型的性能和泛化能力。我们将从数据处理的重要性入手,进而讨论模型选择、训练技巧、超参数调优以及模型评估方法。通过这些策略的实施,读者将能够构建出更加健壮、准确的模型,并有效地避免过拟合和欠拟合问题。
|
6月前
|
机器学习/深度学习 SQL 人工智能
人工智能平台PAI产品使用合集之如何通过机器学习PAI 的Alink实现大量数据两两计算相关性
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
6月前
|
机器学习/深度学习 人工智能 分布式计算
PAI底层支持多种计算框架
PAI底层支持多种计算框架
62 0
|
6月前
|
机器学习/深度学习 人工智能 算法
深度解密阿里巴巴PAI工作空间:协同创新,智慧计算的新引擎
深度解密阿里巴巴PAI工作空间:协同创新,智慧计算的新引擎 在人工智能领域,团队协作和资源管理是推动技术发展的关键因素。作为阿里巴巴公共AI平台的核心组成部分,PAI工作空间应运而生,为企业和团队提供统一的计算资源管理及人员权限管理能力,为AI开发者提供支持团队协作的全流程开发工具及AI资产管理能力。今天,就让我们一起来深度解密PAI工作空间,了解它是如何成为智慧计算的新引擎的。
170 2

热门文章

最新文章

  • 1
    机器学习实战:房价预测项目
    202
  • 2
    强化学习(Reinforcement Learning, RL)** 是一种机器学习技术,其中智能体(Agent)通过与环境(Environment)交互来学习如何执行决策以最大化累积奖励。
    77
  • 3
    集成学习(Ensemble Learning)是一种机器学习技术,它通过将多个学习器(或称为“基学习器”、“弱学习器”)的预测结果结合起来,以提高整体预测性能。
    219
  • 4
    `sklearn.metrics`是scikit-learn库中用于评估机器学习模型性能的模块。它提供了多种评估指标,如准确率、精确率、召回率、F1分数、混淆矩阵等。这些指标可以帮助我们了解模型的性能,以便进行模型选择和调优。
    454
  • 5
    在机器学习和数据科学中,数据预处理是一个至关重要的步骤。数据规范化(或称为特征缩放)是预处理的一种常见技术,它可以帮助我们改进模型的性能。`sklearn.preprocessing`模块提供了多种数据规范化的方法,其中`StandardScaler`和`MinMaxScaler`是最常用的两种。
    89
  • 6
    在人工智能和机器学习的领域中,语音识别(Speech Recognition,SR)是一个重要的研究方向。它旨在将人类的语音转换为计算机可读的文本。
    106
  • 7
    OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉和机器学习库,它提供了大量的函数和工具,用于处理图像和视频数据。
    121
  • 8
    驾驭大数据洪流:Pandas与NumPy在高效数据处理与机器学习中的核心作用
    84
  • 9
    探索机器学习在图像识别中的应用
    53
  • 10
    智能化运维:机器学习在故障预测和自动化修复中的应用
    66