AI研发新药真有那么神?可能哈佛、斯坦福和阿斯利康实验室都在吹牛

简介:
本文来自AI新媒体量子位(QbitAI)


近年来,向往着用AI研发新药的美好愿景,巨头纷纷投下了重注

制药巨头赛诺菲和AI药物发现平台Exscientia签下3亿美元巨额订单,葛兰素史克随后也出了4200万美元。默克和Atomwise、强生旗下的杨森制药与BenevolentAI也都有类似的合作。

风投也非常看好这个领域。硅谷VC公司安德森·霍洛维茨(A16Z)为投资AI药物发现公司,组建了一支4.5亿美元的基金。

好像巨头都上车了,小玩家要不要跟上?

今天,硅谷极客们最爱的HackerNews上有一篇热门文章就在探讨这件事。大部分评论者都同意这篇文章的基本观点:AI在药物发现中的作用被过度吹捧了

这篇文章通过分析制药公司阿斯利康、名校哈佛和斯坦福、以及创业公司Insilico Medicine等名声卓著的实验室最近的一些研究,来说明AI研究者是如何过度吹捧他们的成果的。

以下是这篇热门文章的主要内容,量子位编译整理:

 1981年的《财富》杂志封面:在默克,用计算机设计药物

我乐观地认为,这些事情2018年会有变化。这可能并不是因为人工智能的突破,而是因为这些研发机构会有进步:现在,随着在线教育和社交媒体的兴起,更强力的检查和平衡已经成为可能,为开放同行评议提供了新机会,这会成为挤泡沫的力量。

接下来,让我们进入技术部分,谈谈最近一些过度吹捧的AI研究案例。

阿斯利康


最近,英国制药公司阿斯利康和明斯特大学、上海大学的研究者一起发表了一项研究,尝试用循环神经网络(RNN)和强化学习来生成新分子。

相关论文:

Generating Focussed Molecule Libraries for Drug Discovery with Recurrent Neural Networks
https://arxiv.org/abs/1701.01329

这个问题很重要,因为一个创造性的AI能为发现引导物的流程中带来更多多样性。

这篇论文引起了我的注意,是因为用了很大篇幅来讲模型的评价。这看起来很有深度,他们给出了基于谷本系数相似性度量和基于levenshtein距离等多个衡量指标。论文中还有大量的可视化展示。

然而,他们的衡量标准都是用在AI生成的分子与自然分子之间的,总是“省略”了对AI产生的分子彼此之间距离的测量。这种省略让人有一种“多样性”的错觉:AI生成的分子和自然分子之间的距离很大,就可以认为AI具有创造性,探索了化学空间中的新方向。

于是我们就有了如下图所示的错觉:

 真正的多样性:蓝色圆点代表AI生成的分子,红色十字代表自然分子

而实际上,如果AI生成的分子之间距离很小,这就意味着我们陷入了下图所示的状况,模型所产生的分子基本位于同一位置,并没有多样性:


 多样性错觉:AI生成的分子(蓝色圆点)和自然分子(红色十字)之间仍然有很大距离,但AI生成的分子集中在一起

简单来说,阿斯利康这篇论文对房间里的大象视而不见,最近这家公司一些其他论文依然有这个问题。 

比如:

Molecular De Novo Design through Deep Reinforcement Learning
https://arxiv.org/abs/1704.07555

Application of generative autoencoder in de novo molecular design
https://arxiv.org/abs/1711.07839


哈佛


哈佛的一个团队注意到了这个多样性的问题。他们通过查看人工智能生成的样本,感觉出了问题,想要做点什么,于是提出了ORGAN模型。

相关论文:

Objective-Reinforced Generative Adversarial Networks (ORGAN) for Sequence Generation Models
https://arxiv.org/abs/1705.10843

Optimizing distributions over molecular space. An Objective-Reinforced Generative Adversarial Network for Inverse-design Chemistry (ORGANIC)
https://chemrxiv.org/articles/ORGANIC_1_pdf/5309668/3

GitHub地址:
https://github.com/gablg1/ORGAN

他们的想法是要带来更丰富的化学多样性和化学现实主义,用第二个神经网络——鉴别器来校正生成器。如果分子看起来不太自然,它就惩罚生成器。这个想法来自AI学术界火爆的“生成对抗网络(GAN)”。

这是个好想法,但执行得非常糟糕。他们的结论是ORGAN比较好,但这个说法只是基于他们自己的观察得到的,没有任何量化支持。他们的定量实验并不支持这一结论。

而且,他们训练模型的方式是有问题的。看他们在GitHub上公开的训练日志就会发现,鉴别器总是在高度惩罚生成器,这个鉴别器太追求完美了,根本就是消灭了GAN的好处。

斯坦福

斯坦福有个用AI和深度学习研究化学的大团队,团队负责人是Vijay Pande,具有斯坦福教授和A16Z风投公司投资人的双重身份。

在Vijay Pande管理的投资项目中,“专为用机器学习方法测试分子性质而设计的基准”MoleculeNet最受关注的一个。

这个项目看起来画风严肃,包含大量化学知识、图形及深度学习模型,尤其关注graph-CNN和斯坦福团队其他为化学问题特制的神经网络。

 MoleculeNet中的特制图

然而,还有一个大家心知肚明但却避而不谈的问题:上述Pande团队没有努力将他们的数据插入到一个字符级的卷积神经网络(char-CNN)中。自2015年Yann LeCun的论文Text Understanding from Scratch提出这种方法后,字符级CNN就容易被例行公事地用在各种AI任务中进行文本处理,并且比graph-CNN简单得多。

如果想使用字符级CNN,插入“SMILES(simplified molecular-input line-entry system)”字符串就好了。

回过头来想想,为什么斯坦福的研究人员不选择这种更简单的操作呢?在论文MoleculeNet: A Benchmark for Molecular Machine Learning的第17页,我们可以看到:

最近的研究已经证明了用更复杂的方法从SMILES字符串学习有用表示的能力,所以在不久的将来,将SMILES字符串用于进一步的学习任务是可行的。

MoleculeNet: A Benchmark for Molecular Machine Learning
https://arxiv.org/abs/1703.00564

我不太相信字符级CNN对这个斯坦福团队来说过于复杂了,他们甚至在另外一篇文章中用到了字符级CNN。

Retrosynthetic reaction prediction using neural sequence-to-sequence models
https://arxiv.org/abs/1706.01643

一个更合理、更尴尬的解释是,他们害怕字符级CNN的效果会更好。这意味着,他们心爱的graph-CNN模型将在分子基准测试中被击败,而这并不符合他们的期望。

原因很简单。DeepChem是一个斯坦福领导的开源库,用来实现MoleculeNet模型。如果字符级CNN比graph-CNN效果好,那么实践者就无需DeepChem了,他们可以直接用简单的TensorFlow或Pytorch实现。

 DeepChem主页

在2018年,开源框架是一种战略性资产,就像通过Android,谷歌主宰了移动操作系统市场一样。DeepChem可能也想走一条类似的道路,控制AI在药物发现领域的发展。这可能就是MoleculeNet对字符级CNN视而不见的原因。

我自己使用DeepChem的经历印证了这个推测。曾经我天真地想在项目中使用DeepChem,直到我发现,无法将DeepChem模型和非DeepChem模型混合在一起。用DeepChem辨别器和非DeepChem生成器对对抗训练很有用,但我无法实现这个想法。相反,我被牢牢锁在DeepChem的代码中,没有料想到还有如此恶意的东西。

为了逃离这个陷阱,让DeepChem真正开源,我不得不挖掘复杂的代码。

项目地址:
https://github.com/mostafachatillon/deepchem

对于一个更成熟的项目来说,这样做会更加困难。所以我的印象是,用这种“厂商锁定”的策略,DeepChem想吃掉AI世界来做化学研究。所以我对他们的合作投资人中有Marc Andreessen一点都不惊异。

 Marc Andreessen曾有句名言:简而言之,软件正在吃掉世界

虽然MoleculeNet的团队成员刻意避免用字符级CNN做基准测试,但他们仍为MoleculeNet和DeepChem设计了精美的网页。这表明他们还是太注重表面,PR优先于坚实的科学研究。这也是硅谷的典型策略,初创公司设计虚假产品吸引流量,然后依靠社区来构建真实的东西。

 硅谷知道,设计外表面比建造房屋更有用

Insilico Medicine

Insilico Medicine是AI创业公司中生成模型的先驱。在一篇论文中,Alex Zhavoronkov和他的团队提出了DruGAN,一种先进的生成式对抗自编码模型。我一直搞不明白这个模型哪里先进了。

druGAN: An Advanced Generative Adversarial Autoencoder Model for de Novo Generation of New Molecules with Desired Molecular Properties in Silico
http://pubs.acs.org/doi/abs/10.1021/acs.molpharmaceut.7b00346

就发现药物这个需求来说,DruGAN肯定已经不先进了:它和其他的生成模型有相同的缺点,可能会让人失望。

在最近的一篇论文中他们使用了更复杂的工具,但也称不上先进吧。在他们论文的第9-10页,有这样一段话:

本研究使用的MACCS分子指纹不是理想的分子结构表征。Direct SMILES、InChI、分子图以及其他化学和生物相关的分子结构表征可作为更好的训练类型。

他们甚至还没有用到基准测试的变分自编码器(VAE)。在论文中他们声称DruGAN比VAE好,但是在Github上,一个DruGAN的作者提出了相反的观点:

实际上,我们没有像AAE[DruGAN]那样调优VAE网络,所以这种比较不公平。我的意思是,你可以优化VAE,并超越我们的AAE。

所以我认为,DruGAN只比他们8个月前发表的论文先进。在整个论文中,他们不断提到相比以前工作的改进。也许,“进步”只是一个自我祝贺的词。

综上所述,我认为,AI在药物研发领域的应用被很多研究人员夸大了。

原文:https://medium.com/the-ai-lab/artificial-intelligence-in-drug-discovery-is-overhyped-examples-from-astrazeneca-harvard-315d69a7f863

本文作者:安妮 李林
原文发布时间:2018-01-06
相关文章
|
14天前
|
人工智能 编解码 BI
LEOPARD:腾讯AI Lab西雅图实验室推出的视觉语言模型
LEOPARD是由腾讯AI Lab西雅图实验室推出的视觉语言模型,专为处理含有大量文本的多图像任务设计。该模型通过自适应高分辨率多图像编码模块和大规模多模态指令调优数据集,在多个基准测试中表现卓越,适用于自动化文档理解、教育和学术研究、商业智能和数据分析等多个应用场景。
32 2
LEOPARD:腾讯AI Lab西雅图实验室推出的视觉语言模型
|
3天前
|
人工智能 搜索推荐 安全
数百名研发人员用通义灵码,33%新增代码由AI生成,信也科技研发模式焕新升级
目前,信也科技数百名研发人员正在使用通义灵码,周活跃用户占比70%,新增代码中有33%由通义灵码编写,整体研发效率提升了11%,真正实现了数百研发人员开发效能的全面提升。
|
17天前
|
人工智能 架构师 大数据
广西广电X阿里云:共同成立全媒体AI实验室!
广西广电X阿里云:共同成立全媒体AI实验室!
29 5
|
1月前
|
人工智能 自然语言处理 算法
企业内训|AI/大模型/智能体的测评/评估技术-某电信运营商互联网研发中心
本课程是TsingtaoAI专为某电信运营商的互联网研发中心的AI算法工程师设计,已于近日在广州对客户团队完成交付。课程聚焦AI算法工程师在AI、大模型和智能体的测评/评估技术中的关键能力建设,深入探讨如何基于当前先进的AI、大模型与智能体技术,构建符合实际场景需求的科学测评体系。课程内容涵盖大模型及智能体的基础理论、测评集构建、评分标准、自动化与人工测评方法,以及特定垂直场景下的测评实战等方面。
96 4
|
17天前
|
人工智能 测试技术 Serverless
AI编码,十倍提速,通义灵码引领研发新范式
欢迎参加通义灵码智能开发流程活动,通过在线部署和上传截图,即可获得新年好运日历,限量30个,先到先得!活动时间从即日起至2024年12月13日24:00。快来报名吧!
|
2月前
|
机器学习/深度学习 人工智能 算法
介绍一下AI在药物研发中的应用。
【10月更文挑战第16天】介绍一下AI在药物研发中的应用。
78 0
|
2月前
|
人工智能 自然语言处理
召唤100多位学者打分,斯坦福新研究:AI科学家创新确实强
【10月更文挑战第6天】斯坦福大学最新研究评估了大型语言模型(LLMs)在生成新颖研究想法方面的能力,通过100多位NLP专家盲评LLMs与人类研究人员提出的想法。结果显示,LLMs在新颖性方面超越人类(p < 0.05),但在可行性上略逊一筹。研究揭示了LLMs作为科研工具的潜力与挑战,并提出了进一步验证其实际效果的设计。论文详见:https://arxiv.org/abs/2409.04109。
45 6
|
1月前
|
人工智能 自然语言处理 测试技术
通义千问AI来提高研发效率
【10月更文挑战第21天】
|
2月前
|
人工智能
用AI人模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!
斯坦福大学和纽约大学的研究团队利用GPT-4模型成功模拟了人类在社交互动中的行为模式,实验结果显示AI能以惊人准确度模仿人类对话,甚至在在线论坛和社交媒体上与真人难以区分。这一突破不仅展示了AI在社会学研究中的巨大潜力,还引发了对AI伦理和透明度的深入探讨。尽管存在一些局限性和挑战,这项研究为未来社会学实验提供了新工具和方法。[论文地址:https://docsend.com/view/qeeccuggec56k9hd]
66 2
|
2月前
|
机器学习/深度学习 人工智能 算法
AI在药物研发中还有哪些应用场景呢
【10月更文挑战第16天】AI在药物研发中还有哪些应用场景呢
378 0