斯坦福教授用新算法做药物研发,只需少量训练数据 | 论文+代码

简介:
本文来自AI新媒体量子位(QbitAI)

深度学习可以通过看脸认出不同的人,帮医生检查医疗影像识别病变,将语音转成文字……在各种领域,都有着很高的准确率。

但是借助深度学习技术来开发新药,一直是个愿景美好、进展缓慢的领域。

因为在多数情况下,深度学习系统的训练需要大量数据,而在药物开发领域,数据量非常有限。如斯坦福大学化学教授Vijay Pande所说:“如果你已经拥有数千个药物设计样本,很可能已经成功开发出药物了。”

 Vijay Pande

不过,Pande和他的学生正在尝试把机器学习,特别是深度学习用在药物设计的早期阶段,还开发了新药研发领域的开源系统DeepChem。

训练数据从哪来?他们认为,可以借助one-shot learning来解决这类问题。one-shot learning指的是一种只需要少量数据点的深度学习系统。他们的测试证明了这种方法的确在药物开发和其他化学研究领域拥有潜力。研究结果已经发表在4月3日的《 ACS Central Science》上。

Pande团队提出了名为迭代优化长短期记忆(iterative refinement long short-term memory)的新架构,与图卷积神经网络(graph convolutional neural networks)相结合,有效提高了算法学习小分子间有意义距离度量的能力。

为了让分子信息更易消化,研究人员首先按照原子之间的连接(数学家会将其称作图谱)呈现每个分子。这个步骤用算法可以处理的形式强调了化学成分的固有性质。

有了这些图形化的表现,该团队通过两个不同的数据集训练一套算法:一个包含了不同化学物质的毒性信息,另外一个则详细记录了已经获批的药物的副作用。从第一个数据集汇总,他们用6种化学物质训练了算法,使之预测出另外3种物质的毒性。使用第二个数据集,他们训练系统在21项任务中将药物与副作用联系起来,然后又对另外6种药物进行测试。

在这两个案例中,算法预测毒性和副作用的能力都有所提升。

然而,Ramsundar也警告称,这并不是一项“神奇”技术。它的基础是特定类型的one-shot learning技术最近取得的进步,而且还要依赖不同分子之间的紧密度,这可以通过他们的分子式间接体现。例如,当研究人员使用毒性数据训练算法,然后在副作用数据上测试时,算法就完全失效。

“这项技术或许会成为一项有益的补充,充当实验助手的角色。”

Pande的研究生、该论文的联合作者Bharath Ramsundar说。目前,化学家在研发早期,试图从一系列有潜力的候选方案中找到合适的分子时,主要凭感觉来猜。

除了可以分析药物设计外,这项工具还可以广泛应用于分子化学领域。Pande Lab已经针对太阳能电池的不同化学成分测试了这些方法。

“这是one-shot learning第一次应用在该领域,很高兴看到机器学习进步如此之快。”Pande说,“这并非终点,而是起点。”

实验中用到的所有源代码都已经开源,作为DeepChem代码库的一部分。在量子位公众号(QbitAI)对话界面回复“新药研发”,我们会将论文和DeepChem开源代码地址发给你。

本文作者:李杉 李林
原文发布时间:2017-04-05
相关文章
|
6月前
|
机器学习/深度学习 算法 前端开发
别再用均值填充了!MICE算法教你正确处理缺失数据
MICE是一种基于迭代链式方程的缺失值插补方法,通过构建后验分布并生成多个完整数据集,有效量化不确定性。相比简单填补,MICE利用变量间复杂关系,提升插补准确性,适用于多变量关联、缺失率高的场景。本文结合PMM与线性回归,详解其机制并对比效果,验证其在统计推断中的优势。
1589 11
别再用均值填充了!MICE算法教你正确处理缺失数据
|
6月前
|
机器学习/深度学习 算法 机器人
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
611 0
|
6月前
|
机器学习/深度学习 算法 机器人
使用哈里斯角Harris和SIFT算法来实现局部特征匹配(Matlab代码实现)
使用哈里斯角Harris和SIFT算法来实现局部特征匹配(Matlab代码实现)
305 8
|
6月前
|
机器学习/深度学习 算法 自动驾驶
基于导向滤波的暗通道去雾算法在灰度与彩色图像可见度复原中的研究(Matlab代码实现)
基于导向滤波的暗通道去雾算法在灰度与彩色图像可见度复原中的研究(Matlab代码实现)
347 8
|
6月前
|
机器学习/深度学习 数据采集 负载均衡
结合多种启发式解码方法的混合多目标进化算法,用于解决带工人约束的混合流水车间调度问题(Matlab代码实现)
结合多种启发式解码方法的混合多目标进化算法,用于解决带工人约束的混合流水车间调度问题(Matlab代码实现)
318 0
|
6月前
|
机器学习/深度学习 人工智能 算法
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
277 0
|
6月前
|
数据采集 分布式计算 并行计算
mRMR算法实现特征选择-MATLAB
mRMR算法实现特征选择-MATLAB
400 2
|
7月前
|
传感器 机器学习/深度学习 编解码
MATLAB|主动噪声和振动控制算法——对较大的次级路径变化具有鲁棒性
MATLAB|主动噪声和振动控制算法——对较大的次级路径变化具有鲁棒性
334 3
|
7月前
|
存储 编解码 算法
【多光谱滤波器阵列设计的最优球体填充】使用MSFA设计方法进行各种重建算法时,图像质量可以提高至多2 dB,并在光谱相似性方面实现了显著提升(Matlab代码实现)
【多光谱滤波器阵列设计的最优球体填充】使用MSFA设计方法进行各种重建算法时,图像质量可以提高至多2 dB,并在光谱相似性方面实现了显著提升(Matlab代码实现)
239 6
|
6月前
|
机器学习/深度学习 算法 数据可视化
基于MVO多元宇宙优化的DBSCAN聚类算法matlab仿真
本程序基于MATLAB实现MVO优化的DBSCAN聚类算法,通过多元宇宙优化自动搜索最优参数Eps与MinPts,提升聚类精度。对比传统DBSCAN,MVO-DBSCAN有效克服参数依赖问题,适应复杂数据分布,增强鲁棒性,适用于非均匀密度数据集的高效聚类分析。