深度学习如何解决生物调试问题?

简介:

【编者按】深度学习在近几年实现了巨大的突破,而这一方法也被应用到越来越多的领域,用于解决过去在这些领域难以解决的问题。可以预见,在未来的科研中“深度学习+学科应用”将得到更广阔的应用,人工智能和深度学习方法也会变成我们生活和科研中水和电一样随处可见的东西。本文就是深度学习在生物科学领域应用的一个例子,原文刊载于20n.com,雷锋网(公众号:雷锋网)特此编译全文,供读者参考。


生物学现在面临着调试的困难。生化系统(细胞)很复杂,深入研究它是十分有意义的。观察你所了解的化合物是很有难度的,想要看到未知的化学变化就更难了。调试问题的挑战,通俗地说就是已知的未知问题和未知的未知问题,正在艰难前行。假如能够收集大量的多维的、密集的生物数据,我们想知道深度学习能否帮助解决生物调试问题。

过去的两年中,我们已经设计了180多个酵母菌和病毒细胞来工业化生产相关化合物,例如,其中一个酵母菌是第一个能产生对乙酰氨基酚的细胞,我们最近也开始观察人类疾病细胞。无论是对修饰后的微生物细胞还是人类疾病细胞,鉴定其与正常细胞的区别,是极有意义的,在这里,我们一般将正常细胞(也就是原株和健康细胞)称作是对照细胞,把另一种细胞称作变量(通过基因处理或者人类疾病修饰)。

现代技术:科学家从现有的数百万的化合物中挑选出一个或几个,检查每一个化合物的变异细胞是否区别于对照细胞。他们通过分析仪器(比如LC-MS)来比较数据来源找到区别所在。标准的工作流程也有会极少的误差,因为仪器校正也会有误差。LC-MS仪器的有限精确度和不同化合物信号之间的碰撞都使得这项工作变得复杂。

LC-MS分析联合深度学习:我们输入原始LC-MS数据(没有经过个人推测分子的校正),通过深度学习模型来验证变量样本中哪个分子是不一样的。

举个例子,我们最近构建的能产生对乙酰氨基酚的酵母菌模型,敲掉几个基因后预测新的基因插入,这是很新颖的通路搭建。我们用葡萄糖介质培育变异株,同时培育原株酵母菌作为对照组。把这些菌种放在柱子中,会有200多个分子通过柱子。通过柱子出来的第五个分子的峰如下图所示。(下图左侧是变异组,右侧是对照组)

深度学习如何解决生物调试问题?

同时,系统识别出达到峰值时的化学物质分子式是C8H9NO2。这个分子式很明确是对乙酰氨基酚。它也识别出了下面几个结构式(最右边的是对乙酰氨基酚),我们设计的这个通路分析识别出了这些备选结构中最有可能的是对乙酰氨基酚。

深度学习如何解决生物调试问题?

这种分析的本质是公正的,非靶向性的,这让我们有信心解决调试设计细胞问题。它能够突出变异细胞组和对照组之间的主要差别,并且准确预测相应的化合物。其他的主要识别峰可以观察到副反应变化,这些变化是不能通过靶向分析检测到的,靶向分析就是只分析特定的产物。我们去年就是一直在做这种靶向分析,但是现在我们可以识别好多我们一直在丢失的数据:所有的这些附加峰都是在细胞中加入几个基因后的副反应所产生的,当接下来修饰细胞化学结构的时候这些差异都是应该考虑在内的。

这种能分析细胞中每个变化的非靶向分析是解决生物调试问题的有力工具,深度学习也是解决该问题的关键点。

|通过深度学习的非靶向代谢组学

生物化学的调试通路包括以下几步:

准备样品(变异组和对照组)

液相色谱质谱联用(LC-MS)

        每次LC-MS跟踪要收集20亿的数据点,需要跑2000多次,所以我们要通过大量的工程细胞株存储4万 亿的数据点。

深度学习

       识别变异组和对照组之间的差别。

SAT计算

       搜索化学式来定位相对应变异中的差别的化学式。

酶的生物化学的网络模型

      预测并且排列与细胞工程相关的生物化学中的变化相关的分子和生物学通路。

我们来集中看一下深度学习模块。如果我们能从LC-MS中得到几个重要参数(如碎片离子、保留时间和峰强度),我们就能绘制一个类似下图(左侧)的3D图,或者热点图(右侧)。每种图像都能生成高分辨率的PDF图像。缩放热点图找到高强度的峰(红色)有助于观察数据的密度。

深度学习如何解决生物调试问题?

总体的视野能观察到全部数据,所以我们只看有大约50个数据点的小窗口,也就是全部数据的0.0000025%。看下面这个局部3D图窗,试着判断一下它是否是“峰”。

深度学习如何解决生物调试问题?

深度学习如何解决生物调试问题?

你可能会正确地叫出每个峰的名称。当我们起初分析这些来源的时候,我们通过人为的视觉评估把这些峰分类为“完全是峰”、“不完全是峰”和“可能是峰”三类。

尽管人类可以很容易通过肉眼来分辨LC-MS的峰,但是开发一种稳健的计算机方法来分类峰还是有困难的。我们使用深度学习来使空间减小到几十张图像那么大,这些图像可以概括数千个LC-MS示踪的结果。我们可以通过深度学习卓有成效地减小LC-MS数据的变量和复杂性,从而能通过示踪归纳出常见的特征。

我们的第一次重复使用了简单的网络,并且取得了小小的成功,但是如果使用更深层的、多层的网络可能会更好地学习到LC-MS示踪的细微差别。正由于这一点,我们成功地在一次示踪中鉴别出好多峰,同时不包括许多人类一般会忽略的像峰似的特点。下图中,左侧是一组通过网络学习得到的峰(很容易看到主峰),右侧是识别出的噪声峰的特征。

深度学习如何解决生物调试问题?

证明了我们能识别个别峰之后,我们又致力于归纳出这种方法来做大规模的不同分析。这种方法能让科学家提供一个实验的对照组,并且能在任何情况下都能检测分子。

从样本到遗传变异

深度学习能够准确识别差异,通过建立深度学习能把我们的分析拓展到相比细胞系的基因变化上。整个柱子汇集了深度学习分析的成分和其他成分。一个专门的生化计算软件SAT能够解析化学式。能够理解酶机制、底物特性和细胞链接的网络分析师可以推出分子结构。生物信息学模块完成了解释示踪结果中基因变化的最后一步。

深度学习如何解决生物调试问题?

展望:深度学习解决生物调试问题

合成生物学:通过准确地知道人为修饰或其他修饰的各种影响,生物制品的微生物工程的进展急速加快。这些细胞在可控的环境下进行培养,大多数的新陈代谢都是可以完全调整的,所以简单的深度学习模块有望促进生物学的发展。

人类诊断:在疾病细胞和正常细胞中,人类细胞是有许多细微变化的。我们正在尝试更复杂的深度学习网络能够解决疾病细胞的非靶向诊断问题。这一点很值得期待。

深度学习预测化合物特点:需要练习深度网络的数据量可以从LC-MS中获得。其他生化数据在细节上是极度丰富的,但是在数量上可能没那么大量。化学结构预测是本质,这些情况需要我们在训练中有所创造。我们已经开展项目来研究更复杂的模型和训练模式。如果感兴趣请发邮件到info@20n.com来联系我们吧。

 

via 20n.com


本文作者:江小片


本文转自雷锋网禁止二次转载,原文链接

相关文章
|
6月前
|
机器学习/深度学习 自然语言处理 异构计算
完全小白的pycharm深度学习调试+for循环断点条件设置
完全小白的pycharm深度学习调试+for循环断点条件设置
209 0
|
机器学习/深度学习 人工智能 算法
从手工作业到工业革命!Nature文章:生物图像分析被深度学习彻底改变的五个领域
从手工作业到工业革命!Nature文章:生物图像分析被深度学习彻底改变的五个领域
|
机器学习/深度学习
深度学习笔记总结(2) 改善深层神经网络:超参数调试、 正则化以及优化
深度学习笔记总结(2) 改善深层神经网络:超参数调试、 正则化以及优化
138 0
深度学习笔记总结(2) 改善深层神经网络:超参数调试、 正则化以及优化
|
机器学习/深度学习 算法 数据处理
Survey | 深度学习方法在生物网络中的应用
Survey | 深度学习方法在生物网络中的应用
227 0
Survey | 深度学习方法在生物网络中的应用
|
机器学习/深度学习 Web App开发 人工智能
如何让深度学习突破数据瓶颈?这家创业公司直接挑战生物神经元的计算模型
Demiurge Technologies 是一家位于瑞士的人工智能创业公司,他们致力于研究生物神经元的计算原理,开发下一代深度学习,以解决小样本学习和与物理世界交互的难题。他们的深度学习系统将应用于第四级别自动驾驶和探索机器人等领域。与大部分人工智能公司不同的是,Demiurge Technologies 希望从根源解决目前深度学习存在的问题,面对这样一个不论在神经科学领域,还是人工智能领域都同样重要的问题,他们的勇气、方法和视野都令人尊敬。也希望 Demiurge 的创业思路和运作模式能够给从业者带来灵感和启发。
158 0
如何让深度学习突破数据瓶颈?这家创业公司直接挑战生物神经元的计算模型
|
机器学习/深度学习 算法 算法框架/工具
吴恩达《深度学习》第二门课(3)超参数调试、Batch正则化和程序框架
3.1调试处理 (1)不同超参数调试的优先级是不一样的,如下图中的一些超参数,首先最重要的应该是学习率α(红色圈出),然后是Momentum算法的β、隐藏层单元数、mini-batch size(黄色圈出)、再之后是Layer、learning rate decay(紫色圈出)、最后是Adam算法中的β1、β2、ε。
1463 0
|
20小时前
|
机器学习/深度学习 安全 量子技术
深度学习在图像识别中的应用与挑战
【5月更文挑战第10天】 随着人工智能技术的飞速发展,深度学习已成为推动计算机视觉领域进步的核心力量。本文聚焦于深度学习在图像识别任务中的应用,并探讨了当前面临的主要挑战。我们将回顾深度学习模型的发展历程,特别是卷积神经网络(CNN)在处理图像数据方面的革命性贡献,并分析诸如数据偏差、模型泛化能力、计算资源需求等关键问题。此外,文中还将展望深度学习技术未来的发展方向及其在图像识别领域的应用前景。
|
20小时前
|
机器学习/深度学习 传感器 自动驾驶
基于深度学习的图像识别技术在自动驾驶系统中的应用
【5月更文挑战第10天】 随着人工智能技术的飞速发展,基于深度学习的图像识别技术已成为自动驾驶系统不可或缺的核心组成部分。该技术通过模拟人类视觉系统处理与理解环境信息的过程,赋予自动驾驶车辆高度准确和实时的环境感知能力。本文首先概述了深度学习在图像识别领域的关键技术与方法,包括卷积神经网络(CNN)及其变体、循环神经网络(RNN)等,并探讨了这些技术在自动驾驶系统中的具体应用,如车辆检测、行人识别、交通标志识别以及道路场景理解。随后,文章分析了当前技术面临的主要挑战,包括数据集的多样性与质量、模型泛化能力、实时处理要求及系统的鲁棒性问题。最后,展望了未来图像识别技术在自动驾驶领域的发展趋势,特
|
20小时前
|
机器学习/深度学习 人工智能 监控
深度学习在图像识别中的应用及挑战
【5月更文挑战第10天】 随着人工智能技术的飞速发展,深度学习已经成为计算机视觉领域的核心动力之一。尤其在图像识别任务中,深度神经网络表现出了前所未有的性能,推动了从安防监控到医疗诊断等多个行业的技术革新。本文将探讨深度学习技术在图像识别中的应用,并分析当前所面临的主要挑战以及未来的发展方向。
|
20小时前
|
机器学习/深度学习 传感器 自动驾驶
基于深度学习的图像识别技术在自动驾驶汽车中的应用
【5月更文挑战第10天】 随着人工智能技术的飞速发展,尤其是深度学习在图像识别领域的突破,自动驾驶技术迎来了新的发展机遇。本文将深入探讨基于深度学习的图像识别技术是如何被集成到自动驾驶汽车系统中,并分析其对提高车辆环境感知能力、决策系统准确性和整体安全性的影响。通过对比传统算法与深度学习方法的性能差异,我们展示了深度学习在处理复杂交通场景中的优势,以及在实时性要求极高的环境下的挑战和应对策略。
4 0