使用神经网络的建立与分析遗传基因数据模型(一)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
视觉智能开放平台,分割抠图1万点
简介: 使用神经网络的建立与分析遗传基因数据模型(一)

DNA双螺旋(已对齐)合并神经网络(黄色)

640.png

我最近进行了有关基因序列的研究工作。我想到的主要问题是:"哪一种最简单的神经网络能与遗传数据最匹配"。经过大量文献回顾,我发现与该主题相关的最接地气却非常有趣的工作是在Yoshua Bengio 教授的实验室中进行的。这篇论文的题目是:"饮食网络:脂肪基因组学的瘦参数",它的主要目标是将基因序列划分为26个种族。我从那篇论文中得到了灵感,在这里我想解释一下建立神经网络来解决这类问题的基本原理。要阅读这篇博客,不需要生物学方面的背景知识;为了直接进入计算部分,我将尝试覆盖大部分必要的部分。

动机

我们目前正面临艰难时刻:SARS-CoV-2病毒使我们对大自然的强大力量束手无策。通过学习新工具,获得有关基因组的数据直觉,并探索哪种机器学习方法可以最佳地概括该数据,我希望我们能够团结一致,为美好的明天做出改变,或者至少使用神经网络做一些除了娱乐自己以外,可以拯救我们的生命和地球的事情。

为什么我发现遗传学如此吸引人?

你的基因不仅揭示你的信息,而且还揭示出祖先的基因组历史,通过这么多年保存下来的显性基因。换句话说,它是你家族的生物进化编码,而且根据达尔文的进化论,所有的有机生物(植物、动物等)都有相同的基因组原理。

直觉

让我们浏览其他类型的数据,例如图像和句子,以了解遗传数据的独特性。一方面,图像是具有相邻关系的二维数据(或三维体),句子是由非监督方式训练的具有句子层次性质的一维向量。另一方面,遗传序列是至少成千上万个值的一维向量(序列),在邻居之间没有明确定义的关系,并且没有具有预先训练的模型集。因此,在图像处理中非常流行的高斯平滑滤波在这里没用,并且视觉中的所有预训练模型(*ImageNet,VGG,ResNet ...)和自然语言处理(Word2Vec,Glove,BERT *...)都被淘汰出局。

为什么这是一个挑战

想想一个包含数千个遗传样本的数据库。您需要找到一种方法,该方法它能很好地概括成千上万个组合的输入数据(准确性超过90%)。在这里使用神经网络可能是一个很好的工具,因为它利用了全连接层的功能,而这种方式在其他"经典"算法(例如PCA,SVM和决策树)中是缺少的,而这些算法无法单独管理数据。构建最简单的网络体系结构需要成功地预测第一层的权值,这将为您留下数千万个自由参数。降维(以避免过多的自由参数)是解决这个问题的一种方法,我们将在本博客后面讨论它。

生物学背景

为了弄清这个问题,同时也不妨碍这个论坛的主要目的,我在这里仅提出本博客所需要的生物学部分的高级观点。不用说,我们非常欢迎您进一步探讨这些生物学主题中的任何一个。

什么是遗传序列?

一个DNA分子是由四种碱基组成的序列,这些碱基由A、C、G、t的字母表示:序列的特定部分(即使位于较远的地方)与表现型相关。例如,最近的一项研究:"一种可能起源于蝙蝠的新型冠状病毒引发的肺炎暴发"表明ACE2基因可能是SARS-CoV-2病毒的宿主受体(表现型)。有趣的是,仅凭你的DNA就能获得多少有价值的信息(罪犯检测、匹配大麻品种、营养和个性化药物)。

什么是SNP基因型?

如今,我们比以往任何时候都更接近于实现几乎完整的人类基因组序列。然而,我们还远远没有涵盖全部。单核苷酸多态性SNPs是基因组序列中特定的基因型位点,一般以RS[数字]表示。不同的种群有不同的序列不变量,但在家族内部可能是相同的(因此亚洲人看起来与欧洲人不同)。对SNP序列的分析将是本博客其余部分的重点。

方法

我将介绍两种主要的网络架构(以及另一种网络,它的参数经过了改进,从而克服了机器学习中的一些主要问题)以及一些技术技巧......

数据

相对于其他数据类型,医疗数据集很难找到,主要是由于隐私限制。针对此,"千人基因组计划"取得了重大突破,公布了一个包含3450个人类DNA样本的公共数据集,每个样本包含全球26种族的315000个snp。下一幅图显示了来自1000个基因组数据的直方图,描绘了每个种群(种族)的个体频率。

640.png

1000个基因组人口分布(种族)

降维

如上所述,减少模型中的自由参数是很必要的(在我们的例子中,我们要处理大约3000万个参数)。为了达到这个目的,所提出的方法是在判别网络的基础上使用另一个辅助网络,该网络的输入是每个类的直方图(一个以无监督方式计算的嵌入矩阵)。该网络的输出初始化了判别网络第一层的权值。嵌入矩阵为每个种群的归一化基因型直方图,大小为SNPsX[4x26],其中4为4个基因型,26为类(种群)数。这种嵌入矩阵的实现如下所述。我的解决方案是通过减少隐藏单元层的数量(参见架构部分),我称这种新架构为改进的模型,它的好处之一是克服了过拟合,稍后的结果部分将对此进行讨论。

结构

我们比较了两个主要网络。这两个网络都包含两个完全连接的隐藏层,后跟一个softmax层,但是第二个网络包含辅助网络,该辅助网络可预测判别网络的自由参数。所述辅助网络以嵌入矩阵为输入,并返回判别网络的权重(图1)。

640.png

图1:两种区分模型,无(上)和有辅助网络(下)

可以在图2中看到该体系结构的详细说明:批处理规范层,然后在每个全连接层之前接一个dropout层。

640.png

目录
相关文章
|
30天前
|
机器学习/深度学习 数据采集 存储
时间序列预测新突破:深入解析循环神经网络(RNN)在金融数据分析中的应用
【10月更文挑战第7天】时间序列预测是数据科学领域的一个重要课题,特别是在金融行业中。准确的时间序列预测能够帮助投资者做出更明智的决策,比如股票价格预测、汇率变动预测等。近年来,随着深度学习技术的发展,尤其是循环神经网络(Recurrent Neural Networks, RNNs)及其变体如长短期记忆网络(LSTM)和门控循环单元(GRU),在处理时间序列数据方面展现出了巨大的潜力。本文将探讨RNN的基本概念,并通过具体的代码示例展示如何使用这些模型来进行金融数据分析。
192 2
|
1天前
|
数据采集 缓存 定位技术
网络延迟对Python爬虫速度的影响分析
网络延迟对Python爬虫速度的影响分析
|
2天前
|
存储 安全 网络安全
网络安全法律框架:全球视角下的合规性分析
网络安全法律框架:全球视角下的合规性分析
12 1
|
11天前
|
网络协议 安全 算法
网络空间安全之一个WH的超前沿全栈技术深入学习之路(9):WireShark 简介和抓包原理及实战过程一条龙全线分析——就怕你学成黑客啦!
实战:WireShark 抓包及快速定位数据包技巧、使用 WireShark 对常用协议抓包并分析原理 、WireShark 抓包解决服务器被黑上不了网等具体操作详解步骤;精典图示举例说明、注意点及常见报错问题所对应的解决方法IKUN和I原们你这要是学不会我直接退出江湖;好吧!!!
网络空间安全之一个WH的超前沿全栈技术深入学习之路(9):WireShark 简介和抓包原理及实战过程一条龙全线分析——就怕你学成黑客啦!
|
30天前
|
存储 安全 网络安全
云端盾牌:云计算时代的网络安全守护在数字化浪潮中,云计算以其高效、灵活的特性成为企业转型的加速器。然而,伴随其迅猛发展,网络安全问题亦如影随形,成为悬在每个组织头顶的达摩克利斯之剑。本文旨在探讨云计算服务中的网络安全挑战,分析信息安全的重要性,并提出相应对策,以期为企业构建一道坚实的云端防护网。
在当今这个数据驱动的时代,云计算已成为推动创新与效率的关键力量。它允许用户随时随地访问强大的计算资源,降低了企业的运营成本,加速了产品上市时间。但随之而来的网络威胁也日益猖獗,尤其是对于依赖云服务的企业而言,数据泄露、身份盗用等安全事件频发,不仅造成经济损失,更严重损害品牌信誉。本文深入剖析云计算环境中的安全风险,强调建立健全的信息安全管理机制的重要性,并分享一系列有效策略,旨在帮助企业和个人用户在享受云服务带来的便利的同时,也能构筑起强有力的网络防线。
|
11天前
|
网络协议 安全 算法
网络空间安全之一个WH的超前沿全栈技术深入学习之路(9-2):WireShark 简介和抓包原理及实战过程一条龙全线分析——就怕你学成黑客啦!
实战:WireShark 抓包及快速定位数据包技巧、使用 WireShark 对常用协议抓包并分析原理 、WireShark 抓包解决服务器被黑上不了网等具体操作详解步骤;精典图示举例说明、注意点及常见报错问题所对应的解决方法IKUN和I原们你这要是学不会我直接退出江湖;好吧!!!
|
1月前
|
安全 网络安全 云计算
云计算与网络安全:技术融合与挑战分析
【9月更文挑战第31天】本文将深入探讨云计算和网络安全之间的关系,包括云服务、网络安全、信息安全等技术领域。我们将从云计算的基本概念和特性出发,分析其在网络安全方面的优势和挑战,并探讨如何通过技术和策略来提高云计算的安全性。同时,我们也将讨论网络安全在云计算环境下的重要性,以及如何通过有效的安全措施来保护云服务的安全。最后,我们将通过代码示例来展示如何在云计算环境中实现网络安全。
54 3
|
26天前
|
安全 网络协议 物联网
物联网僵尸网络和 DDoS 攻击的 CERT 分析
物联网僵尸网络和 DDoS 攻击的 CERT 分析
|
2月前
|
缓存 网络协议 网络架构
网络抓包分析【IP,ICMP,ARP】以及 IP数据报,MAC帧,ICMP报和ARP报的数据报格式
本文详细介绍了如何使用网络抓包工具Wireshark进行网络抓包分析,包括以太网v2 MAC帧、IP数据报、ICMP报文和ARP报文的格式,以及不同网络通信的过程。文章通过抓包分析展示了IP数据报、ICMP数据报和ARP数据报的具体信息,包括MAC地址、IP地址、ICMP类型和代码、以及ARP的硬件类型、协议类型、操作类型等。通过这些分析,可以更好地理解网络协议的工作机制和数据传输过程。
网络抓包分析【IP,ICMP,ARP】以及 IP数据报,MAC帧,ICMP报和ARP报的数据报格式
|
29天前
|
存储 算法 数据可视化
单细胞分析 | Cicero+Signac 寻找顺式共可及网络
单细胞分析 | Cicero+Signac 寻找顺式共可及网络
24 0
下一篇
无影云桌面