PNAS | 基因调控之深度学习揭示免疫细胞分化的调节机制

简介: PNAS | 基因调控之深度学习揭示免疫细胞分化的调节机制

image.png

今天给大家介绍的是加拿大不列颠哥伦比亚大学和哈佛大学、加拿大CIFAR AI高级研究院合作发表在PNAS的一篇论文。作者借助深度学习中的卷积神经网络提出一个训练网络“ AI-TAC”,该模型通过从头开始发现已知调控因子和一些未知调控因子的结合DNA功能域(Motifs),学习推断细胞型特异性的染色质可及性(染色质开放性)。经过小鼠数据训练的AI-TAC可以解析人的DNA,最终揭示了免疫系统完全分化的调节机制。


1


背景


基因调控是现代分子生物学研究的中心课题之一,目前虽然探索出一些转录因子能够调控哪些特异性序列,但是对于控制免疫细胞分化的调控机理我们尚未清楚。对于免疫系统来说,每种细胞类型都有自己的DNA编码解释,而这种差异是由组成型和细胞型特异性转录因子,调节性RNA分子以及可能还未知的序列解析分子实体之间的相互作用驱动的。具有调控功能的顺反元件通过结合染色质开放区域参与到生物转录调控的过程中以控制转录活性。比如,转录因子一旦结合到开放的染色质区域,就会招募其他蛋白,使附近的基因开始转录。染色质开放性是动态的,整体的调控过程与染色质核小体的动态定位相关,因此,高效精确地定位基因组上的开放染色质位点、搞清核小体位置的动态变化,为成功地发掘基因组调控元件,乃至揭示基因表达调控机制提供重要线索和有效手段。Motifs(DNA功能域)是一段特异性序列,可以和转录因子结合,确定DNA结合的motif通常是详细阐释转录因子功能的第一步,鉴定潜在的结合位点为进一步分析提供了途径。开放的染色质区域(OCR)十分密切地反映了相应细胞中的基因表达。下一步问题是从这些描述性图表转向对如何确定这些染色质模式的理解。分析这些有差别的活跃开放染色质区域中转录因子结合Motifs(TFBS)的表示,提供了可能导致细胞特异性的转录因子的相关线索,特别是通过将转录因子本身的细胞类型特异性表达用作相关先验知识,所以作者就小鼠免疫系统的81种免疫细胞的染色质可及性,旨在利用CNN仅通过调节DNA序列来学习推断细胞类型特异性的染色质可及性。结果表明, AI-TAC可以学习准确预测细胞类型特异性OCR的精细特异性,解释策略能够发现在计算机中具有影响力的Motifs,并在“真实”染色质免疫沉淀和测序(ChIP-seq)数据中概括其分子对应物的结合位点。因此,AI-TAC学习了构成免疫细胞分化全局性基础的序列语法。


2


方法


AI-TAC模型的输入数据是251个碱基对 OCR的DNA序列,以预测每个OCR在所有测得的细胞型上的ATAC-seq作为输出,整个模型由三个卷积层和两个全连接层组成,使用Pearson相关性作为损失函数进行训练,可以增强模型准确预测其活性随细胞类型而变化的序列的能力。为了进行参数解释,1)对于300个第一层filter中的每一个,作者提取了激活它的短序列Motifs,表示为位置权重矩阵(PWM),并定义了其鲁棒性的操作参数,以及2)应用了梯度反向传播策略(DeepLift和TFMoDisco)。可重现的filter(基于PWM表示)在11个单独训练的模型中使用“出现次数”进行了识别。使用TomTom对PWM进行注释,以搜索TFBS的Cis-BP数据库(FDR 0.05)。使用消融策略计算filter影响值:依次移除每个filter,并计算所有示例中模型误差的平方差平均值。为了进行生化验证,将从基因表达综合(GEO)下载的Pax5,Ebf1,Spi1和Tcf1(32)的原始ChIP-seq数据集,并与AI-TAC相交预测。为了可视化高阶序列逻辑,获得了由节点激活在最后一个共享层中捕获的AI-TAC嵌入(n = 1000),并使用t-SNE对其进行了二维投影。下图A为模型整体框架图。

image.png

3


结果


AI-TAC可以仅从序列预测增强子活性,通过这种方式,AI-TAC学习了嵌入在OCR中的序列Motifs的组合与其在各种免疫细胞类型中的可及性之间的关系。在实验中,通过使用作者最近的ATAC-seq成果定义的每个OCR的327,927个序列的90%作为输入来训练该模型,以预测每个OCR在所有测得的细胞型上的ATAC-seq谱作为输出。CNN学习输入和输出之间精确映射的能力取决于几个超参数(隐藏层的数量,filter及其长度,损失函数),并且对它们进行了系统地探讨。在下图B中的一个示例中,在保留的OCR的子集上,经过训练的AI-TAC模型在精确预测所有人群的粒度变量可访问性方面显示出良好的性能。

image.png

总体而言,预测有61%的测试OCR具有统计上显着的相关系数(错误发现率[FDR] 0.05)(下图C)。OCR的可预测性与其在各种免疫细胞类型中可及性之间的变化之间存在很大的单调关系,因为具有低预测性能的OCR通常具有较小的变异系数(下图D和E)。该图还表明,除了普遍存在的OCR之外,在特定类别的OCR上也没有缺少该模型(如图F的热力图所证实)。通过执行几个随机实验以创建3个不同的空模型(图C)以及进行染色体省略实验,评估了这些预测的鲁棒性。此外,作者进行了10次交叉验证的10次独立试验(即100个受过训练的模型),因此327927个OCR被视为10个不同测试集的一部分(D)。这些数据可以确认,在针对数据的不同子集训练的不同模型中,通常可以很好地预测出预测良好的OCR,这表明该模型所捕获的调节逻辑是可以推广的。

image.png

4

总结

总而言之,针对全基因组染色质可及性的深度学习方法揭示了直接源自DNA序列的免疫转录调节因子的模式和复杂模式。尽管仍然存在一些盲点,但该监管路线图草案应为嫁接其他层级的人为或机器生成的结果提供基础,并为进行实验探索提供跳板。

目录
相关文章
|
机器学习/深度学习
《深度学习》李宏毅 -- task4深度学习介绍和反向传播机制
Step1:神经网络(Neural network) Step2:模型评估(Goodness of function) Step3:选择最优函数(Pick best function)
93 0
《深度学习》李宏毅 -- task4深度学习介绍和反向传播机制
|
机器学习/深度学习 自然语言处理
动手学深度学习(十四) NLP注意力机制和Seq2seq模型(下)
动手学深度学习(十四) NLP注意力机制和Seq2seq模型(下)
173 0
|
机器学习/深度学习 自然语言处理
动手学深度学习(十四) NLP注意力机制和Seq2seq模型(上)
动手学深度学习(十四) NLP注意力机制和Seq2seq模型(上)
153 0
动手学深度学习(十四) NLP注意力机制和Seq2seq模型(上)
|
机器学习/深度学习 人工智能 自然语言处理
深度学习教程 | Seq2Seq序列模型和注意力机制
本篇介绍自然语言处理中关于序列模型的高级知识,包括Sequence to sequence序列到序列模型和注意力机制。
3772 4
深度学习教程 | Seq2Seq序列模型和注意力机制
|
机器学习/深度学习 人工智能 算法
深度学习工作机制通俗介绍
本文是深度学习基础性介绍,以降维的角度分析卷积神经网络模型,并着重说明了目前人工智能存在的不科学性。
4936 0
|
Web App开发 JavaScript 安全
WebView深度学习(三)之WebView的内存泄漏、漏洞以及缓存机制原理和解决方案
上两篇文章讲到了WebView的基本使用以及Android和js的交互 以及 全面总结WebView遇到的坑及优化 ,这篇文章讲一下内存泄漏和漏洞处理。如果你想更深入的了解WebView,这篇文章值得一看。
1535 0
|
8天前
|
机器学习/深度学习 API 语音技术
|
10天前
|
机器学习/深度学习 监控 安全
智能化视野下的守卫者:基于深度学习的图像识别技术在智能监控领域的革新应用
【4月更文挑战第9天】 随着人工智能技术的飞速发展,深度学习已经成为了推动计算机视觉进步的重要力量。尤其在智能监控领域,基于深度学习的图像识别技术正逐步转变着传统监控系统的功能与效率。本文旨在探讨深度学习技术如何赋能智能监控,提高对场景理解的准确性,增强异常行为检测的能力,并讨论其在实际部署中所面临的挑战和解决方案。通过深入分析,我们揭示了深度学习在智能监控中的应用不仅优化了安全防范体系,也为城市管理和公共安全提供了有力的技术支持。
|
10天前
|
机器学习/深度学习 算法 数据处理
深度学习在图像识别中的创新应用
【4月更文挑战第9天】 随着人工智能技术的飞速发展,深度学习已成为推动计算机视觉领域进步的关键技术之一。特别是在图像识别任务中,深度学习模型已经展现出超越传统算法的性能。本文将深入探讨深度学习在图像识别领域的最新进展,包括卷积神经网络(CNN)的变体、数据增强技术以及迁移学习等策略。通过对这些技术的综合运用,我们能够实现对复杂图像数据的高效识别和分类,进一步拓展了深度学习在实际应用中的可能性。
12 1
|
10天前
|
机器学习/深度学习 人工智能 算法
深度学习在医学影像诊断中的应用与挑战
传统医学影像诊断一直是医学领域的重要组成部分,但其依赖于医生的经验和技能,存在着诊断准确性不高和效率低下的问题。近年来,随着深度学习技术的发展,越来越多的研究表明,深度学习在医学影像诊断中具有巨大的潜力。本文将探讨深度学习在医学影像诊断中的应用现状、挑战和未来发展趋势。
15 0