今天给大家介绍的是加拿大不列颠哥伦比亚大学和哈佛大学、加拿大CIFAR AI高级研究院合作发表在PNAS的一篇论文。作者借助深度学习中的卷积神经网络提出一个训练网络“ AI-TAC”,该模型通过从头开始发现已知调控因子和一些未知调控因子的结合DNA功能域(Motifs),学习推断细胞型特异性的染色质可及性(染色质开放性)。经过小鼠数据训练的AI-TAC可以解析人的DNA,最终揭示了免疫系统完全分化的调节机制。
1
背景
基因调控是现代分子生物学研究的中心课题之一,目前虽然探索出一些转录因子能够调控哪些特异性序列,但是对于控制免疫细胞分化的调控机理我们尚未清楚。对于免疫系统来说,每种细胞类型都有自己的DNA编码解释,而这种差异是由组成型和细胞型特异性转录因子,调节性RNA分子以及可能还未知的序列解析分子实体之间的相互作用驱动的。具有调控功能的顺反元件通过结合染色质开放区域参与到生物转录调控的过程中以控制转录活性。比如,转录因子一旦结合到开放的染色质区域,就会招募其他蛋白,使附近的基因开始转录。染色质开放性是动态的,整体的调控过程与染色质核小体的动态定位相关,因此,高效精确地定位基因组上的开放染色质位点、搞清核小体位置的动态变化,为成功地发掘基因组调控元件,乃至揭示基因表达调控机制提供重要线索和有效手段。Motifs(DNA功能域)是一段特异性序列,可以和转录因子结合,确定DNA结合的motif通常是详细阐释转录因子功能的第一步,鉴定潜在的结合位点为进一步分析提供了途径。开放的染色质区域(OCR)十分密切地反映了相应细胞中的基因表达。下一步问题是从这些描述性图表转向对如何确定这些染色质模式的理解。分析这些有差别的活跃开放染色质区域中转录因子结合Motifs(TFBS)的表示,提供了可能导致细胞特异性的转录因子的相关线索,特别是通过将转录因子本身的细胞类型特异性表达用作相关先验知识,所以作者就小鼠免疫系统的81种免疫细胞的染色质可及性,旨在利用CNN仅通过调节DNA序列来学习推断细胞类型特异性的染色质可及性。结果表明, AI-TAC可以学习准确预测细胞类型特异性OCR的精细特异性,解释策略能够发现在计算机中具有影响力的Motifs,并在“真实”染色质免疫沉淀和测序(ChIP-seq)数据中概括其分子对应物的结合位点。因此,AI-TAC学习了构成免疫细胞分化全局性基础的序列语法。
2
方法
AI-TAC模型的输入数据是251个碱基对 OCR的DNA序列,以预测每个OCR在所有测得的细胞型上的ATAC-seq作为输出,整个模型由三个卷积层和两个全连接层组成,使用Pearson相关性作为损失函数进行训练,可以增强模型准确预测其活性随细胞类型而变化的序列的能力。为了进行参数解释,1)对于300个第一层filter中的每一个,作者提取了激活它的短序列Motifs,表示为位置权重矩阵(PWM),并定义了其鲁棒性的操作参数,以及2)应用了梯度反向传播策略(DeepLift和TFMoDisco)。可重现的filter(基于PWM表示)在11个单独训练的模型中使用“出现次数”进行了识别。使用TomTom对PWM进行注释,以搜索TFBS的Cis-BP数据库(FDR 0.05)。使用消融策略计算filter影响值:依次移除每个filter,并计算所有示例中模型误差的平方差平均值。为了进行生化验证,将从基因表达综合(GEO)下载的Pax5,Ebf1,Spi1和Tcf1(32)的原始ChIP-seq数据集,并与AI-TAC相交预测。为了可视化高阶序列逻辑,获得了由节点激活在最后一个共享层中捕获的AI-TAC嵌入(n = 1000),并使用t-SNE对其进行了二维投影。下图A为模型整体框架图。
3
结果
AI-TAC可以仅从序列预测增强子活性,通过这种方式,AI-TAC学习了嵌入在OCR中的序列Motifs的组合与其在各种免疫细胞类型中的可及性之间的关系。在实验中,通过使用作者最近的ATAC-seq成果定义的每个OCR的327,927个序列的90%作为输入来训练该模型,以预测每个OCR在所有测得的细胞型上的ATAC-seq谱作为输出。CNN学习输入和输出之间精确映射的能力取决于几个超参数(隐藏层的数量,filter及其长度,损失函数),并且对它们进行了系统地探讨。在下图B中的一个示例中,在保留的OCR的子集上,经过训练的AI-TAC模型在精确预测所有人群的粒度变量可访问性方面显示出良好的性能。
总体而言,预测有61%的测试OCR具有统计上显着的相关系数(错误发现率[FDR] 0.05)(下图C)。OCR的可预测性与其在各种免疫细胞类型中可及性之间的变化之间存在很大的单调关系,因为具有低预测性能的OCR通常具有较小的变异系数(下图D和E)。该图还表明,除了普遍存在的OCR之外,在特定类别的OCR上也没有缺少该模型(如图F的热力图所证实)。通过执行几个随机实验以创建3个不同的空模型(图C)以及进行染色体省略实验,评估了这些预测的鲁棒性。此外,作者进行了10次交叉验证的10次独立试验(即100个受过训练的模型),因此327927个OCR被视为10个不同测试集的一部分(D)。这些数据可以确认,在针对数据的不同子集训练的不同模型中,通常可以很好地预测出预测良好的OCR,这表明该模型所捕获的调节逻辑是可以推广的。
4
总结
总而言之,针对全基因组染色质可及性的深度学习方法揭示了直接源自DNA序列的免疫转录调节因子的模式和复杂模式。尽管仍然存在一些盲点,但该监管路线图草案应为嫁接其他层级的人为或机器生成的结果提供基础,并为进行实验探索提供跳板。