EPIVAN | 基于预训练和注意力机制的启动子增强子相互作用预测

简介: EPIVAN | 基于预训练和注意力机制的启动子增强子相互作用预测

image.png

作者 | 洪曾艳

指导 | 刘向荣教授

单位 | 厦门大学

研究方向 | 生物序列分析

image.png

1. 研究背景


增强子是一段50-1500bp的DNA序列,它能够提高特定基因的转录活性,能大大增强启动子的活性。启动子是转录起始位点上游与RNA聚合酶结合的一段DNA序列,能使RNA聚合酶与模板DNA准确的结合并具有转录起始的特异性。增强子和启动子的相互作用关键影响了基因的表达调控,和人类疾病的发生密切相关。因此研究某个增强子是否会和某个启动子发生反应具有重大的意义。用生物实验的手段进行增强子和启动子的相互作用研究需要耗费大量的人力、时间和资金。随着高通量测序技术发展,为研究人员提供了大量的数据,用计算的方式深入研究增强子和启动子的相互作用成为可能。


现有的一些关于增强子和启动子的相互作用识别的计算方法存在一些不足。首先,强子和启动子的相互作用具有细胞系特异性,即在不同细胞系中的作用规律通常是不同的。大多数现有方法可以预测细胞系特异性的增强子和启动子的相互作用,但是构建的模型不能在各种细胞系中通用。其次,之前的方法都使用one-hot或普通的word embedding对基因序列编码,这具有一些局限性。比如,单个细胞系的训练样本数量不够多,训练出来的词向量包含的信息有限。


为了解决这些问题,作者提出了一个新的深度学习模型,EPIVAN,只需要输入增强子和启动子的基因序列就可以预测增强子和启动子的相互作用。这项工作的三个贡献如下:(1)使用基于人类全基因预训练的DNA向量来编码增强子和启动子。(2)使用注意机制来增强关键特征对模型的贡献,从而提高模型的性能。(3)建立了一个通用模型,它具有迁移能力,可用于预测各种细胞系中的增强子和启动子的相互作用。


2.模型介绍


模型预测增强子和启动子的相互作用的流程如图1所示。它有三个主要步骤:序列嵌入,特征提取和注意机制。然后,将生成的特征向量馈送到最后的预测层,以预测EPI。

image.png


图1 EPIVAN的流程图


2.1序列嵌入


为了解决one-hot编码和普通词向量所含信息不足的问题,作者使用了dna2vec中提供的预训练的DNA向量。dan2vec是Ng等人在2017年提出的一种基于word2vec词向量模型的新方法,用于计算DNA序列中k-mers(k-mer是长度为k的序列片段)的分布式表示。dna2vec使用人类基因组序列作为学习语料库,将k-mers嵌入到100维连续向量空间中。相比以单细胞系的增强子和启动子基因序列作为训练语料,dna2vec使用更大的学习语料库,因此学习的DNA向量包含更多的序列信息。用预训练的DNA向量对输入模型的基因序列进行编码能够让模型有更多的信息能捕获。

image.png

2.2特征提取


在深度学习中,通常使用递归神经网络(RNN)进行序列分析,但是RNN不能并发计算,对于长序列的分析需要耗费非常多的计算资源和时间。也有些方法使用卷积神经网络(CNN)进行序列特征提取,CNN可以并行计算,但是CNN只能关注序列局部联系的特征,会丢失远距离序列依赖特征。所以作者将CNN和RNN相结合,共同提取序列特征。序列编码。当获取了序列的向量表示后,作者首先使用1维卷积层和最大池化层来提取序列中的局部相关特征,然后将它们再输入到双向门控循环单元(Bi-GRU)中以提取全局相关特征。


2.3注意力机制


在进行初步的特征提取后,作者希望能够加强更关键的特征对模型的贡献。作者使用了Yang等人在2016年提出的用于文档分类的注意力机制来自适应地学习特征的权重。为了让EPIVAN模型更好的做出预测,对预测增强子和启动子是否会发生反应启更突出作用的特征,作者使用这个注意力机制来提高这些关键特征的权重。该注意力机制在训练过程中能够自适应地学习一个上下文向量,并计算每个特征的隐藏表示和这个上下文向量的相似性,如果相似性越高则赋予该向量的权重越大。注意机制的公式描述如下:

image.png

其中,是第i个特征的隐藏表示。α为每个特征的归一化权重。所有特征向量乘以它们相应的权重,然后求和为最终的特征向量v。最后这个特征向量将输入到预测层(一个sigmoid单元)中进行最后的预测。


3. 实验


实验的数据来自TargetFinder提供的数据集,该数据集包含了人类的6个细胞系(GM12878,HUVEC,HeLa-S3,IMR90,K562,NHEK)中的增强子和启动子相互作用。当一对启动子和增强子会发生反应,被标记为正样本;否则被标记为负样本。作者使用了数据增强的方法处理类不平衡问题。并使用受试者工作特征曲线下面积(AUROC)和precision-recall 曲线下面积作为模型性能的评估指标。


因为增强子和启动子相互作用存在细胞系特异性,所以作者首先构建了特异性模型,EPIVAN-specific。并通过实验证明了,在指定细胞系上训练的EPIVAN-specific能够很好地预测该细胞系上的增强子和启动子相互作用,但是在其他细胞系上就失去了预测能力(如表1和表2所示)。


表1 EPIVAN-specific在每个细胞系上的AUROC值

image.png

image.png

为了解决要为不同的细胞系训练不同的模型,作者提出构建通用模型EPIVAN-general。相比在单个细胞系上训练的EPIVAN-specific,在六个细胞系上训练的EPIVAN-general能够捕获共同特征,但捕获特异性特征的能力低于EPIVAN-specific,所以EPVAN-general可以在6个细胞系上通用,但是在指定细胞系上没有EPIVAN-specific的表现好(实验结果如表3所示)。


表3 EPIVAN-general在每个细胞系上的表现

image.png

在构建完EPIVAN-specific和EPIVAN-general模型的基础上,作者对预训练DNA向量和注意力机制对模型的贡献进行了讨论。作者设计了两组对照实验,证明了预训练DNA向量有助于模型更好地捕获细胞系共有特征。注意机制有助于模型更好地提取细胞系特异性特征。这两者共同协助,大大提高了通用模型的性能(在训练集较小的EPIVAN-specific模型上,预训练DNA向量无法发挥出作用)。对照实验结果如图2和图3所示。


image.png


图2 八个模型在六个细胞系上的AUROC值。(a)去除预训练DNA向量或注意机制后EPIVAN-specific的表现。(b)去除预训练DNA向量或注意机制后EPIVAN-general的表现。

image.png

图3 八个模型在六个细胞系上的AUPR值。(a)去除预训练DNA向量或注意机制后EPIVAN-specific的表现。(b)去除预训练DNA向量或注意机制后EPIVAN-general的表现。


为了提高EPIVAN-general在指定细胞系上的表现,作者提出了新的训练策略,令EPIVAN-general在指定细胞系上进行再训练来增强EPIVAN-general对该细胞系特异性特征的提取,并将再训练后的模型称为EPIVAN-best。并将EPIVAN-best在每个细胞系上的表现和EPIVAN-specific和EPIVAN-general进行对比。实验结果表明,EPIVAN-best在每个细胞系上的表现比EPIVAN-specific和EPIVAN-general都要好得多(如表4和表5所示)。


表4 三个模型在六个细胞系上的AUROC值

image.png

表5 三个模型在六个细胞系上的AUPR值

image.png

作者还将EPIVAN-best和现有的最先进的识别增强子和启动子相互作用的模型进行比较,实验结果表明,EPIVAN-best在每个细胞系上的表现都优于现有模型(如表6和表7所示)

表6 不同模型在六个细胞系上的AUROC值

image.png

表7 不同模型在六个细胞系上的AUPR值


image.png

最后作者对EPIVAN-general是否能够进行迁移学习进行了讨论。实验结果表明,EPIVAN-general可以作为迁移学习的预训练模型(如表8所示)。

表8 EPIVAN-general迁移到新的细胞系上的AUROC和AUPR值

image.png

4. 总结


在这项工作中,作者提出了一个仅使用增强子和启动子序列就能预测增强子和启动子相互作用的新模型EPIVAN。与现有模型相比,EPIVAN增加了预先训练的DNA向量和注意机制,能够构建不同细胞系都适用的通用模型。作者证明了EPIVAN能够捕获细胞系特异性特征和细胞系共同特征,并证明了EPIVAN-general具有良好的迁移能力,可以作为迁移学习的预训练模型。六个细胞系的实验结果作者提出的最优模型EPIVAN-best比现有的最先进的模型表现都更好。


参考资料


Zengyan Hong, Xiangxiang Zeng, Leyi Wei, Xiangrong Liu, Identifying Enhancer-Promoter Interactions with Neural Network Based on Pre-trained DNA Vectors and Attention Mechanism, Bioinformatics, btz694.


Ng, P. (2017) dna2vec: Consistent vector representations of variable-length k-mers. arXiv:1701.06279.


Yang, Z. et al. (2016) Hierarchical Attention Networks for Document Classification. arXiv:1707.00896.


Whalen, S. et al. (2016) Enhancer-promoter interactions are encoded by complex genomic signatures on looping chromatin. Nature Genetics, 48, 488-496.


Code availability


https://github.com/hzy95/EPIVAN


DrugAI

( 扫描下方二维码订阅获取最新消息!)

image.png





目录
相关文章
|
6月前
|
机器学习/深度学习 自然语言处理 数据可视化
深度探索变分自编码器在无监督特征学习中的应用
【4月更文挑战第20天】 在深度学习领域,无监督学习一直是研究的热点问题之一。本文聚焦于一种前沿的生成模型——变分自编码器(Variational Autoencoder, VAE),探讨其在无监督特征学习中的关键作用与应用潜力。不同于传统的摘要形式,本文将直接深入VAE的核心机制,分析其如何通过引入随机隐变量和重参数化技巧,实现对复杂数据分布的有效建模。文章还将展示VAE在多个实际数据集上的应用结果,验证其作为无监督特征提取工具的有效性和普适性。通过理论与实践的结合,本文旨在为读者提供关于VAE在无监督特征学习领域的全面认识。
|
机器学习/深度学习 PyTorch 算法框架/工具
神经网络加上注意力机制,精度不升反降?
神经网络加上注意力机制,精度不升反降?
神经网络加上注意力机制,精度不升反降?
|
1月前
|
机器学习/深度学习 自然语言处理 数据建模
三种Transformer模型中的注意力机制介绍及Pytorch实现:从自注意力到因果自注意力
本文深入探讨了Transformer模型中的三种关键注意力机制:自注意力、交叉注意力和因果自注意力,这些机制是GPT-4、Llama等大型语言模型的核心。文章不仅讲解了理论概念,还通过Python和PyTorch从零开始实现这些机制,帮助读者深入理解其内部工作原理。自注意力机制通过整合上下文信息增强了输入嵌入,多头注意力则通过多个并行的注意力头捕捉不同类型的依赖关系。交叉注意力则允许模型在两个不同输入序列间传递信息,适用于机器翻译和图像描述等任务。因果自注意力确保模型在生成文本时仅考虑先前的上下文,适用于解码器风格的模型。通过本文的详细解析和代码实现,读者可以全面掌握这些机制的应用潜力。
58 3
三种Transformer模型中的注意力机制介绍及Pytorch实现:从自注意力到因果自注意力
|
4月前
|
机器学习/深度学习 计算机视觉
【YOLOv8改进 - 特征融合】 YOGA iAFF :注意力机制在颈部的多尺度特征融合
【YOLOv8改进 - 特征融合】 YOGA iAFF :注意力机制在颈部的多尺度特征融合
|
30天前
|
机器学习/深度学习 调度 知识图谱
TimeDART:基于扩散自回归Transformer 的自监督时间序列预测方法
近年来,深度神经网络成为时间序列预测的主流方法。自监督学习通过从未标记数据中学习,能够捕获时间序列的长期依赖和局部特征。TimeDART结合扩散模型和自回归建模,创新性地解决了时间序列预测中的关键挑战,在多个数据集上取得了最优性能,展示了强大的泛化能力。
70 0
TimeDART:基于扩散自回归Transformer 的自监督时间序列预测方法
|
4月前
|
机器学习/深度学习 计算机视觉
【YOLOv8改进 - 注意力机制】c2f结合CBAM:针对卷积神经网络(CNN)设计的新型注意力机制
【YOLOv8改进 - 注意力机制】c2f结合CBAM:针对卷积神经网络(CNN)设计的新型注意力机制
|
4月前
|
机器学习/深度学习 图计算 计算机视觉
【YOLOv8改进 - 注意力机制】 CascadedGroupAttention:级联组注意力,增强视觉Transformer中多头自注意力机制的效率和有效性
YOLO目标检测专栏探讨了Transformer在视觉任务中的效能与计算成本问题,提出EfficientViT,一种兼顾速度和准确性的模型。EfficientViT通过创新的Cascaded Group Attention(CGA)模块减少冗余,提高多样性,节省计算资源。在保持高精度的同时,与MobileNetV3-Large相比,EfficientViT在速度上有显著提升。论文和代码已公开。CGA通过特征分割和级联头部增加注意力多样性和模型容量,降低了计算负担。核心代码展示了CGA模块的实现。
|
4月前
|
机器学习/深度学习 自然语言处理 并行计算
【YOLOv8改进 -注意力机制】Mamba之MLLAttention :基于Mamba和线性注意力Transformer的模型
YOLOv8专栏探讨了该目标检测模型的创新改进,包括使用Mamba模型的线性注意力Transformer变体,称为MLLA。Mamba的成功关键在于遗忘门和块设计,MLLA结合了这些优点,提升了视觉任务的性能。文章提供全面分析,并提出MLLA模型,其在效率和准确性上超过多种视觉模型。论文和代码可在提供的链接中找到。MLLA Block的代码示例展示了如何整合关键组件以实现高效运算。更多配置详情见相关链接。
|
5月前
|
机器学习/深度学习 编解码 并行计算
【深度学习】多头注意力机制详解
【深度学习】多头注意力机制详解
155 1
|
6月前
|
机器学习/深度学习 异构计算
Gradformer: 通过图结构归纳偏差提升自注意力机制的图Transformer
Gradformer,新发布的图Transformer,引入指数衰减掩码和可学习约束,强化自注意力机制,聚焦本地信息并保持全局视野。模型整合归纳偏差,增强图结构建模,且在深层架构中表现稳定。对比14种基线模型,Gradformer在图分类、回归任务中胜出,尤其在NCI1、PROTEINS、MUTAG和CLUSTER数据集上准确率提升明显。此外,它在效率和深层模型处理上也表现出色。尽管依赖MPNN模块和效率优化仍有改进空间,但Gradformer已展现出在图任务的强大潜力。
127 2