时间卷积网络(TCN)在 NLP 多领域发光,RNN 或将没落

简介: 我们一开始认为,时序问题(如语言、语音等等)天生就是 RNN 的地盘。然而现在这一观点要成为过去式了。时间卷积网络(Temporal Convolutional Nets, TCNs)作为 CNN 家族中的一员健将,拥有许多新特性,如今已经在诸多主要应用领域中击败了 RNN。

也就是从 2014、15 年起,我们基于深度神经网络的应用就已经在文本和语音识别领域达到 95% 的准确率,可以用来开发新一代的聊天机器人、个人助理和即时翻译系统等。

卷积神经网络(Convolutional Neural Nets, CNNs)是图像和视频识别领域公认的主力军,而循环神经网络(Recurrent Neural Nets, RNNs)在自然语言处理领域的地位与其是相似的。

但二者的一个主要不同是,CNN 可以识别静态图像(或以帧分割的视频)中的特征,而 RNN 在文本和语音方面表现出色,因为这类问题属于序列或时间依赖问题。也就是说,待预测的后一个字符或单词依赖于前面的(从左到右)字符或单词,因此引入时间的概念,进而考虑到序列。

实际上,RNN 在所有的序列问题上都有良好表现,包括语音 / 文本识别、机器翻译、手写体识别、序列数据分析(预测),甚至不同配置下的自动编码生成等等。

fc338a372208d5ccf67d1cb4d1baf4d6fb4012b8

在很短的一段时期里,RNN 的改进版本大行其道,其中包括 LSTM(long short term memory,长短期记忆网络)和 GRU(gated recurring units,门循环单元)。这二者都改进了 RNN 的记忆范围,令数据可以将距离其很远的文本信息利用起来。

解决“才怪”问题

当 RNN 从左到右按顺序读取字符时,上下文就成了一个重要问题。比如,对一条评论进行情感分析时,刚开始的几句话可能是正面的(例如,食物好,气氛好)但以负面评论结束(如服务差,价格高),最后整条评论实际上是负面的。这其实在逻辑上等同于“才怪”的玩笑:“这个领带看着不错……才怪!”

这个问题的解决方案是使用两个 LSTM 编码器,同时从两个方向读取文本(即双向编码器)。这相当于在现在掌握了(文本的)未来信息。这很大程度上解决了问题。精度确实提高了。

Facebook 和 Google 遭遇的一个问题

早些年,当 Facebook 和 Google 发布各自的自动语言翻译系统时,他们意识到了一个问题——翻译耗时太长了。

这实际上是 RNN 在内部设计上存在的一个问题。由于网络一次只读取、解析输入文本中的一个单词(或字符),深度神经网络必须等前一个单词处理完,才能进行下一个单词的处理。

这意味着 RNN 不能像 CNN 那样进行大规模并行处理(massive parallel processing,MPP),特别是在 RNN/LSTM 对文本进行双向处理时。

这也意味着 RNN 极度地计算密集,因为在整个任务运行完成之前,必须保存所有的中间结果。

2017 年初,Google 和 Facebook 针对该问题提出了相似的解决方案——在机器翻译系统中使用 CNN,以便将大规模并行处理的优势发挥出来。在 CNN 中,计算不依赖于之前时间的信息,因此每个计算都是独立的,可以并行起来。

Google 的解决方案叫做 ByteNet,而 Facebook 的称为 FairSeq(这是用 Facebook 内部的人工智能研究团队 FAIR 来命名的)。FairSeq 的代码已发布至 GitHub。

Facebook 称他们的 FairSeq 网络的运行速度比基本的 RNN 快 9 倍。

基本工作原理

CNN 在处理图像时,将图像看作一个二维的“块”(高度和宽度);迁移到文本处理上,就可以将文本看作一个一维对象(高度 1 个单位,长度 n 个单位)。

但 RNN 不能直接预定义对象长度,而 CNN 需要长度信息。因此,要使用 CNN,我们必须不断增加层数,直到整个感受野都被覆盖为止。这种做法会让 CNN 非常深,但是得益于大规模并行处理的优势,无论网络多深,都可以进行并行处理,节省大量时间。

特殊结构:选通 + 跳跃 = 注意力

当然,具体的解决方案不会像上面所说的那样简单。Google 和 Facebook 还向网络中添加了一个特殊结构:“注意力(Attention)”函数。

最初的注意力函数是去年由 Google Brain 和多伦多大学的研究者们提出的,命名为变换器(Transformer)。

原论文链接:

https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf。

当时,Facebook 和 Google 使用的函数几乎一模一样,因此该函数备受关注,被称为“注意力”函数。该函数有两个独特的特征。

第一个特征被 Facebook 称为“多跳跃”。和传统 RNN 方法的每个句子只“看”一次不同,多跳跃让系统可以“瞥”一个句子“好多眼”。这种行为和人工翻译更相似。

每“一瞥”可能会关注某个名词或动词,而这些词并不一定是一个序列,因此在每一次迭代中可以更深入地理解其含义。每“瞥”之间可能是独立的,也可能依赖于前面的“瞥”,然后去关注相关的形容词、副词或助动词等。

d2fdc15a294501d93b4acb24d348d8b719de3e5a

上图是 Facebook 给出的一个法英翻译的例子,展示了第一次迭代的过程。该次迭代编码了每一个法语单词,然后用“多跳跃”的方法选择最合适的英文翻译。

第二个特征是选通(即门控制),用来控制各隐藏层之间的信息流。在上下文理解过程中,门通过对 CNN 的尺度控制,来判断哪些信息能更好地预测下一个单词。

不只是机器翻译——时间卷积网络(TCN)

至 2017 年中旬,Facebook 和 Google 已经通过使用 CNN 和注意力函数,完全解决了机器翻译的时间效率问题。而更重要的一个问题是,这种技术大有用武之地,不能将其埋没在加速机器翻译的小小任务中。我们能否将其推广到所有适用于 RNN 的问题?答案是,当然可以。

2017 年,相关的研究发表了很多;其中有些几乎是和 Facebook、Google 同时发表的。其中一个叙述比较全面的论文是 Shaojie Bai、J. Zico Kolter 和 Vladlen Koltun 发表的“An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling”。

原文链接:https://arxiv.org/pdf/1803.01271.pdf。

有些同仁将这种新架构命名为时间卷积网络。当然随着工业上的应用,这个名称有可能会被更改。

上述论文所做的工作是在 11 个不同的、非语言翻译类的工业标准 RNN 问题上,将 TCN 与 RNN、LSTM、GRU 进行了直接比较。

研究的结论是:TCN 在其中的 9 个问题中,不仅速度更快,且精度更高;在 1 个问题中与 GRU 打了平手(下表中的粗体文字代表精度最高项。图片截取自原论文)。

17fb6fd1e98f12126c7ca154319a5dc78c7c4d31

TCN 优缺点

Shaojie Bai、J. Zico Kolter 和 Vladlen Koltun 还给出了下面这一实用的列表,列举了 TCN 的优缺点。

d47e62d2b349aca45e42305ed6714efbe5ed61d9 速度很重要。更快的网络能使反馈环更短。由于在 TCN 中可以进行大规模并行处理,网络训练和验证的时间都会变短。
d47e62d2b349aca45e42305ed6714efbe5ed61d9 TCN 为改变感受野大小提供了更多灵活性,主要是通过堆叠更多的卷积层、使用更大的膨胀系数及增大滤波器大小。这些操作可以更好地控制模型的记忆长短。
d47e62d2b349aca45e42305ed6714efbe5ed61d9 TCN 的反向传播路径和序列的时间方向不同。这避免了 RNN 中经常出现的梯度爆炸或梯度消失问题。
d47e62d2b349aca45e42305ed6714efbe5ed61d9 训练时需要的内存更少,尤其是对于长输入序列。

然而,作者指出,TCN 在迁移学习方面可能没有 CNN 的适应能力那么强。这是因为在不同的领域,模型预测所需要的历史信息量可能是不同的。因此,在将一个模型从一个对记忆信息需求量少的问题迁移到一个需要更长记忆的问题上时,TCN 可能会表现得很差,因为其感受野不够大。

进一步考虑TCN 已经被应用在很多重要领域,也获得了极大成功,甚至几乎可以解决一切序列问题。因此,我们需要重新考虑我们之前的看法。序列问题不再是 RNN 的专属领域,而 TCN 应该成为我们未来项目的优先选项。


原文发布时间为:2018-05-15

本文作者:AI前线

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:时间卷积网络(TCN)在 NLP 多领域发光,RNN 或将没落

相关文章
|
3月前
|
机器学习/深度学习 PyTorch TensorFlow
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic,深度学习探索者。深耕TensorFlow与PyTorch,分享框架对比、性能优化与实战经验,助力技术进阶。
|
4月前
|
机器学习/深度学习 人工智能 算法
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic带你深入卷积神经网络(CNN)核心技术,从生物启发到数学原理,详解ResNet、注意力机制与模型优化,探索视觉智能的演进之路。
505 11
|
7月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于PSO粒子群优化TCN-LSTM时间卷积神经网络时间序列预测算法matlab仿真
本内容展示了一种基于粒子群优化(PSO)与时间卷积神经网络(TCN)的时间序列预测方法。通过 MATLAB2022a 实现,完整程序运行无水印,核心代码附详细中文注释及操作视频。算法利用 PSO 优化 TCN 的超参数(如卷积核大小、层数等),提升非线性时间序列预测性能。TCN 结构包含因果卷积层与残差连接,结合 LSTM 构建混合模型,经多次迭代选择最优超参数,最终实现更准确可靠的预测效果,适用于金融、气象等领域。
|
4月前
|
机器学习/深度学习 传感器 数据采集
【故障识别】基于CNN-SVM卷积神经网络结合支持向量机的数据分类预测研究(Matlab代码实现)
【故障识别】基于CNN-SVM卷积神经网络结合支持向量机的数据分类预测研究(Matlab代码实现)
351 0
|
8月前
|
机器学习/深度学习 人工智能 算法
深度解析:基于卷积神经网络的宠物识别
宠物识别技术随着饲养规模扩大而兴起,传统手段存在局限性,基于卷积神经网络的宠物识别技术应运而生。快瞳AI通过优化MobileNet-SSD架构、多尺度特征融合及动态网络剪枝等技术,实现高效精准识别。其在智能家居、宠物医疗和防走失领域展现广泛应用前景,为宠物管理带来智能化解决方案,推动行业迈向新高度。
|
6月前
|
机器学习/深度学习 人工智能 PyTorch
零基础入门CNN:聚AI卷积神经网络核心原理与工业级实战指南
卷积神经网络(CNN)通过局部感知和权值共享两大特性,成为计算机视觉的核心技术。本文详解CNN的卷积操作、架构设计、超参数调优及感受野计算,结合代码示例展示其在图像分类、目标检测等领域的应用价值。
386 7
|
8月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于PSO粒子群优化TCN时间卷积神经网络时间序列预测算法matlab仿真
本内容介绍了一种基于PSO(粒子群优化)改进TCN(时间卷积神经网络)的时间序列预测方法。使用Matlab2022a运行,完整程序无水印,附带核心代码中文注释及操作视频。TCN通过因果卷积层与残差连接处理序列数据,PSO优化其卷积核权重等参数以降低预测误差。算法中,粒子根据个体与全局最优位置更新速度和位置,逐步逼近最佳参数组合,提升预测性能。
|
7月前
|
机器学习/深度学习 数据采集 监控
基于CNN卷积神经网络和GEI步态能量提取的步态识别算法matlab仿真,对比不同角度下的步态识别性能
本项目基于CNN卷积神经网络与GEI步态能量提取技术,实现高效步态识别。算法使用不同角度(0°、45°、90°)的步态数据库进行训练与测试,评估模型在多角度下的识别性能。核心流程包括步态图像采集、GEI特征提取、数据预处理及CNN模型训练与评估。通过ReLU等激活函数引入非线性,提升模型表达能力。项目代码兼容Matlab2022a/2024b,提供完整中文注释与操作视频,助力研究与应用开发。
|
9月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于GA遗传优化TCN-GRU时间卷积神经网络时间序列预测算法matlab仿真
本项目基于MATLAB2022a开发,提供无水印算法运行效果预览及核心程序(含详细中文注释与操作视频)。通过结合时间卷积神经网络(TCN)和遗传算法(GA),实现复杂非线性时间序列的高精度预测。TCN利用因果卷积层与残差连接提取时间特征,GA优化超参数(如卷积核大小、层数等),显著提升模型性能。项目涵盖理论概述、程序代码及完整实现流程,适用于金融、气象、工业等领域的时间序列预测任务。
|
7月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于WOA鲸鱼优化的TCN-GRU时间卷积神经网络时间序列预测算法matlab仿真
本内容包含时间序列预测算法的相关资料,涵盖以下几个方面:1. 算法运行效果预览(无水印);2. 运行环境为Matlab 2022a/2024b;3. 提供部分核心程序,完整版含中文注释及操作视频;4. 理论概述:结合时间卷积神经网络(TCN)与鲸鱼优化算法(WOA),优化TCN超参数以提升非线性时间序列预测性能。通过因果卷积层与残差连接构建TCN模型,并用WOA调整卷积核大小、层数等参数,实现精准预测。适用于金融、气象等领域决策支持。