备案控制台

开发者社区 ModelScope模型即服务文章正文

一、序列模型-sequence model

2023-02-01 369

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

交互式建模 PAI-DSW，每月250计算时 3个月

模型训练 PAI-DLC，100CU*H 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

简介： 一、序列模型-sequence model

在生活中，有许多领域都用到了序列模型，如语音识别，音乐创作，情感分类，DNA序列分析，机器翻译，视频动作检测，名称实体识别等。

1、符号定义

对于训练数据中的输入序列X和输出序列Y，令 x(i)<t>表示第 i个训练数据输入序列中，第 t个位置的序列元素；令y(i)<t>表示第 i个训练数据输出序列中，第 t个位置的序列元素；令 Tx(i)表示第 i i i个训练数据输入序列的长度；令 Ty(i)表示第 i i i个训练数据输出序列的长度。one-hot向量表示法表示 x(i)<t>：对于构建的词库vocabulary，词库中 x(i)<t>位置的取值为1，其余位置取值均为0；伪词<UNK>-Unknown Word，用来代替没有在vocabulary中出现的词。

2、构建循环神经网络-Recurrent Neural Network

使用标准神经网络(ANN)处理序列问题问题的缺陷：首先，序列问题下不同的训练数据的输入和输出很大可能下会不同；其次，也是比较重要的缺陷在于，ANN不会共享从不同文本文职学习到的特征。

循环神经网络(RNN)的结构如下图所示：

其中， a<i>表示通过神经网络层和激活函数计算之后的值，其中 a<0>一般初始化为全0向量； w a x ， w a a ， w y a w_{ax}，w_{aa}，w_{ya} wax，waa，wya表示权重系数。如：

其中，g表示激活函数，计算 a时候的激活函数和计算 y时候的激活函数不一定为一种激活函数。计算 a 时候的激活函数通常使用 tanh或者 Relu；计算 y的时候，激活函数通常使用sigmoid(用于二元分类问题)或者softmax(用于多元分类问题)。上述拓展公式扩展到第 t步时的计算方法如下所示：

使用 [waa;wax]=wa，可以将上式 at的表达形式进行简化为：

使用 w y 代替 w y a w_y代替w_{ya} wy代替wya可以将上式 y

<t>的表达形式变为：

2.1 RNN中的反向传播

RNN正向传播的简化示意图如下图所示：

下面定义出序列模型的单个时间步下的交叉熵误差计算式：

所以总的误差为将所有时间步下的误差进行累和得到：

误差反向传播的示意图如下图所示：

2.2 不同架构的RNN

多对多RNN，many-to-many，输入序列有多个元素，输出序列也有多个元素，输入输出序列长度相同的示意如下所示：

多对多RNN，many-to-many，输入序列有多个元素，输出序列也有多个元素，输入输出序列长度不同的示意如下所示：

多对一RNN，输入序列中有多个元素，输出序列中只有一个元素：

一对多RNN，输入序列只有一个元素，输出序列中包含多个元素：

3、语言模型的RNN架构

3.1 架构

基于RNN的语言模型的架构如下所示：

损失函数使用交叉熵误差，形式如下所示：

3.2 序列采样

下图展示了怎样从一个训练好的RNN模型中提取出结果序列。

4、RNN的梯度消失问题-vanishing gradients

若输入序列的长度过长，后续RNN在预测时，对于很早之前的输入信息会变得不太“敏感”，若很早之前输入的信息对于RNN后续预测影响很大，则会使得RNN的效果变得很差，使得RNN不擅长捕捉远程依赖关系。

4.1 门控制单元-Gate Recurrent Unit

GRU通过修改RNN的隐藏层，使得RNN可以更好地捕捉长距离的关系，有助于减少梯度消失的问题。

简化版的GRU单元如下所示：

其中 C表示记忆单元(memory cell)，

C <t>=tanh(wc[C<t−1>，x<t>]+bc)

表示 t时间步下的记忆单元，在GRU中， a<t>=C<t>；

Γu=sigmoid(wu[C<t−1>,x<t>]+bu)

表示更新门控；

C<t>=Γu∗C <t>+(1−Γu)C<t−1>

用来计算 t时间步下的输出值；

完整版的GRU需要引入一个新的门控单元-相关性门控 Γr表示 t−1时间步的记忆单元和 t时间步的记忆单元之间的相关性，所以需要对 C<t>的计算进行调整：

4.2 长短期记忆单元-Long Short Term Memory

下图罗列出了在GRU中使用的机制：

LSTM相对于GRU是一种更加有效，更加泛化的克服梯度消失问题的工具。在LSTM中，a<t>和 C<t>不再是一个相同的值；LSTM通常不需要相关性控制门 Γr，但是增加了两个额外的控制门 Γf表示遗忘控制门和 Γo表示输出控制门。所以LSTM的核心等式如下所示：

LSTM的示意图如下图所示：

5、双向RNN-Bidirectional RNN

BRNN是为了同时考虑过去的信息和未来的信息，在某个时间步 t t下进行决策，BRNN的示意图如下图所示：

其中，在某个时间步 t下的预测值区别于RNN，需要同时考虑前向输入和后向输入

文章标签：

语音技术

自然语言处理

机器学习/深度学习

wax

Web App开发

Serverless

游客oetevljcjdk52

目录

相关文章

冷冻工厂

|

机器学习/深度学习自然语言处理语音技术

从 Seq2Seq 到 Attention：彻底改变序列建模

从 Seq2Seq 到 Attention：彻底改变序列建模

冷冻工厂

79 0 0

我是小白同学

|

5天前

|

机器学习/深度学习自然语言处理并行计算

Transformer 学习笔记 | Seq2Seq，Encoder-Decoder，分词器tokenizer，attention，词嵌入

本文记录了学习Transformer过程中的笔记，介绍了Seq2Seq模型及其编码器-解码器结构。Seq2Seq模型通过将输入序列转化为上下文向量，再由解码器生成输出序列，适用于机器翻译、对话系统等任务。文章详细探讨了Seq2Seq的优势与局限，如信息压缩导致的细节丢失和短期记忆限制，并引入注意力机制来解决长序列处理问题。此外，还介绍了分词器（tokenizer）的工作原理及不同类型分词器的特点，以及词嵌入和Transformer架构的基础知识。文中包含大量图表和实例，帮助理解复杂的概念。参考资料来自多个权威来源，确保内容的准确性和全面性。

我是小白同学

104 9 9

kaixin321-44007

|

6月前

|

机器学习/深度学习自然语言处理

序列到序列（Seq2Seq）模型

序列到序列（Seq2Seq）模型

kaixin321-44007

262 8 8

BetterBench

|

6月前

【Bert4keras】解决Key bert/embeddings/word_embeddings not found in checkpoint

在使用bert4keras进行预训练并加载模型时遇到的"bert/embeddings/word_embeddings not found in checkpoint"错误，并提供了通过重新生成权重模型来解决这个问题的方法。

BetterBench

87 3 3

冷冻工厂

|

机器学习/深度学习存储自然语言处理

深入解析序列模型：全面阐释 RNN、LSTM 与 Seq2Seq 的秘密

深入解析序列模型：全面阐释 RNN、LSTM 与 Seq2Seq 的秘密

冷冻工厂

189 0 0

是Yu欸

|

机器学习/深度学习自然语言处理 PyTorch

【文本摘要（3）】Pytorch之Seq2seq: attention

【文本摘要（3）】Pytorch之Seq2seq: attention

是Yu欸

113 0 0

-开发达人-

|

机器学习/深度学习人工智能自然语言处理

Seq2Seq、SeqGAN、Transformer…你都掌握了吗？一文总结文本生成必备经典模型（2）

Seq2Seq、SeqGAN、Transformer…你都掌握了吗？一文总结文本生成必备经典模型

-开发达人-

179 0 0

-开发达人-

|

机器学习/深度学习自然语言处理 PyTorch

Seq2Seq、SeqGAN、Transformer…你都掌握了吗？一文总结文本生成必备经典模型（1）

Seq2Seq、SeqGAN、Transformer…你都掌握了吗？一文总结文本生成必备经典模型

-开发达人-

224 0 0

征途黯然。

|

机器学习/深度学习自然语言处理 PyTorch

【多标签文本分类】代码详解Seq2Seq模型

【多标签文本分类】代码详解Seq2Seq模型

征途黯然。

358 0 0

【多标签文本分类】代码详解Seq2Seq模型

征途黯然。

|

算法数据挖掘

【多标签文本分类】BERT for Sequence-to-Sequence Multi-Label Text Classification

【多标签文本分类】BERT for Sequence-to-Sequence Multi-Label Text Classification

征途黯然。

128 0 0

【多标签文本分类】BERT for Sequence-to-Sequence Multi-Label Text Classification

ModelScope模型即服务

热门文章

最新文章

深度评测 | 仅用3分钟，百炼调用满血版 Deepseek-r1 API，百万Token免费用，简直不要太爽。

AnythingLLM：34K Star！一键上传文件轻松打造个人知识库，构建只属于你的AI助手，附详细部署教程

AstrBot：轻松将大模型接入QQ、微信等消息平台，打造多功能AI聊天机器人的开发框架，附详细教程

阿里云通义千问向全社会开放！

手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型，创建个性化 AI 助手

阿里云PAI部署DeepSeek及调用

Qwen2.5-Max：阿里通义千问超大规模 MoE 模型，使用超过20万亿tokens的预训练数据

本地部署DeepSeek模型

VISION XL：支持四倍超分辨率的 AI 视频修复处理工具，提供去除模糊、修复缺失等功能

DeepSeek-V2.5-1210 在线开放使用！支持联网搜索，在各大领域的表现得到全面提升

Zonos：油管博主集体转粉！开源TTS神器Zonos爆火：克隆你的声音说5国语言，还能调喜怒哀乐

YAYI-Ultra：中国企业终于等来『全能大脑』！开源企业级AI『混合专家』横扫金融舆情中医领域，最长生成20万字报告

ENEL：3D建模革命！上海AI Lab黑科技砍掉编码器，7B模型性能吊打13B巨头

TIGER：清华突破性模型让AI「听觉」进化：参数量暴降94%，菜市场都能分离清晰人声

NobodyWho：每个NPC都有独立灵魂！Godot插件实现本地LLM对话，离线生成多线剧情

Sa2VA：别再用PS抠图了！字节跳动开源Sa2VA：一句话自动分割视频，连头发丝都精准

通古大模型：古籍研究者狂喜！华南理工开源文言文GPT：AI自动断句+写诗翻译，24亿语料喂出来的学术神器

Collaborative Gym：斯坦福人机协作框架开源！异步交互+三方感知，让你的AI学会主动补位

深度评测 | 仅用3分钟，百炼调用满血版 Deepseek-r1 API，百万Token免费用，简直不要太爽。

VideoCaptioner：北大推出视频字幕处理神器，AI自动生成+断句+翻译，1小时工作量5分钟搞定

相关电子书

更多

Investigation of Transformer based Spelling Correction Model for CTC-based End-to-End Mandarin Speech Recognition

WordRank embedding:"crowned"is

低代码开发师（初级）实战教程

下一篇

PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型