程序与技术分享:DeepMemoryNetwork深度记忆网络

简介: 程序与技术分享:DeepMemoryNetwork深度记忆网络

RNN解决长期依赖的能力随着文本长度的增加越来越差,attention机制是解决这种问题的一种思路,今天我们再来看另外一种思路,深度记忆网络。Deep Memory Network在QA和Aspect based Sentiment等NLP领域都有过成功的实践,但其提出者本身是以通用模型的形式提出的。


Introduce of Memory Network


Memory Networks


一个记忆网络是由一个记忆


m


m


m(一个以


m


i


m_i


mi?作为索引的数组对象)和4个组件


I


,


G


,


O


,


R


I,G,O,R


I,G,O,R组成。其中:


Memory Networks的处理过程


给定一个输入x(例:字符、词或者句子(视处理力度而定),图像或者声音信号),模型处理过程如下:


将x转化为中间特征表示


I


(


x


)


I(x)


I(x)。使用新输入更新记忆


m


i


m_i


mi?:


m


i


=


G


(


m


i


,


I


(


x


)


,


m


)


,


?


i


m_i=G(m_i, I(x), m), \forall i


mi?=G(mi?,I(x)//代码效果参考:http://hnjlyzjd.com/hw/wz_24181.html

,m),?i使用新输入的中间特征表示和记忆计算输出特征

o


o


o:


o


=


O


(


I


(


x


)


,


m


)


o=O(I(x), m)


o=O(I(x),m)最后,解码输出特征到最终回复:


r


=


R


(


o


)


r=R(o)


r=R(o)


这个过程在训练和测试时都适用,两者之间的区别在于:测试时记忆也会被存储,但模型参数


I


,


G


,


O


,


R


I,G,O,R


I,G,O,R将不会再更新。


I


,


G


,


O


,


R


I,G,O,R


I,G,O,R可以使用现有任何机器学习的方法来实现(SVM, 决策树)。


组件


I


I


I:


I


I


I可以使用标准的预处理步骤来实现,比如输入文本的语法分析、指代消解、实体识别等。它同样也可以将输入编码到一个中间的特征表示(将文本转化为稀疏或者稠密的特征向量)。


组件


G


G


G: 最简单的G的形式可以是将


I


(


x


)


I(x)


I(x)储存起来的槽位(slot):


m


H


(


x


)


=


I


(


x


)


m_{H(x)}=I(x)


mH(x)?=I(x)


其中


H


(


x


)


H(x)


H(x)是选择槽位的一个函数。即,


G


G


G只更新m的索引


H


(


x


)


H(x)


H(x),其他索引下的记忆部分将保持不变。更复杂的


G


G


G的实现还可以允许


G


G


G去根据当前输入x得到的新证据去更新先前存储的记忆。如果输入是字符级别或者词级别的你也可以将其进行分组。


如果记忆非常庞大(假设要记忆整个Freebase或者Wikipedia),你可能不得不把记忆使用


H


(


x


)


H(x)


H(x)来组织起来。


如果记忆已经被填满。你也可以使用


H


H


H来实现一种遗忘机制。


O


O


O和


R


R


R组件:


O


O


O组件被特别应用于读取记忆和执行推断,


R


R


R组件则根据


O


O


O的输出产生最终回复。例:在QA中,使用


O


O


O查找相关的记忆,然后


R


R


R生成文字来组成答案。


R


R


R可以是RNN,视


O


O


O的输出而定。这种设计基于的假设是,如果没有限定在这种记忆上,RNN会表现得相当差(事实上很多场景下确实如此)。


原论文给了一个QA的例子,但由于这个模型并没有广泛使用这里就不介绍了。我们转而介绍一种常用的端到端的记忆网络实现。


End-To-End Memory Network


端到端的记忆网络本质上也是一种RNN架构,但与RNN不同之处在于,在递归过程中会多次读取大型外部存储的记忆来输出一个符号。下面介绍的Memory Network可以有很多层,也易于反向传播,需要对网络的每一层进行监督训练。它以端到端的形式被应用于QA和Aspect Based Sentiment。


模型将一系列离散的输入


x


i


,


.


.


.


,


x


n


x_i,...,x_n


xi?,...,xn?存储在记忆中,并接受一个查询


q


q


q,输出回答


a


a


a。模型会将所有的


x


x


x写为记忆存储在一个固定大小的缓存中,然后寻求一个


x


x


x和


q


q


q的连续表示。该连续表示会被多跳处理以输出a。这使得错误信号能够在多级记忆中反向传播到输入。


Single Layer


整个模型是很多层堆起来的,我们先介绍单个层。


输入记忆表示(Input memory representation):假定我们把给定输入集


x


1


,


.


.


.


,


x


i


x_1,...,x_i


x1?,...,xi?存储在记忆中。整个输入集


x


i


{x_i}


xi?都会经由每个


x


i


x_i


xi?所处的连续空间的嵌入(embedding)被转化为维度为


d


d


相关文章
|
2天前
程序技术好文:计算机网络(九)——STP原理
程序技术好文:计算机网络(九)——STP原理
|
11天前
|
机器学习/深度学习 算法 数据可视化
m基于PSO-LSTM粒子群优化长短记忆网络的电力负荷数据预测算法matlab仿真
在MATLAB 2022a中,应用PSO优化的LSTM模型提升了电力负荷预测效果。优化前预测波动大,优化后预测更稳定。PSO借鉴群体智能,寻找LSTM超参数(如学习率、隐藏层大小)的最优组合,以最小化误差。LSTM通过门控机制处理序列数据。代码显示了模型训练、预测及误差可视化过程。经过优化,模型性能得到改善。
28 6
|
17天前
|
机器学习/深度学习 PyTorch 算法框架/工具
【从零开始学习深度学习】36. 门控循环神经网络之长短期记忆网络(LSTM)介绍、Pytorch实现LSTM并进行训练预测
【从零开始学习深度学习】36. 门控循环神经网络之长短期记忆网络(LSTM)介绍、Pytorch实现LSTM并进行训练预测
|
3天前
|
存储 网络协议 数据建模
程序与技术分享:2021年第一届“东软杯”网络安全CTF竞赛
程序与技术分享:2021年第一届“东软杯”网络安全CTF竞赛
|
3天前
|
机器学习/深度学习 网络协议 C语言
程序技术好文:网络编程中的SIGPIPE信号
程序技术好文:网络编程中的SIGPIPE信号
|
2月前
|
存储 人工智能 应用服务中间件
Web应用是一种通过互联网浏览器和网络技术在互联网上执行任务的计算机程序
【5月更文挑战第30天】Web应用是一种通过互联网浏览器和网络技术在互联网上执行任务的计算机程序
32 2
|
2月前
|
网络协议 Python
在python中利用TCP协议编写简单网络通信程序,要求服务器端和客户端进行信息互传。 - 蓝易云
在这个示例中,服务器端创建一个socket并监听本地的12345端口。当客户端连接后,服务器发送一条欢迎消息,然后关闭连接。客户端创建一个socket,连接到服务器,接收消息,然后关闭连接。
80 0
|
23天前
|
网络协议 算法 Linux
【嵌入式软件工程师面经】Linux网络编程Socket
【嵌入式软件工程师面经】Linux网络编程Socket
40 1
|
8天前
|
安全 物联网 Linux
学习Linux对网络安全的重要性
**学习Linux对网络安全至关重要:** 1. 开源操作系统广泛应用于服务器、网络设备,掌握Linux是安全专家必备技能。 2. Linux内置安全特性,如最小权限和防火墙,加上丰富的安全工具,提供强大保障。 3. 可定制性允许灵活配置,满足安全需求,开源社区提供持续更新和教育资源。 4. 学习Linux能提升攻防能力,用于系统加固和渗透测试,适应跨平台安全场景。 5. 随着云计算和物联网发展,Linux在网络安全中的角色日益关键。
31 3
|
3天前
|
监控 安全 Linux
虚拟专用网络(VPN):远程访问与点对点连接及其在Linux中的IPSec实现与日志管理
虚拟专用网络(VPN):远程访问与点对点连接及其在Linux中的IPSec实现与日志管理
11 0

热门文章

最新文章