无监督学习-词嵌入|深度学习（李宏毅）（七）

2022-06-06 402

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 词嵌入（Word Embedding）是将自然语言表示的单词转换为计算机能够理解的向量或矩阵形式的技术。在Word Embedding之前，常用的方法有one-hot、n-gram、co-occurrence matrix，但是他们都有各自的缺点。Word Embedding是一种无监督的方法。

一、概述

词嵌入（Word Embedding）是将自然语言表示的单词转换为计算机能够理解的向量或矩阵形式的技术。在Word Embedding之前，常用的方法有one-hot、n-gram、co-occurrence matrix，但是他们都有各自的缺点。Word Embedding是一种无监督的方法。

1H4ZQ$CPH6~[2]X2F1KJ5}V.png

Word Embedding

Word Embedding的主要任务是输入收集到的词汇，然后获得它的向量表示，其大概过程如下：

%{10KP4L{%Z}K1(SMY50{XX.png

Word Embedding

Word Embedding不能使用AutoEncoder来做是因为无法为AutoEncoder的输入找到一个包含可以学习的信息的表示。比如使用独热编码作为AutoEncoder的输入，由于独热编码的每一维度之间是相互独立的，且独热编码包含的信息量极少，因此AutoEncoder学不到一些有用的信息。

Word Embedding主要通过训练数据的上下文来学习文本的信息。Word Embedding假设不同的词如果处在同样的上下文位置的话，这两个词就会具有一定的相似性。

M%AY(06NHCK8)V}{L}~98]N.png

词的上下文

二、词嵌入的方法

Count based

$E)WMK_)Z50][5`M${P(G8CO.png$

这种方法的典型模型是GloVe模型，这里不做重点介绍。

Prediction based

使用的网络结构

在多层神经网络中输入当前词 [X~BIZB1MK$J$~SA@Z)`}Q5.png 的独热编码向量并输出每个维度表示 CA31CA9S@8FT9KS03V@W)(D.png 为每个词的概率的向量，然后取第一个隐藏层的输入作为词的编码向量，其过程如下图所示：

{`U]NH}%]GDP%}{U%$P[9~4.png

网络结构

将获得的词的编码向量进行可视化以后可以看到类似的词会出现在比较接近的地方：

9]TJ{%@VYTFON(NCRZ]8DD0.png

可视化

为什么第一个隐藏层的输入可以作为词的编码

在下面的训练文本中输入两个人名网络会预测到相同的输出“宣誓就职”，为了使得神经网络输出去同样的结果，神经网络就需要将两个人名经过权重的处理映射到接近的词向量，然后将这个词向量作为神经网络的输入。

I(LIW1J~{P5@`C9I(RG]VUH.png

训练文本

共享参数——使用多个词预测下一个词

在实际应用中使用一个词来预测下一次个往往是比较困难的，一个词后面可能出现的词的可能结果有千千万万种，因此通常将多个词同时作为网络的输入，通常需要输入至少10个词才会训练出效果比较好的模型。

O]X5BSVZ63}65JKXR}{)(BW.png

$]RE1{DS]6X1W9O_ZV5}F]LD.png$

①参数共享可以保证同样的词出现在不同位置时不会使得编码的结果不同；

②表示词的独热编码往往维数很高，共享参数可以降低参数的数量。

输入多个词的网络结构如下图所示，其中相同颜色的权重表示共享的参数：

U1@~AZGT][BH%H@O$F8DQVQ.png

网络结构

在训练时为了保证参数共享，将采用下种方式进行参数更新：

SM7%8MY)4(P@$T$@Z3WUJ63.png

参数更新

以下为一个举例，预测下一个词时使用的是前两个词，然后将输出与预测的词的独热编码的交叉熵作为损失函数，通过最小化损失来训练模型：

9TQYN_HDLC4DRO}BH`WN9KQ.png

举例

其他变种

Continuous bag of word (CBOW) model

3EZP08`14WO6TK)%1ISM3@D.png

CBOW

Skip-gram

DI]R5J%VCBS[J%V0MEQ)XN9.png

Skip-gram

可视化

从训练得到的模型中获得词的编码向量以后进行可视化可以看到一些规律，比如国家和首都之间有一定的联系：

(WUQ1{5LUIR`XL[1B39AV(1.png

国家与首都

动词的三种时态之间有一定的规律：

$C%XB](_{RL3I2R_GE82`S)T.png$

动词时态

一类动物的词向量与某一特定品种的该类动物的词向量的差，以及一类职业的词向量与某一特定的该类职业的词向量的差会落在各自的位置：

22S%FF@6G`29775D9YSDCMR.png

类与实例

根据上述特性可以来回答类比的问题。比如我们知道

$0A5EX{YS)QOWZM$8_M5PI_7.png$

)0]3ENL8HK57Z{OFY][$])7.png

解决类比问题

H0C0VO$GIOK~57Q4WHT4`R6.png

三、一些其他应用

多语种的Embedding

如果分别训练英文的材料和中文的材料，那么分别得到的结果就不会有任何联系，比如“apple”和“苹果”的词向量之间就不会有联系。这是因为词嵌入的方法只根据词的上下文来建立词的编码，如果不将中文和英文的资料放到一起训练就不会使相同意义的中英文词汇的词向量产生任何联系。但是如果我们在中英文分别训练出的词向量的基础上继续训练一个模型，使得中英文相同意义的词映射到同一个位置，就可以得到以下结果，这样的模型可以用来进行类似翻译这样的工作：

$JY7KBL54[BKCEXYEN@BQ_M.png

多语种嵌入

对图像的Embedding

首先可以对各种类别的词进行词嵌入获得词的编码向量，然后可以训练一个模型使得该模型的输入是图片，输出一个和该图片类别的词向量同样维度的向量并且使得输出散落在类别的词向量周围。通过这样一种方式就可能实现当这个模型输入一张没有训练过的类别的图片时可以将该图片的编码向量映射到正确的类别的词向量周围，从而解决传统的分类方法只能够识别训练过的类别的图片的局限性。下图是上述过程的一个举例，在这里训练了车辆、马和狗的图片，当猫的图片输入到模型中时可以将其映射到“cat”的词向量周围：

$2E_I{K0VISHYBWR5{YS8[GL.png$