Efficient Estimation of Word Representations in Vector Space

简介:

词向量是语言模型的一个副产品,但这个副产品在2013年随着一个叫做word2vec的工具包而火了起来,大家在各种场合中都在用,并且取得了不错的效果。


本篇分享的文章是Efficient Estimation of Word Representations in Vector Space。作者是来自Google的Tomas Mikolov,也是Word2Vec和RNNLM开源软件的作者。本文的最大贡献有:


1、提出了两种新的“神经网络语言模型”,这里之所以打引号,是因为其实两个模型都没有隐藏层,只是看起来像是神经网络而已。两种模型具有很高的计算效率和准确率,可谓是真正的“又好又快”。


2、设计了一种验证词向量效果的测试数据,从semantic和syntactic两个维度上进行测试。

首先介绍下传统模型的复杂度。


  • NNLM的模型复杂度:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


这里,N是输入的单词数量,D是词向量维度,H是隐藏层维度,V是词汇表维度。


  • RNNLM的模型复杂度:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


两个模型的输出层都可以用hierarchical softmax来替换,V的复杂度可以降为log2(V)

NNLM模型的计算瓶颈在于N H,而RNNLM的计算瓶颈在与H * H。


本文提出的两种模型架构图如下:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


从架构图中可以看出本文的模型并没有隐藏层,直接由输入层做一次映射,就进行分类。


左图是CBOW模型,输入是指定单词的context单词(前后各取几个单词),预测的是该单词。模型复杂度如下:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


右图是Skip-gram(SG)模型,输入时某个单词,预测的是它的context。模型复杂度如下:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


这里的C表示单词距离上限,用来限制预测context的窗口大小。


本文的模型和NNLM和RNNLM有着不同的使命,前者更加专注于解决词向量的问题,在保证准确率的情况下,尽量地提高计算效率;而后者更加专注于解决语言模型的问题,词向量只是其副产品,因此并没有过多地在这部分进行优化。最后的实验结果表明,sg和cbow模型在semantic和syntactic两个维度上进行相似度测试时表现远好于nnlm和rnnlm。并且,sg在semantic上表现更好,cbow更擅长做syntactic。


将word映射成某个空间内的向量之后,我们可以轻松地通过cos similarity来计算word之间的相似度,并且可以做一些简单的加减运算。


Paris - France + Italy = Rome

Small - Smaller + Large = Larger


可以将word映射到vector space中,那么是否可以将phrase,sentence,paragraph,document都映射到vector space中呢?进一步是否可以将topic也映射到vector space呢?是否任何东西都可以映射到vector space呢?


丰富的想象力给了人类更大的动力去探索未知的世界,将word2vec的想法拓展到各个level的问题上。在后续的很多nlp研究中,词向量都起到了关键的作用。不仅如此,word2vec在其他领域中也有了广泛的应用,比如:app推荐,将每个user下载过的app作为word,就可以得到给user推荐类似的app(相似的word);我在做rsarxiv时,构建了一个简单的paper graph,将authors,subjects,keywords都映射到了同一个空间中,给定一个author,很容易找到与之相关的authors,subjects,keywords。比如喜欢了这个作者,


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

之后就会得到推荐:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


Word2Vec一个很重要的意义在于,是无监督方法,不需要花额外的功夫去构建数据集来teach模型,只需要给入一个非常大的文本数据集,就可以得到非常好的效果。


来源:paperweekly


原文链接

相关文章
|
5月前
|
算法 TensorFlow 算法框架/工具
[FastText in Word Representations]论文实现:Enriching Word Vectors with Subword Information*
[FastText in Word Representations]论文实现:Enriching Word Vectors with Subword Information*
34 2
|
5月前
|
机器学习/深度学习 数据挖掘 Python
[Bart]论文实现:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation...
[Bart]论文实现:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation...
39 0
|
算法 PyTorch 算法框架/工具
论文解读:LaMa:Resolution-robust Large Mask Inpainting with Fourier Convolutions
论文解读:LaMa:Resolution-robust Large Mask Inpainting with Fourier Convolutions
621 0
|
机器学习/深度学习 自然语言处理 算法
SS-AGA:Multilingual Knowledge Graph Completion with Self-Supervised Adaptive Graph Alignment 论文解读
预测知识图(KG)中缺失的事实是至关重要的,因为现代知识图远未补全。由于劳动密集型的人类标签,当处理以各种语言表示的知识时,这种现象会恶化。
93 0
|
人工智能 编解码 自然语言处理
论文解读:Inpaint Anything: Segment Anything Meets Image Inpainting
论文解读:Inpaint Anything: Segment Anything Meets Image Inpainting
392 0
|
机器学习/深度学习 自然语言处理 算法
TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking 论文解读
近年来,从非结构化文本中提取实体和关系引起了越来越多的关注,但由于识别共享实体的重叠关系存在内在困难,因此仍然具有挑战性。先前的研究表明,联合学习可以显著提高性能。然而,它们通常涉及连续的相互关联的步骤,并存在暴露偏差的问题。
189 0
PointNet++:Deep Hierarchical Feature Learning on Points Sets in a Metrci Space 学习笔记
PointNet++:Deep Hierarchical Feature Learning on Points Sets in a Metrci Space 学习笔记
76 0
|
机器学习/深度学习 边缘计算 人工智能
Re0:读论文 PPNP/APPNP Predict then Propagate: Graph Neural Networks meet Personalized PageRank
Re0:读论文 PPNP/APPNP Predict then Propagate: Graph Neural Networks meet Personalized PageRank
Re0:读论文 PPNP/APPNP Predict then Propagate: Graph Neural Networks meet Personalized PageRank
|
异构计算
Re12:读论文 Se3 Semantic Self-segmentation for Abstractive Summarization of Long Legal Documents in Low
Re12:读论文 Se3 Semantic Self-segmentation for Abstractive Summarization of Long Legal Documents in Low
Re12:读论文 Se3 Semantic Self-segmentation for Abstractive Summarization of Long Legal Documents in Low
|
机器学习/深度学习 安全
Re28:读论文 CECP Charge Prediction by Constitutive Elements Matching of Crimes
Re28:读论文 CECP Charge Prediction by Constitutive Elements Matching of Crimes
Re28:读论文 CECP Charge Prediction by Constitutive Elements Matching of Crimes