GloVe: Global Vectors for Word Representation

简介:

Word2Vec虽然取得了很好的效果,但模型上仍然存在明显的缺陷,比如没有考虑词序,再比如没有考虑全局的统计信息。本篇分享的是GloVe: Global Vectors for Word Representation,作者是stanford的Jeffrey Pennington, Richard Socher(metamind CEO)和Christopher Manning。同时作者还开源了相应的工具GloVe和一些训练好的模型。


本文的思路是将全局词-词共现矩阵进行了分解,训练得到词向量。整体上的思路和推荐系统当年横扫Netflix百万美元比赛的LFM模型类似,也和信息检索中LSI的思路类似。不同的地方是,本文采用的词-词共现矩阵比起词-文档矩阵更加稠密,模型中对低频词和高频词的影响做了一定地弱化处理。


首先,构建词-词共现矩阵,共现是建立在一个固定窗口范围内,给定范围之后,可以得到一个V*V的矩阵,这里V是词汇表大小。(虽然矩阵的稠密程度比词-文档矩阵好一些,但大多数也都是0)


然后,本文的模型如下:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


通过使该目标函数最小来得到最终的词向量,在计算误差时只考虑共现矩阵中非0的项。因为不同频次的词对目标的贡献不同,所以设定了一个权重函数f(x),具有以下特点:


1、f(0) = 0


2、f(x)是增函数,这样低频词不会被over weight。


3、当x很大时,f(x)相对小一些,这样高频词也不会被over weight。


根据以上特性,选择下面的函数来作为f(x):


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy= 640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


本文的模型在Word Analogy Task(Tomas Mikolov提出的测试集)中获得了75%的正确率,击败了Word2Vec。


虽然paper中GloVe有着指标上的领先,但在实际使用中Word2Vec的使用率相对来说更多一些,可能的原因是Word2Vec可以更快地提供一个相对来说不错的word embedding层的初始值。从中得到的启发是,指标上的胜利有些时候只是paper上的胜利,不一定能代表在工程中也是赢家,而只有更加好的model被提出,才会真正地既赢得指标上的胜利,也赢得工程上的胜利。



来源:paperweekly


原文链接

相关文章
|
5天前
|
机器学习/深度学习 自然语言处理 ice
[GloVe]论文实现:GloVe: Global Vectors for Word Representation*
[GloVe]论文实现:GloVe: Global Vectors for Word Representation*
20 2
[GloVe]论文实现:GloVe: Global Vectors for Word Representation*
|
5天前
|
算法 TensorFlow 算法框架/工具
[FastText in Word Representations]论文实现:Enriching Word Vectors with Subword Information*
[FastText in Word Representations]论文实现:Enriching Word Vectors with Subword Information*
20 2
RuntimeError: a view of a leaf Variable that requires grad is being used in an in-place operation.
RuntimeError: a view of a leaf Variable that requires grad is being used in an in-place operation.
2293 0
|
PyTorch 算法框架/工具
Pytorch中Trying to backward through the graph和one of the variables needed for gradient错误解决方案
Pytorch中Trying to backward through the graph和one of the variables needed for gradient错误解决方案
1522 0
Pytorch中Trying to backward through the graph和one of the variables needed for gradient错误解决方案
|
9月前
|
自然语言处理 搜索推荐 数据挖掘
RolePred: Open-Vocabulary Argument Role Prediction for Event Extraction 论文解读
事件抽取中的论元角色是指事件和参与事件的论元之间的关系。尽管事件抽取取得了巨大进展,但现有研究仍然依赖于领域专家预定义的角色。
50 0
|
9月前
|
机器学习/深度学习 自然语言处理 算法
SS-AGA:Multilingual Knowledge Graph Completion with Self-Supervised Adaptive Graph Alignment 论文解读
预测知识图(KG)中缺失的事实是至关重要的,因为现代知识图远未补全。由于劳动密集型的人类标签,当处理以各种语言表示的知识时,这种现象会恶化。
61 0
|
9月前
|
机器学习/深度学习 存储 自然语言处理
PESE Event Structure Extraction using Pointer Network based Encoder-Decoder Architecture论文解读
事件抽取(EE)的任务旨在从文本中找到事件和事件相关的论元信息,并以结构化格式表示它们。大多数以前的工作都试图通过分别识别多个子结构并将它们聚合以获得完整的事件结构来解决这个问题。
51 0
|
人工智能 编解码 自动驾驶
YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors
YOLOv7在5 FPS到160 FPS的范围内,在速度和精度方面都超过了所有已知的物体检测器,在GPU V100上以30 FPS或更高的速度在所有已知的实时物体检测器中具有最高的精度56.8% AP。
364 0
|
机器学习/深度学习 自然语言处理 数据挖掘
【文本分类】Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
【文本分类】Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
115 0
【文本分类】Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
|
Android开发
The word is not correctly spelled问题
The word is not correctly spelled问题
173 0
The word is not correctly spelled问题