CS224n 笔记2-词向量表示:Word2vec(二)

简介: CS224n 笔记2-词向量表示:Word2vec(二)

3. 更多Word2Vec细节


对于每个单词(从1到T),我们预测窗口半径大小为m的上下文词汇。

目标函数:最大化预测中心词的上下文概率。


78.png


其中θ表示我们需要优化的所有参数。


目标函数-objective function

  • 术语:Loss function = cost function = objective function
  • 通用的概率分布损失:交叉熵损失(Cross-entropy loss)


Softmax函数:将RV映射到概率分布的标准函数


79.png


下面是Skip-Gram的示意图:


80.png


4 .梯度的推导


目标函数:


81.png


以下面计算概率的公式:


82.png


具体的推导过程:


83.png


84.png


85.png


86.png


5. 损失/目标函数


87.png


梯度下降


-首先, 为了对整个训练数据最小化J(θ),需要计算出所有窗口的梯度

  • 更新每个参数θ
  • 步长为α
  • 对于所有参数θ的矩阵表示:


88.png


批梯度下降(Vanilla Gradient Descent Code)


89.png


对于一个简单二元凸函数,下面轮廓线显示了目标函数变化:


90.png


随机梯度下降法


上面方法有以下弊端:

  • 语料库非常大,具有40B的字符和窗口
  • 每次参数更新需要等待很长时间
  • 对于神经网络的效果很差
    所以我们采用下面的方法:

    91.png


相关推荐阅读


相关文章
|
17天前
|
机器学习/深度学习 自然语言处理 Python
|
机器学习/深度学习 自然语言处理 算法
深度学习基础入门篇10:序列模型-词表示{One-Hot编码、Word Embedding、Word2Vec、词向量的一些有趣应用}
深度学习基础入门篇10:序列模型-词表示{One-Hot编码、Word Embedding、Word2Vec、词向量的一些有趣应用}
深度学习基础入门篇10:序列模型-词表示{One-Hot编码、Word Embedding、Word2Vec、词向量的一些有趣应用}
|
机器学习/深度学习 自然语言处理 运维
Word2Vec:一种基于预测的方法
Word2Vec:一种基于预测的方法
270 0
|
自然语言处理 数据可视化 数据处理
基于gensim实现word2vec模型(附案例实战)
基于gensim实现word2vec模型(附案例实战)
834 1
基于gensim实现word2vec模型(附案例实战)
|
机器学习/深度学习 自然语言处理 算法
Word2Vec原理以及实战详解
Word2Vec原理以及实战详解
|
机器学习/深度学习 存储 人工智能
文本深度表示模型——word2vec&doc2vec词向量模型
NLP 中最直观,也是到目前为止最常用的词表示方法是 One-hot Representation,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个维度就代表了当前的词。
文本深度表示模型——word2vec&doc2vec词向量模型
|
机器学习/深度学习 存储 数据采集
词向量word2vec(图学习参考资料1)
词向量word2vec(图学习参考资料1)
|
机器学习/深度学习 自然语言处理 算法
CS224n 笔记2-词向量表示:Word2vec(一)
CS224n 笔记2-词向量表示:Word2vec(一)
155 0
CS224n 笔记2-词向量表示:Word2vec(一)
|
机器学习/深度学习 自然语言处理 算法
Word2Vec教程-Skip-Gram模型
这篇教程主要讲述了Word2Vec中的skip gram模型,主要目的是避免普遍的浅层介绍和抽象观点,而是更加详细地探索Word2Vec。现在我们开始研究skip gram模型吧
474 0
Word2Vec教程-Skip-Gram模型
|
机器学习/深度学习 SQL 自然语言处理
【CS224n】(lecture1)课程介绍和word2vec
(1)观看视频,笔记输出,要有自己的思考; (2)完成课后的quiz(不多,共8个,大概10道选择题);
158 0
【CS224n】(lecture1)课程介绍和word2vec