3. 更多Word2Vec细节
对于每个单词(从1到T),我们预测窗口半径大小为m的上下文词汇。
目标函数:最大化预测中心词的上下文概率。
其中θ表示我们需要优化的所有参数。
目标函数-objective function
- 术语:Loss function = cost function = objective function
- 通用的概率分布损失:交叉熵损失(Cross-entropy loss)
Softmax函数:将RV映射到概率分布的标准函数
下面是Skip-Gram的示意图:
4 .梯度的推导
目标函数:
以下面计算概率的公式:
具体的推导过程:
5. 损失/目标函数
梯度下降
-首先, 为了对整个训练数据最小化J(θ),需要计算出所有窗口的梯度
- 更新每个参数θ
- 步长为α
- 对于所有参数θ的矩阵表示:
批梯度下降(Vanilla Gradient Descent Code)
对于一个简单二元凸函数,下面轮廓线显示了目标函数变化:
随机梯度下降法
上面方法有以下弊端:
- 语料库非常大,具有40B的字符和窗口
- 每次参数更新需要等待很长时间
- 对于神经网络的效果很差
所以我们采用下面的方法: