word2vec 超easy解读保证你看了就会(4)!

简介: 这次开始介绍word2vec的第二种实现,GloVe: Global Vectors for Word Representation. 根据我目前的认知,从结果上来说(求解的模型),这个方法和goolge的word2vec其实几乎是一致。但是从过程上来说,看上去是有区别的。 ##GloVe: Global Vectors for Word Representation 同之前介绍的一

这次开始介绍word2vec的第二种实现,GloVe: Global Vectors for Word Representation.
根据我目前的认知,从结果上来说(求解的模型),这个方法和goolge的word2vec其实几乎是一致。但是从过程上来说,看上去是有区别的。

GloVe: Global Vectors for Word Representation

同之前介绍的一样,作者同样认为,一个词的表示可以由这个词的上下文决定。两个词的上下文类似,那么这两个词也就类似或者相关。先上表。

1

表中\(P(i|j)\) 的含义是,在全文本中,词\(i\)的上下文中\(j\)的数量 /(除以) 词\(i\)上下文单词的总数. 记作\(frac{X_{ij}}{X_i} \)
例如,\(P(solid|ice)=1.9*10^{-4}\) 表示单词ice在单词solid附近出现的占比是0.019%.
由于ice是solid(固体)的,steam不是solid的,我们有理由相信,steam在solid周围(上下文,一个滑窗)出现的次数应该小于ice在solid周围出现的次数。
从表中第二行第一列可知,确实如此,steam在solid周围出现的比例大约为0.0022% .
同理由于steam是gas,而ice不是gas,因此\(P(gas|ice)

而water和ice,steam都有密切的关系,因此\(P(water|ice)≈P(water|steam)\).
而fashion则和两者关系都不大,因此\(P(fashion|ice)≈P(fashion|steam)\).

模型建立

有理由相信,对于三个词\(i,j,k\),他们\(P(k|i)/P(k|j)\)的值可以解释他们之间的关系。
因此,我们可以假设一个函数,自变量是三个词的vec表示,然后函数结果则是\(P(k|i)/P(k|j)\)。

$$ F(w_i,w_j,w_k)=P(i|k)/P(j|k) $$

其中每个\(w_i\)是一个H维词向量表示。

接下来的问题就是怎么决定这个F了。作者的眼光总是逃不开简单化,和向量相减的思路。于是他提出了把3个自变量三合一。

$$ F((w_i-w_j)^Tw_k)=P(i|k)/P(j|k) $$

也就是两个词向量的差点乘另一个词向量应该等于目标值。
然后,作者又认为,这个函数必须是群同构映射。我在这就不扯什么是群同构映射了,从结论上来说就是

$$ F((w_i-w_j)^Tw_k)=F(w_i^Tw_k)/F(w_j^Tw_k) $$

联立上面两个方程,可以得到

$$ F(w_i^Tw_k)=P(i|k) $$

而取\(F=e^x, w_i^Tw_k=log(P(i|k))=log(X_{ik})-log(X_i)\) 上述同态映射就可以满足了。

考虑到这个式子缺少对称性,我们最后改为

$$ w_i^Tw_k+b_i+b_k=log(X_{ik}) $$

以上的所有操作都是为了确定函数F是什么样的,每个步骤看上去有道理其实也是为了计算的简便。
再次明确下各个部分的含义
等式的右边是已知数,\(X_{ik}\) 表示单词k在单词i周围出现的概率。
等式的左边是变量,其中\(w_i\)是H维词向量,而\(b_i\)是常数值。

这看上去像是VV(V是词汇量)个方程求解问题,但这基本上无解的,原因是变量只有4V个,而方程有V*V个。所以我们只能再出搬出loss function了。

$$ LOSS=\sum^V_{i,j=1} f(*)(w_i^Tw_k+b_i+b_k-log(X_{ik}))^2 $$

其中f()是一个权重函数,我们的目的就是最小化LOSS。
至此,模型描述完毕,下一期开始代码解析,模型速度优化和与之前模型的对比。

相关文章
|
编解码 网络安全 CDN
使用cdn为github pages加速
第一次使用cdn
2633 0
|
存储 安全 Java
String、StringBuffer 和 StringBuilder 的区别
【10月更文挑战第21天】String、StringBuffer 和 StringBuilder 都有各自的特点和适用场景。了解它们之间的区别,可以帮助我们在编程中更合理地选择和使用这些类,从而提高程序的性能和质量。还可以结合具体的代码示例和实际应用场景,进一步深入分析它们的性能差异和使用技巧,使对它们的理解更加全面和深入。
675 57
|
消息中间件 Kafka 程序员
Kafka面试必备:深度解析Replica副本的作用与机制
**Kafka的Replica副本是保证数据可靠性的关键机制。每个Partition有Leader和Follower副本,Leader处理读写请求及管理同步,Follower被动同步并准备成为新Leader。从Kafka 2.4开始,Follower在完全同步时也可提供读服务,提升性能。数据一致性通过高水位机制和Leader Epoch机制保证,后者更精确地判断和恢复数据一致性,增强系统容错能力。**
699 1
在 Flutter 中如何使用 ChangeNotifierProvider 实现数据共享?
在 Flutter 中如何使用 ChangeNotifierProvider 实现数据共享?
Vue3卡片(Card)
这是一个基于Vue3的卡片组件库,提供多样化的卡片展示效果,包括不同尺寸、加载状态及自定义样式等。支持设置宽度、标题、边框等属性,并可通过`loading`参数显示加载占位符。
1309 1
Vue3卡片(Card)
|
存储 Kubernetes 应用服务中间件
Kubernetes Pod
Kubernetes Pod
570 0
Kubernetes Pod
|
存储 Java 关系型数据库
java: 无法访问org.springframework.context.ConfigurableApplicationContext
`亲测可用,之前搜索了很多博客,啥样的都有,就是不介绍报错以及配置用处,根本不懂照抄那些配置是干啥的,稀里糊涂的按照博客搭完也跑不起来,因此记录这个。` `项目背景`:公司项目当前采用http协议+shiro+mysql的登录认证方式,而现在想支持ldap协议认证登录然后能够访问自己公司的项目网站。 `举例说明`:假设我们公司有自己的门户网站,现在我们收购了一家公司,他们数据库采用ldap存储用户数据,那么为了他们账户能登陆我们公司项目所以需要集成,而不是再把他们的账户重新在mysql再创建一遍,万一人家有1W个账户呢,不累死了且也不现实啊。
442 11
|
人工智能 运维 自然语言处理
AI战略丨构建未来:生成式人工智能技术落地策略
GenAI 的技术落地需要企业进行周密地规划和持续地努力。企业必须从自身的战略出发,综合考虑成本、效果和性能,制定合理的技术架构,通过全面的 AI 治理,实现可持续的创新和发展。
|
网络协议 算法
muduo源码剖析之TcpConnection连接管理
TcpCon用于管理一个具体的 TCP 连接,比如消息的接收与发送,完成用户指定的连接回调 connectionCallback。TcpConnection 构造时接收参数有 TCP 连接的 sockfd,服务端地址 localAddr,客户端地址 peerAddr,并通过 Socket 封装 sockfd。并用 Channel 管理该 sockfd,向 Channel 注册可读、可写、关闭、出错回调函数,用于 Poller 返回就绪事件后 Channel::handleEvent() 执行相应事件的回调。
371 0
muduo源码剖析之TcpConnection连接管理

热门文章

最新文章