word2vec 超easy解读保证你看了就会(4)!

简介: 这次开始介绍word2vec的第二种实现,GloVe: Global Vectors for Word Representation. 根据我目前的认知,从结果上来说(求解的模型),这个方法和goolge的word2vec其实几乎是一致。但是从过程上来说,看上去是有区别的。 ##GloVe: Global Vectors for Word Representation 同之前介绍的一

这次开始介绍word2vec的第二种实现,GloVe: Global Vectors for Word Representation.
根据我目前的认知,从结果上来说(求解的模型),这个方法和goolge的word2vec其实几乎是一致。但是从过程上来说,看上去是有区别的。

GloVe: Global Vectors for Word Representation

同之前介绍的一样,作者同样认为,一个词的表示可以由这个词的上下文决定。两个词的上下文类似,那么这两个词也就类似或者相关。先上表。

1

表中\(P(i|j)\) 的含义是,在全文本中,词\(i\)的上下文中\(j\)的数量 /(除以) 词\(i\)上下文单词的总数. 记作\(frac{X_{ij}}{X_i} \)
例如,\(P(solid|ice)=1.9*10^{-4}\) 表示单词ice在单词solid附近出现的占比是0.019%.
由于ice是solid(固体)的,steam不是solid的,我们有理由相信,steam在solid周围(上下文,一个滑窗)出现的次数应该小于ice在solid周围出现的次数。
从表中第二行第一列可知,确实如此,steam在solid周围出现的比例大约为0.0022% .
同理由于steam是gas,而ice不是gas,因此\(P(gas|ice)

而water和ice,steam都有密切的关系,因此\(P(water|ice)≈P(water|steam)\).
而fashion则和两者关系都不大,因此\(P(fashion|ice)≈P(fashion|steam)\).

模型建立

有理由相信,对于三个词\(i,j,k\),他们\(P(k|i)/P(k|j)\)的值可以解释他们之间的关系。
因此,我们可以假设一个函数,自变量是三个词的vec表示,然后函数结果则是\(P(k|i)/P(k|j)\)。

$$ F(w_i,w_j,w_k)=P(i|k)/P(j|k) $$

其中每个\(w_i\)是一个H维词向量表示。

接下来的问题就是怎么决定这个F了。作者的眼光总是逃不开简单化,和向量相减的思路。于是他提出了把3个自变量三合一。

$$ F((w_i-w_j)^Tw_k)=P(i|k)/P(j|k) $$

也就是两个词向量的差点乘另一个词向量应该等于目标值。
然后,作者又认为,这个函数必须是群同构映射。我在这就不扯什么是群同构映射了,从结论上来说就是

$$ F((w_i-w_j)^Tw_k)=F(w_i^Tw_k)/F(w_j^Tw_k) $$

联立上面两个方程,可以得到

$$ F(w_i^Tw_k)=P(i|k) $$

而取\(F=e^x, w_i^Tw_k=log(P(i|k))=log(X_{ik})-log(X_i)\) 上述同态映射就可以满足了。

考虑到这个式子缺少对称性,我们最后改为

$$ w_i^Tw_k+b_i+b_k=log(X_{ik}) $$

以上的所有操作都是为了确定函数F是什么样的,每个步骤看上去有道理其实也是为了计算的简便。
再次明确下各个部分的含义
等式的右边是已知数,\(X_{ik}\) 表示单词k在单词i周围出现的概率。
等式的左边是变量,其中\(w_i\)是H维词向量,而\(b_i\)是常数值。

这看上去像是VV(V是词汇量)个方程求解问题,但这基本上无解的,原因是变量只有4V个,而方程有V*V个。所以我们只能再出搬出loss function了。

$$ LOSS=\sum^V_{i,j=1} f(*)(w_i^Tw_k+b_i+b_k-log(X_{ik}))^2 $$

其中f()是一个权重函数,我们的目的就是最小化LOSS。
至此,模型描述完毕,下一期开始代码解析,模型速度优化和与之前模型的对比。

相关文章
WK
|
12月前
|
XML 移动开发 数据格式
Beautiful Soup支持哪些解析器
Beautiful Soup是一款强大的库,用于解析HTML和XML文档。它支持多种解析器,包括Python标准库中的`html.parser`、lxml的HTML和XML解析器以及html5lib。`html.parser`无需额外安装,但速度较慢;lxml则基于C语言,速度快且支持XPath;html5lib则完全支持HTML5标准,容错性好但速度较慢。用户可通过`features`参数指定解析器,选择最适合需求的解析器可提升效率与准确性。
WK
481 2
|
11月前
|
存储 安全 Java
String、StringBuffer 和 StringBuilder 的区别
【10月更文挑战第21天】String、StringBuffer 和 StringBuilder 都有各自的特点和适用场景。了解它们之间的区别,可以帮助我们在编程中更合理地选择和使用这些类,从而提高程序的性能和质量。还可以结合具体的代码示例和实际应用场景,进一步深入分析它们的性能差异和使用技巧,使对它们的理解更加全面和深入。
386 57
|
10月前
|
消息中间件 供应链 架构师
微服务如何实现低耦合高内聚?架构师都在用的技巧!
本文介绍了微服务的拆分方法,重点讲解了“高内聚”和“低耦合”两个核心设计原则。高内聚强调每个微服务应专注于单一职责,减少代码修改范围,提高系统稳定性。低耦合则通过接口和消息队列实现服务间的解耦,确保各服务独立运作,提升系统的灵活性和可维护性。通过领域建模和事件通知机制,可以有效实现微服务的高效拆分和管理。
262 7
Vue3卡片(Card)
这是一个基于Vue3的卡片组件库,提供多样化的卡片展示效果,包括不同尺寸、加载状态及自定义样式等。支持设置宽度、标题、边框等属性,并可通过`loading`参数显示加载占位符。
686 1
Vue3卡片(Card)
|
消息中间件 Kafka 程序员
Kafka面试必备:深度解析Replica副本的作用与机制
**Kafka的Replica副本是保证数据可靠性的关键机制。每个Partition有Leader和Follower副本,Leader处理读写请求及管理同步,Follower被动同步并准备成为新Leader。从Kafka 2.4开始,Follower在完全同步时也可提供读服务,提升性能。数据一致性通过高水位机制和Leader Epoch机制保证,后者更精确地判断和恢复数据一致性,增强系统容错能力。**
413 1
|
机器学习/深度学习 人工智能 算法
探索人工智能在图像识别领域的创新应用
【5月更文挑战第30天】 随着深度学习技术的飞速发展,人工智能(AI)在图像识别领域取得了革命性的进展。本文旨在探讨AI技术如何优化图像识别流程,提高识别精度,并分析其在多个行业中的实际应用。通过对比传统方法和最新的研究成果,我们展示了AI驱动的图像识别系统在处理速度、准确率和自动化水平方面的显著提升。此外,文章还将讨论当前面临的挑战和未来的发展趋势,为读者提供一个关于AI在图像识别领域内应用的全面视角。
|
SQL 算法 Java
分库分表如何管理不同实例中几万张分片表?
分库分表如何管理不同实例中几万张分片表?
303 2
|
网络协议 算法
muduo源码剖析之TcpConnection连接管理
TcpCon用于管理一个具体的 TCP 连接,比如消息的接收与发送,完成用户指定的连接回调 connectionCallback。TcpConnection 构造时接收参数有 TCP 连接的 sockfd,服务端地址 localAddr,客户端地址 peerAddr,并通过 Socket 封装 sockfd。并用 Channel 管理该 sockfd,向 Channel 注册可读、可写、关闭、出错回调函数,用于 Poller 返回就绪事件后 Channel::handleEvent() 执行相应事件的回调。
211 0
muduo源码剖析之TcpConnection连接管理
|
安全 Java Spring
springboot整合spring security 安全认证框架
springboot整合spring security 安全认证框架
189 0