Word2vec 讨论

简介:

     

      我没有在自然语言处理完成。但基于Deep Learning 关注,自然知道一些Word2vec强大。

      Word2vec 是google 在2013年提供的一款将词表征为实数值向量的高效工具。而Word2vec输出的词向量可用于做NLP 相关的工作。比方聚类、找同义词、词性分析等。Word2vec 大受欢迎的一个原因是其高效性。 Tomas Mikolov  在[1] 中指出一个优化的单机版本号一天能够训练上千亿词(汗!

)。

       关于词的概念。这里的词能够并不一定真的就是单词,全然能够是具有一定意义的单元块,比方国外音乐站点就用word2vec来训练用户的听歌记录。这里的单元块就是歌曲编号。假设用户对音乐类型的喜好是一致的,那么训练后就能找到与某个歌曲相似的歌曲,这样就能给用户进行推荐了。相信类似这种样例还有非常多。

(关于这点思考:词能够使一个标号或者理解为一个类的对象!

先上图:


     

个人感觉这个解说的非常具体~

 

注意:1。 输入为一个窗体的待预測上下文

2. 输入层Wj 是维度为K的列向量,(syn0 编码?)如有 N个输入词。则输入大小为k*N 

3. 隐层 Tk 是输入层Wj 的加权,隐层大小为N*k

4. 输出层的叶节点是语料里的词,如红楼梦分词后的独立词

5. 叶节点有唯一的编码。从根节点開始算第一层(二叉树构建算法 Huffman树)


理解非常浅显~


以后持续更新~


參考:

[1]Distributed Representations of Words and Phrases and their Compositionality  (经典论文)

[2] Felven----再谈word2vec   (Felven word2vec 系列非常实践)

[3] Felven----关键词聚类

[4] Felven-----红楼梦人物关系

[5] word2vec傻瓜剖析     (个人认为还是先看看Felven的实验后。再看这个比較有感觉点!)

[6] 有道的word2vec 解说  (非常具体。几个DL大牛的关系图非常有意思!

[7] word2vec 代码解说,英文的!

[8]深度学习Word2vec 笔记之算法具体解释!

[9] word2vec 的Windows 编译的版本号

[10] word2vec使用指导 (zhoubl668的博客,有好几篇是介绍Word2vec的,值得推荐。)

[11] Deep Learning in NLP (一)词向量和语言模型 (非常具体!

)


如转载,请标明转自:http://write.blog.csdn.net/postedit/41078835

版权声明:本文博客原创文章,博客,未经同意,不得转载。





本文转自mfrbuaa博客园博客,原文链接:http://www.cnblogs.com/mfrbuaa/p/4645727.html,如需转载请自行联系原作者


相关文章
|
存储 SQL 关系型数据库
什么是索引覆盖?什么是索引下推?
什么是索引覆盖?什么是索引下推?
655 0
什么是索引覆盖?什么是索引下推?
|
消息中间件 存储 Java
MQ系列5:RocketMQ消息的发送模式
MQ系列5:RocketMQ消息的发送模式
730 0
MQ系列5:RocketMQ消息的发送模式
|
XML 数据采集 JSON
YARN REST API 总结
YARN REST API 总结
826 0
YARN REST API 总结
|
Java Linux C语言
Linux错误总结
Linux错误总结
767 0
|
前端开发
react-iconfont-在线-使用
1.官网iconfont 2.现在的项目iconfont的用的非常普遍,今天梳理下 react项目中的用法
656 0
react-iconfont-在线-使用
|
XML 架构师 Java
只懂黑盒测试也能学会的代码覆盖率及精准化测试
测试覆盖率是对测试完成程度的度量。它通常依据某种覆盖准则来对测试用例执行情况进行衡量,以判断测试执行得是否充分 。 ——出自《 计算机科学技术名词 》第三版 今天文章中我们给大家介绍覆盖率统计及覆盖率分析。在10月13日20:00,资深测试开发架构师思寒将光临直播间手把手教大家如何搞定精准化测试! 温馨提示:你以为代码覆盖率与精准化测试知识与黑盒测试无缘?不,你只是没遇到思寒讲的这节课。
只懂黑盒测试也能学会的代码覆盖率及精准化测试
|
监控 Java Android开发
【字节码插桩】AOP 技术 ( “字节码插桩“ 技术简介 | AspectJ 插桩工具 | ASM 插桩工具 )
【字节码插桩】AOP 技术 ( “字节码插桩“ 技术简介 | AspectJ 插桩工具 | ASM 插桩工具 )
574 0
【字节码插桩】AOP 技术 ( “字节码插桩“ 技术简介 | AspectJ 插桩工具 | ASM 插桩工具 )
|
缓存 JavaScript 开发工具
iOS App上架技能:不更新版本的情况下删除App Store非主语言的方法、app上架后的事项(ASO及ASA)
iOS App上架技能:不更新版本的情况下删除App Store非主语言的方法、app上架后的事项(ASO及ASA)
903 0
iOS App上架技能:不更新版本的情况下删除App Store非主语言的方法、app上架后的事项(ASO及ASA)
|
机器学习/深度学习 安全 大数据
“撞库”成网络黑产源头 从技术和机制寻找解决之道
“撞库”成网络黑产源头 从技术和机制寻找解决之道
“撞库”成网络黑产源头 从技术和机制寻找解决之道
|
SQL 分布式计算 DataWorks
DataWorks功能实践速览 04 — 参数透传
DataWorks功能实践系列,帮助您解析业务实现过程中的痛点,提高业务功能使用效率!
1761 0
DataWorks功能实践速览 04 — 参数透传