Word2Vec 究竟选择Tensorflow还是 gensim

简介: 最近想训练专业领域的语料库,深度学习领域python的版本较多,国内普遍使用gensim来训练,而word2vec是Google提出的,Tensorflow上有例子实现。

最近想训练专业领域的语料库,深度学习领域python的版本较多,国内普遍使用gensim来训练,而word2vec是Google提出的,Tensorflow上有例子实现。最近tensorflow越来越流行,所以考虑采用tensorflow来训练,可能能达到更快的训练速度,在技术方案上更符合主流。经过一周的实验,发现效果不如人意。具体如下:
-网上评估gensim的效果比tensorflow好很多。原文链接
-没有找到tensorflow运行windows上的word2vec说明,word2vec_basic运行没有问题,但高级版需要编译op。
-没有找到tensorflow上word2vec版本中的questions_words.txt中文方面的具体应用。
上述情况说明gensim在文本训练的难易程度、准确率方面比tensorflow示范程序里面介绍的方法好多了。但国内没有找到具体的原因,最后在stackoverflow.com上找到了一篇文章,详细说明了可能的原因,让我彻底放弃了tensorflow上实现word2vec的想法。
经过实际测试, gensim通过Cpython来实现底层算法,速度很快,简单易用。

目录
相关文章
|
3月前
|
自然语言处理
【NLP】如何实现快速加载gensim word2vec的预训练的词向量模型
本文探讨了如何提高使用gensim库加载word2vec预训练词向量模型的效率,提出了三种解决方案:保存模型以便快速重新加载、仅保存和加载所需词向量、以及使用Embedding工具库代替word2vec原训练权重。
206 2
|
3月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
【Tensorflow+Keras】keras实现条件生成对抗网络DCGAN--以Minis和fashion_mnist数据集为例
如何使用TensorFlow和Keras实现条件生成对抗网络(CGAN)并以MNIST和Fashion MNIST数据集为例进行演示。
45 3
|
3月前
|
机器学习/深度学习 大数据 算法框架/工具
【Python-Keras】keras.fit()和keras.fit_generator()的解析与使用
本文解析了Keras中的`fit()`和`fit_generator()`方法,解释了两者在训练神经网络模型时的区别和使用场景,其中`fit()`适用于数据集较小且无需数据增强时,而`fit_generator()`适用于大数据集或需要数据增强的情况。
52 2
|
6月前
|
机器学习/深度学习 自然语言处理 C++
[Dict2vec]论文实现:Dict2vec : Learning Word Embeddings using Lexical Dictionaries
[Dict2vec]论文实现:Dict2vec : Learning Word Embeddings using Lexical Dictionaries
36 2
[Dict2vec]论文实现:Dict2vec : Learning Word Embeddings using Lexical Dictionaries
|
6月前
|
机器学习/深度学习 自然语言处理 算法
Coggle 30 Days of ML(23年7月)任务六:训练FastText、Word2Vec词向量
Coggle 30 Days of ML(23年7月)任务六:训练FastText、Word2Vec词向量
|
机器学习/深度学习 存储 自然语言处理
【新闻文本分类】(task4)使用gensim训练word2vec
Word2vec即“word to vector”,是一个生成对“词”的向量表达的模型。 想要训练 Word2vec 模型,我们需要准备由一组句子组成的语料库。假设其中一个长度为 T 的句子包含的词有 w1,w2……wt,并且我们假定每个词都跟其相邻词的关系最密切。
574 0
【新闻文本分类】(task4)使用gensim训练word2vec
|
自然语言处理 算法 语音技术
【nlp-with-transformers】|Transformers中的generate函数解析
今天社群中的小伙伴面试遇到了一个问题,如何保证生成式语言模型在同样的输入情况下可以保证同样的输出。 这里面造成问题的因素有两个方面: 一个方面是在forward过程中参数的计算出现了差异,这种情况一般发生在游戏显卡中,游戏显卡无法保证每一次底层算子计算都是成功的,也没有办法保证同输入同输出,这里我们就需要采用具有ecc内存纠错机智的专用显卡用来解决相关的问题。
586 0
|
数据采集 机器学习/深度学习 自然语言处理
Huggingface Transformers各类库介绍(Tokenizer、Pipeline)
Huggingface Transformers各类库介绍(Tokenizer、Pipeline)
|
自然语言处理 数据可视化 数据处理
基于gensim实现word2vec模型(附案例实战)
基于gensim实现word2vec模型(附案例实战)
901 1
基于gensim实现word2vec模型(附案例实战)
|
搜索推荐 TensorFlow 算法框架/工具
TensorFlow中Embedding和One-Hot的区别
TensorFlow中Embedding和One-Hot的区别
156 0
下一篇
无影云桌面