NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量(一)

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量

输出结果


后期更新……



最后的model

word2vec_wiki.model.rar



设计思路


后期更新……



1、Wikipedia Text语料来源


Wikipedia Text语料来源及其下载:zhwiki dump progress on 20190120


image.png


      其中zhwiki-latest-pages-articles.xml.bz2文件包含了标题、正文部分。压缩包大概是1.3G,解压后大概是5.7G。相比英文wiki中文的还是小了不少。


2、维基百科的文档解析


       下载下来的wiki是XML格式,需要提取其正文内容。不过维基百科的文档解析有不少的成熟工具(例如gensim,wikipedia extractor等。其中Wikipedia Extractor 是一个简单方便的Python脚本。


T1、Wikipedia Extractor工具


Wikipedia extractor的网址: http://medialab.di.unipi.it/wiki/Wikipedia_Extractor

Wikipedia extractor的使用:下载好WikiExtractor.py后直接使用下面的命令运行即可,

                  其中,-cb 1200M表示以 1200M 为单位切分文件,-o 后面接出入文件,最后是输入文件。


WikiExtractor.py -cb 1200M -o extracted zhwiki-latest-pages-articles.xml.bz2

T2、python代码实现


   将这个XML压缩文件转换为txt文件


python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text


3、中文的简繁转换


    中文wiki内容中大多数是繁体,这需要进行简繁转换。可以采用厦门大学NLP实验室开发的简繁转换工具或者opencc代码实现。


T1、厦门大学NLP实验室开发的简繁转换工具


转换工具下载网址:http://jf.cloudtranslation.cc/

转换工具的使用:下载单机版即可,在windos命令行窗口下使用下面命令行运行

                  其中file1.txt为繁体原文文件,file2.txt为输出转换结果的目标文件名,lm_s2t.txt为语言模型文件。


 jf -fj file1.txt file2.txt -lm lm_s2t.txt

T2、opencc代码实现


opencc -i wiki.zh.text -o wiki.zh.text.jian -c zht2zhs.ini, 将繁体字转换为简体字。


4、将非utf-8格式字符转换为utf-8格式


iconv -c -t UTF-8 < wiki.zh.text.jian.seg > wiki.zh.text.jian.seg.utf-8


5、调用word2vec


python train_word2vec_model.py wiki.zh.text.jian.seg.utf-8 wiki.zh.text.model wiki.zh.text.vector


相关文章
|
1月前
|
自然语言处理 算法 数据挖掘
探讨如何利用Python中的NLP工具,从被动收集到主动分析文本数据的过程
【10月更文挑战第11天】本文介绍了自然语言处理(NLP)在文本分析中的应用,从被动收集到主动分析的过程。通过Python代码示例,详细展示了文本预处理、特征提取、情感分析和主题建模等关键技术,帮助读者理解如何有效利用NLP工具进行文本数据分析。
48 2
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能(AI)之计算机视觉和自然语言训练文件
人工智能(AI)之计算机视觉和自然语言训练文件
80 0
|
3月前
|
自然语言处理 算法 数据可视化
NLP-基于bertopic工具的新闻文本分析与挖掘
这篇文章介绍了如何使用Bertopic工具进行新闻文本分析与挖掘,包括安装Bertopic库、加载和预处理数据集、建立并训练主题模型、评估模型性能、分类新闻标题、调优聚类结果的详细步骤和方法。
NLP-基于bertopic工具的新闻文本分析与挖掘
|
3月前
|
自然语言处理
【NLP】如何实现快速加载gensim word2vec的预训练的词向量模型
本文探讨了如何提高使用gensim库加载word2vec预训练词向量模型的效率,提出了三种解决方案:保存模型以便快速重新加载、仅保存和加载所需词向量、以及使用Embedding工具库代替word2vec原训练权重。
218 2
|
3月前
|
机器学习/深度学习 存储 自然语言处理
【NLP-新闻文本分类】3 Bert模型的对抗训练
详细介绍了使用BERT模型进行新闻文本分类的过程,包括数据集预处理、使用预处理数据训练BERT语料库、加载语料库和词典后用原始数据训练BERT模型,以及模型测试。
68 1
|
3月前
|
机器学习/深度学习 自然语言处理 数据可视化
自然语言处理 Paddle NLP - 词向量应用展示
自然语言处理 Paddle NLP - 词向量应用展示
46 0
|
4月前
|
SQL 人工智能 自然语言处理
一款利用人工智能将自然语言查询转换为 SQL 代码的互译工具 - SQL Translator
一款利用人工智能将自然语言查询转换为 SQL 代码的互译工具 - SQL Translator
121 0
|
5月前
|
机器学习/深度学习 自然语言处理 PyTorch
【从零开始学习深度学习】48.Pytorch_NLP实战案例:如何使用预训练的词向量模型求近义词和类比词
【从零开始学习深度学习】48.Pytorch_NLP实战案例:如何使用预训练的词向量模型求近义词和类比词
|
6月前
|
自然语言处理 算法
自然语言处理第3天:Word2Vec模型
自然语言处理第3天:Word2Vec模型
|
6月前
|
机器学习/深度学习 自然语言处理 Java
中文自然语言处理相关资料 | Chinese NLP Toolkits 中文NLP工具
中文自然语言处理相关资料 | Chinese NLP Toolkits 中文NLP工具
下一篇
无影云桌面