输出结果
后期更新……
最后的model
word2vec_wiki.model.rar
设计思路
后期更新……
1、Wikipedia Text语料来源
Wikipedia Text语料来源及其下载:zhwiki dump progress on 20190120
其中zhwiki-latest-pages-articles.xml.bz2文件包含了标题、正文部分。压缩包大概是1.3G,解压后大概是5.7G。相比英文wiki中文的还是小了不少。
2、维基百科的文档解析
下载下来的wiki是XML格式,需要提取其正文内容。不过维基百科的文档解析有不少的成熟工具(例如gensim,wikipedia extractor等。其中Wikipedia Extractor 是一个简单方便的Python脚本。
T1、Wikipedia Extractor工具
Wikipedia extractor的网址: http://medialab.di.unipi.it/wiki/Wikipedia_Extractor
Wikipedia extractor的使用:下载好WikiExtractor.py后直接使用下面的命令运行即可,
其中,-cb 1200M表示以 1200M 为单位切分文件,-o 后面接出入文件,最后是输入文件。
WikiExtractor.py -cb 1200M -o extracted zhwiki-latest-pages-articles.xml.bz2
T2、python代码实现
将这个XML压缩文件转换为txt文件
python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text
3、中文的简繁转换
中文wiki内容中大多数是繁体,这需要进行简繁转换。可以采用厦门大学NLP实验室开发的简繁转换工具或者opencc代码实现。
T1、厦门大学NLP实验室开发的简繁转换工具
转换工具下载网址:http://jf.cloudtranslation.cc/
转换工具的使用:下载单机版即可,在windos命令行窗口下使用下面命令行运行
其中file1.txt为繁体原文文件,file2.txt为输出转换结果的目标文件名,lm_s2t.txt为语言模型文件。
jf -fj file1.txt file2.txt -lm lm_s2t.txt
T2、opencc代码实现
opencc -i wiki.zh.text -o wiki.zh.text.jian -c zht2zhs.ini, 将繁体字转换为简体字。
4、将非utf-8格式字符转换为utf-8格式
iconv -c -t UTF-8 < wiki.zh.text.jian.seg > wiki.zh.text.jian.seg.utf-8
5、调用word2vec
python train_word2vec_model.py wiki.zh.text.jian.seg.utf-8 wiki.zh.text.model wiki.zh.text.vector