如何使用中文维基百科语料-阿里云开发者社区

如何使用中文维基百科语料

2017-10-26 2877

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 前言在做自然语言处理时很多时候都会需要中文语料库，高质量的中文语料库较难找，维基百科和百度百科算是比较不错的语料库。

前言

在做自然语言处理时很多时候都会需要中文语料库，高质量的中文语料库较难找，维基百科和百度百科算是比较不错的语料库。其中维基百科会定时将语料库打包发布 https://dumps.wikimedia.org/zhwiki/ ，可以下载最新版本的语料库。而百度百科则需要自己去爬，不过也有人把爬好的语料贡献出来了，https://pan.baidu.com/share/init?surl=i3wvfil提取码 neqs 。

这篇文章主要讲下如何使用中文维基百科的语料库。

Wikipedia Dump

通过 https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 可以下载最新的中文维基百科语料，目前大小为1.37G左右，里面内容以xml格式保存，所以我们后续还是需要做处理的。xml节点信息类似如下

<page>
  <title></title>
  <id></id>
  <timestamp></timestamp>
  <username></username>
  <comment></comment>
  <text xml:space="preserve"></text>
</page>

根据标签名容易知道各个节点内容表示的意义，text节点为文章内容，它里面其实还包含了很多其他的一些符号，也是需要过滤掉的。

抽取数据

对于上述下载的语料库，需要进一步抽取，可以选择
* 自己写程序抽取。
* 使用Wikipedia Extractor抽取。
* 使用gensim中wikicorpus库抽取。

由于维基百科语料库有很多符号，使用场景不同过滤的内容也不同，根据自己需要处理即可。这里直接使用Wikipedia Extractor先初步处理，

git clone https://github.com/attardi/wikiextractor.git wikiextractor

cd wikiextractor

python setup.py install

python WikiExtractor.py -b 1024M -o extracted zhwiki-latest-pages-articles.xml.bz2

执行过程如下，可以看到一共处理了965446篇文章。

INFO:root:5913353       服务水平管理
INFO:root:5913361       釋紹宗
INFO:root:5913367       2018年冬季奥林匹克运动会朝鲜代表团
INFO:root:5913369       扶搖
INFO:root:5913390       彭郁真
INFO:root:5913402       施耐德75毫米极轻便山炮
INFO:root:5913435       伊恩·麥奈爾
INFO:root:5913442       雷曼2：胜利大逃亡
INFO:root:5913443       兆丰洋行
INFO:root:5913445       有點想
INFO:root:5913446       田中淡
INFO:root:5913450       玩具指挥官
INFO:root:5913453       圣诞怪杰 (游戏)
INFO:root:5913457       Ontario Solar panel business proposal
INFO:root:5913458       特摄冒险话剧 超级英雄列传
INFO:root:5913465       玩具总动员2：拯救巴斯光年
INFO:root:5913467       佳能 EOS-1
INFO:root:5913480       南秉吉
INFO: Finished 11-process extraction of 965446 articles in 847.7s (1138.8 art/s)

通过以上抽取后得到两个文件wiki_00和wiki_01。里面的格式类似下面

<doc id="5323477" url="https://zh.wikipedia.org/wiki?curid=5323477" title="結構與能動性">
文章内容
</doc>

二次处理

通过Wikipedia Extractor处理时会将一些特殊标记的内容去除了，但有时这些并不影响我们的使用场景，所以只要把抽取出来的标签和一些空括号、「」、『』、空书名号等去除掉即可。

import re
import sys
import codecs
def filte(input_file):
    p1 = re.compile('（）')
    p2 = re.compile('《》')
    p3 = re.compile('「')
    p4 = re.compile('」')
    p5 = re.compile('<doc (.*)>')
    p6 = re.compile('</doc>')
    outfile = codecs.open('std_' + input_file, 'w', 'utf-8')
    with codecs.open(input_file, 'r', 'utf-8') as myfile:
        for line in myfile:
            line = p1.sub('', line)
            line = p2.sub('', line)
            line = p3.sub('', line)
            line = p4.sub('', line)
            line = p5.sub('', line)
            line = p6.sub('', line)
            outfile.write(line)
    outfile.close()
if __name__ == '__main__':
    input_file = sys.argv[1]
    filte(input_file)

繁体转简体

维基百科语料库中包含了大量的繁体中文，对于我们可能需要将其转换成简体中文，这里使用opencc来进行转换。两种方式使用opencc，
* 直接使用opencc的windows版本，然后执行命令对文件进行转换，可到https://bintray.com/package/files/byvoid/opencc/OpenCC下载。
* 使用opencc的python版本，这个在python3.5下可能会报错，执行命令，pip install opencc-python，可能会报错：ImportError: No module named distribute_setup，这时要到http://download.csdn.net/download/tab_space/9455349下载并解压，将distribute_setup.python文件复制到python安装目录下的Lib目录下。再次执行命令，可能又会报错：chown() missing 1 required positional argument: 'numeric_owner'，这时需要将distribute_setup.python文件中self.chown(tarinfo, dirpath)改为self.chown(tarinfo, dirpath, '')。

这里使用windows版本的opencc，执行如下命令将wiki_00和wiki_01文件中繁体转换成简体。

opencc -i wiki_00 -o zh_wiki_00 -c t2s.json

opencc -i wiki_01 -o zh_wiki_01 -c t2s.json

分词

如果还要继续进行分词操作可以使用jieba，直接python安装jieba，然后执行下面脚本，

import jieba
import re
filename='cut_std_zh_wiki_01'
fileneedCut='std_zh_wiki_01'
fn=open(fileneedCut,"r",encoding="utf-8")
f=open(filename,"w+",encoding="utf-8")
for line in fn.readlines():
    words=jieba.cut(line)
    for w in words:
       f.write(str(w))
f.close()
fn.close()

以下是广告

========广告时间========

鄙人的新书《Tomcat内核设计剖析》已经在京东销售了，有需要的朋友可以到 https://item.jd.com/12185360.html 进行预定。感谢各位朋友。

为什么写《Tomcat内核设计剖析》

=========================

欢迎关注：

这里写图片描述

如何使用中文维基百科语料

前言

Wikipedia Dump

抽取数据

二次处理

繁体转简体

分词

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

如何使用中文维基百科语料

前言

Wikipedia Dump

抽取数据

二次处理

繁体转简体

分词

热门文章

最新文章

相关课程

相关电子书

相关实验场景