维基百科的语料库下载以及信息提取笔记

简介: 维基百科的语料库下载以及信息提取笔记

前言


中文语料库一般都是极为稀少的,要进行中文词向量的训练可能是极为困难的,这时候我们需要使用中文维基百科来进行词向量的训练。


一、前提知识


1-1、中文维基百科的下载


wiki语料库下载网址:https://dumps.wikimedia.org/.

最近的中文wiki语料:https://dumps.wikimedia.org/zhwiki/latest/.

我们选择其中的一个内容比较丰富的文件:zhwiki-latest-pages-articles.xml.bz2


1-2、抽取正文内容,繁体转换为简体


1-2-1、抽取正文内容

1-2-2、繁体转换为简体

opencc库:繁体转化为简体非常好用的一个库。

下载:pip install opencc-python-reimplemented==0.1.4

python2和python3使用opencc库的区别

# python2使用
import opencc 
opencc.convert()
# python3使用
from opencc import OpenCC
# 下载的包里面会有s2t.json文件,代表简体转繁体,t2s代表繁体到简体。
cc = OpenCC('s2t')
cc.convert()

1-3、特征工程

def wiki_replace(d):
    s = d[1]
    s = re.sub(':*{\|[\s\S]*?\|}', '', s)
    s = re.sub('<gallery>[\s\S]*?</gallery>', '', s)
    s = re.sub('(.){{([^{}\n]*?\|[^{}\n]*?)}}', '\\1[[\\2]]', s)
    s = filter_wiki(s)
    s = re.sub('\* *\n|\'{2,}', '', s)
    s = re.sub('\n+', '\n', s)
    s = re.sub('\n[:;]|\n +', '\n', s)
    s = re.sub('\n==', '\n\n==', s)
    s = u'【' + d[0] + u'】\n' + s
    return cc.convert(s).strip()

1-4、训练词向量

将前面得到的中文语料库使用jieba分词工具进行分词之后,使用word2vec工具进行训练。

二、实战训练


# -*- coding: utf-8 -*-
# !/usr/bin/env python
# 使用python2来写。
# import sys
# reload(sys)
# sys.setdefaultencoding('utf8')
# 以下代码是基于python3.8来进行的
import imp
import sys
imp.reload(sys)
from gensim.corpora.wikicorpus import extract_pages, filter_wiki
import bz2file
import re
# 2.7使用的包
# import opencc 
# 3.8使用的包
from opencc import OpenCC
from tqdm import tqdm
import codecs
wiki = extract_pages(bz2file.open('./zhwiki-latest-pages-articles.xml.bz2'))
cc = OpenCC('t2s')
def wiki_replace(d):
    s = d[1]
    s = re.sub(':*{\|[\s\S]*?\|}', '', s)
    s = re.sub('<gallery>[\s\S]*?</gallery>', '', s)
    s = re.sub('(.){{([^{}\n]*?\|[^{}\n]*?)}}', '\\1[[\\2]]', s)
    s = filter_wiki(s)
    s = re.sub('\* *\n|\'{2,}', '', s)
    s = re.sub('\n+', '\n', s)
    s = re.sub('\n[:;]|\n +', '\n', s)
    s = re.sub('\n==', '\n\n==', s)
    s = u'【' + d[0] + u'】\n' + s
    return cc.convert(s).strip()
i = 0
f = codecs.open('wiki.txt', 'w', encoding='utf-8')
w = tqdm(wiki, desc=u'已获取0篇文章')
for d in w:
    if not re.findall('^[a-zA-Z]+:', d[0]) and d[0] and not re.findall(u'^#', d[1]):
        s = wiki_replace(d)
        f.write(s + '\n\n\n')
        i += 1
        if i % 100 == 0:
            w.set_description(u'已获取%s篇文章' % i)
f.close()


参考文章:

使用维基百科训练简体中文词向量.

wiki中文文本语料下载并处理 ubuntu + python2.7.

维基百科的语料库下载以及后续操作(一)2020年6月包括opencc下载避雷,繁转简.


总结


回家之后,无所事事了几天,打游戏也觉得索然无味,嗯,还是敲代码比较有意思。

相关文章
|
存储 JSON 自然语言处理
数据标注工具 doccano | 命名实体识别(Named Entity Recognition,简称NER)
标注数据保存在同一个文本文件中,每条样例占一行且存储为json格式,其包含以下字段 • id: 样本在数据集中的唯一标识ID。 • text: 原始文本数据。 • entities: 数据中包含的Span标签,每个Span标签包含四个字段: • id: Span在数据集中的唯一标识ID。 • start_offset: Span的起始token在文本中的下标。 • end_offset: Span的结束token在文本中下标的下一个位置。 • label: Span类型。 • relations: 数据中包含的Relation标签,每个Relation标签包含四个字段: • id: (Span
710 0
|
10月前
|
存储 人工智能 搜索推荐
整合长期记忆,AI实现自我进化,探索大模型这一可能性
本文探讨了通过整合长期记忆(LTM),AI模型能否实现自我进化,以提升处理新任务和适应环境的能力。LTM能帮助模型存储和利用长期信息,提高决策质量和服务个性化水平。文章还讨论了LTM整合的挑战及解决方案,以及如何借鉴人类记忆机制设计有效的LTM策略。[论文链接](https://arxiv.org/pdf/2410.15665)
564 17
|
11月前
|
JavaScript
原生JS实现斗地主小游戏
这是一个原生的JS网页版斗地主小游戏,代码注释全。带有斗地主游戏基本的地主、选牌、提示、出牌、倒计时等功能。简单好玩,欢迎下载
254 7
|
XML 自然语言处理 数据格式
如何使用中文维基百科语料
前言 在做自然语言处理时很多时候都会需要中文语料库,高质量的中文语料库较难找,维基百科和百度百科算是比较不错的语料库。
3059 0
|
12月前
|
存储 机器学习/深度学习 算法
蓝桥杯练习题(二):Python组之基础练习三十题
蓝桥杯Python编程练习题的集合,包含了三十个不同难度的编程题目,覆盖了基础语法、数据结构和算法等领域。
239 0
|
12月前
|
应用服务中间件 PHP nginx
访问网站500 Internal Server Error怎么办
访问网站500 Internal Server Error怎么办
|
小程序 JavaScript
微信小程序实现一个简单的表格
微信小程序实现一个简单的表格
344 0
|
数据采集 编解码 数据挖掘
使用Python进行多次降采样技术
使用Python进行多次降采样技术
370 1
|
JavaScript
Vue中 引入使用 vue-splitpane 实现窗格的拆分、调节
Vue中 引入使用 vue-splitpane 实现窗格的拆分、调节
2479 0
Vue中 引入使用 vue-splitpane 实现窗格的拆分、调节
|
存储 机器学习/深度学习 数据采集
基于LightGBM的肺癌分类模型:从预测到个体化治疗
基于LightGBM的肺癌分类模型:从预测到个体化治疗
612 1