中文NLP常用数据集预训练模型与工具库汇总-开发者社区-阿里云

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

2019-08-26 5772

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文为你推荐中文自然语言处理数据集。

来源：AINLP

文章来源：微信公众号数据派THU

本文约1300字，建议阅读5分钟。

本文为你推荐中文自然语言处理数据集。

推荐一个Github项目：ChineseNLPCorpus，该项目收集了一批中文自然语言处理数据集的相关链接，可以用来练手，点击阅读原文可以直达该项目链接：

https://github.com/InsaneLife/ChineseNLPCorpus

以下来自该项目介绍页

中文自然语言处理数据集，平时做做实验的材料。欢迎补充提交合并。

文本分类

新闻分类

今日头条中文新闻（短文本）分类数据集：https://github.com/fateleak/toutiao-text-classfication-dataset

数据规模：共38万条，分布于15个分类中。

采集时间：2018年05月。

以0.7 0.15 0.15做分割。

清华新闻分类语料：

根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成。

数据量：74万篇新闻文档（2.19 GB）

小数据实验可以筛选类别：体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐

http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5

rnn和cnn实验：https://github.com/

gaussic/text-classification-cnn-rnn

中科大新闻分类语料库：http://www.nlpir.org/?action-viewnews-itemid-145

情感/观点/评论倾向性分析

实体识别&词性标注

微博实体识别。
https://github.com/hltcoe/golden-horse
boson数据。
包含6种实体类型。

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/boson

1998年人民日报数据集。
人名、地名、组织名三种实体类型

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao

MSRA微软亚洲研究院数据集。

万多条中文命名实体识别标注数据（包括地点、机构、人物）

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA

SIGHAN Bakeoff 2005：一共有四个数据集，包含繁体中文和简体中文，下面是简体中文分词数据。

MSR: http://sighan.cs.uchicago.edu/bakeoff2005/

PKU ：http://sighan.cs.uchicago.edu/bakeoff2005/

搜索匹配

OPPO手机搜索排序

OPPO手机搜索排序query-title语义匹配数据集。

下载链接：

https://pan.baidu.com/s/1Obm8oRVZEIh76-cpPc0qZw

网页搜索结果评价(SogouE)

推荐系统

百科数据

维基百科

维基百科会定时将语料库打包发布：

数据处理博客
https://dumps.wikimedia.org/zhwiki/

百度百科

只能自己爬，爬取得链接：https://pan.baidu.

com/share/init?surl=i3wvfil提取码 neqs 。

指代消歧

CoNLL 2012 ：http://conll.cemantix

.org/2012/data.html

预训练：（词向量or模型）

BERT

开源代码:https://github.com/

google-research/bert

模型下载：BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters

ELMO

开源代码：

https://github.com/allenai/bilm-tf

预训练的模型：https://allennlp.org/elmo

腾讯词向量

腾讯AI实验室公开的中文词向量数据集包含800多万中文词汇，其中每个词对应一个200维的向量。

下载地址：https://ai.tencent.com

/ailab/nlp/embedding.html

上百种预训练中文词向量

下载地址：https://github.com/

Embedding/Chinese-Word-Vectors

中文完形填空数据集

下载地址：https://github.com/

ymcui/Chinese-RC-Dataset

中华古诗词数据库

最全中华古诗词数据集，唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人，21050首词。

下载地址：https://github.com/chinese-poetry/chinese-poetry

保险行业语料库

下载地址：https://github.com/

Samurais/insuranceqa-corpus-zh

汉语拆字字典

英文可以做char embedding，中文不妨可以试试拆字

下载地址：https://github.com/kfcd/chaizi

中文数据集平台

搜狗实验室

搜狗实验室提供了一些高质量的中文文本数据集，时间比较早，多为2012年以前的数据。

https://www.sogou.com/labs/resource/list_pingce.php

中科大自然语言处理与信息检索共享平台
http://www.nlpir.org/?action-category-catid-28
中文语料小数据
包含了中文命名实体识别、中文关系识别、中文阅读理解等一些小量数据。

https://github.com/crownpku/Small-Chinese-Corpus

维基百科数据集
https://dumps.wikimedia.org/

NLP工具

THULAC：https://github.com/thunlp/THULAC ：包括中文分词、词性标注功能。

HanLP：https://github.com/hankcs/HanLP

哈工大LTP： https://github.com/HIT-SCIR/ltp

NLPIR ：https://github.com/NLPIR-team/NLPIR

jieba ：https://github.com/yanyiwu/cppjieba

编辑：于腾凯

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

文本分类

实体识别&词性标注

搜索匹配

OPPO手机搜索排序

网页搜索结果评价(SogouE)

百科数据

预训练：（词向量or模型）

中文数据集平台

数据派

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

文本分类

实体识别&词性标注

搜索匹配

OPPO手机搜索排序

网页搜索结果评价(SogouE)

百科数据

预训练：（词向量or模型）

中文数据集平台

数据派

热门文章

最新文章

相关课程

相关电子书