全新HuggingFace数据集库发布!带来467种语言的611个文本数据集

简介: NLP初创公司 HuggingFace 近日发布新版其Datasets库 v1.2,包括611 个文本数据集,可以下载以准备在一行 python 中使用;涵盖 467 种语言,其中 99 种包含至少 10 个数据集;当使用非常大的数据集时(默认情况下是内存映射),高效的预处理可以使用户摆脱内存限制。

微信图片_20220112100255.png


谈到 Hugging Face,熟悉NLP的朋友们可能无人不知。


Hugging Face是一家领先的 NLP 创业公司,有超过一千家公司使用他们的产品库,其中包括必应,苹果,Monzo等。 


微信图片_20220112100257.png


它拥有一个大型的开源社区,尤其是transformers库。


transformers 是一个基于 python 的库,它公开了一个 API 来使用许多著名的transformer架构,如 BERT、 RoBERTa、 GPT-2或 DistilBERT等,这些架构可以获得各种 NLP 任务的SOTA结果,如文本分类、信息抽取、问答和文本生成。

 微信图片_20220112100259.png


这些架构都通过预训练得到了权重。通过pip命令即可安装: 


微信图片_20220112100301.png

而本次更新的datasets是一个提供两个主要特性的轻量级库:


 一行程序处理: 这是用于下载和预处理任何主要公共数据集的一行程序(使用467种语言和方言),在HuggingFace Datasets Hub提供。 


使用一个简单的命令,比如: 


squad _ dataset = load _ datasets (“ squad”) 


即可获得这些数据集中的任何一个,以便在数据采集器中用于训练/评估 ML 模型(Numpy/Pandas/PyTorch/TensorFlow/JAX) 。 


高效的数据预处理:简单、快速、可复制的数据数据预处理,可用于上述公共数据集以及用 CSV/JSON/text 编写的本地数据集。


使用简单的命令,比如:tokenized_dataset = dataset.map(tokenize_exemple),  ,可以有效地准备数据集进行检验和 ML 模型评估和训练。 


Datasets还提供了15个以上的评价指标,旨在让社区容易地添加和共享新的数据集和评价指标。 

Datasets还有许多其他有趣的特性:

将用户从 RAM 内存限制中释放出来,所有数据集都使用一个有效的零序列化开销后端(Apache Arrow)进行内存映射;  智能缓存: 永远无需等待数据被多次处理;  使用透明和 pythonic API (多处理/缓存/内存映射)实现轻量级和快速;  与 NumPy、 pandas、 PyTorch、 Tensorflow 2和 JAX 的内置互操作性。 


安装和用法


datasets可以从 PyPi 安装,而且必须在虚拟环境中安装(例如 venv 或 conda): 


pip install datasets 


如果想要将Datasets与 PyTorch (1.0 +)、 TensorFlow (2.2 +)或Pandas等一起使用,还应该安装对应版本的框架和库。 


Datasets使用起来非常简单,其中主要的方法有:


1.datasets.list_datasets() 列出可用的数据集 


2.datasets.load_dataset(dataset_name, **kwargs)  实例化一个数据集 


3.datasets.list_metrics()  列出可用的指标 


4.datasets.load_metric(metric_name, **kwargs)实例化一个指标 


举一个简单的例子:


微信图片_20220112100303.png


更多详细信息,可以查看文档中的快速浏览页面:https://huggingface.co/docs/datasets/quicktour.html

相关文章
|
1月前
|
数据采集 自然语言处理 Python
如何使用Gensim库进行情感分析?
使用Gensim进行情感分析,需安装Gensim库,导入相关模块(Word2Vec, KeyedVectors, nltk等)。数据预处理涉及分词和去除停用词,然后用Word2Vec训练词向量模型。已训练的模型可加载用于计算句子情感分数,通过平均词向量表示句子情感。代码提供了一个基础的情感分析流程,可按需求调整。
42 1
|
3月前
|
机器学习/深度学习 算法 TensorFlow
文本分类识别Python+卷积神经网络算法+TensorFlow模型训练+Django可视化界面
文本分类识别Python+卷积神经网络算法+TensorFlow模型训练+Django可视化界面
63 0
文本分类识别Python+卷积神经网络算法+TensorFlow模型训练+Django可视化界面
|
17天前
|
机器学习/深度学习 存储 人工智能
【python】python葡萄酒数据集—分类建模与分析(源码+数据集)【独一无二】
【python】python葡萄酒数据集—分类建模与分析(源码+数据集)【独一无二】
|
10月前
|
机器学习/深度学习 自然语言处理 安全
LLM 系列 | 17:如何用LangChain做长文档问答?
本文作为LangChain专题的开篇,以长文档问答为例介绍如何使用LangChain。
LLM 系列 | 17:如何用LangChain做长文档问答?
|
8月前
|
数据采集 自然语言处理 PyTorch
全套解决方案:基于pytorch、transformers的中文NLP训练框架,支持大模型训练和文本生成,快速上手,海量训练数据!
全套解决方案:基于pytorch、transformers的中文NLP训练框架,支持大模型训练和文本生成,快速上手,海量训练数据!
全套解决方案:基于pytorch、transformers的中文NLP训练框架,支持大模型训练和文本生成,快速上手,海量训练数据!
|
8月前
|
算法 数据可视化 数据挖掘
知识图谱入门:使用Python创建知识图,分析并训练嵌入模型
本文中我们将解释如何构建KG、分析它以及创建嵌入模型。
420 2
|
9月前
|
机器学习/深度学习 XML 算法
机器学习模型保存为PMML格式
PMML模型文件可以实现跨平台迁移,python和java都可以生成PMML文件,python和java都可以读取PMML文件
296 0
|
9月前
|
机器学习/深度学习 存储 自然语言处理
文本情感识别系统python+Django网页界面+SVM算法模型+数据集
文本情感分析系统,使用Python作为开发语言,基于文本数据集,使用Word2vec对文本进行处理。通过支持向量机SVM算法训练情绪分类模型。实现对文本消极情感和文本积极情感的识别。并基于Django框架开发网页平台实现对用户的可视化操作和数据存储。
169 0
文本情感识别系统python+Django网页界面+SVM算法模型+数据集
|
11月前
|
存储 人工智能 自然语言处理
使用大语言模型集成工具 LangChain 创建自己的论文汇总和查询工具
Langchain可以帮助开发人员构建由大型语言模型(llm)支持的应用程序。它提供一个框架将LLM与其他数据源(如互联网或个人文件)连接起来。这允许开发人员将多个命令链接在一起,以创建更复杂的应用程序。包括最近比较火爆的AutoGPT等都是使用了Langchain框架进行开发的。所以本文将介绍如何使用LangChain来创建我们自己的论文汇总工具。
779 0
使用大语言模型集成工具 LangChain 创建自己的论文汇总和查询工具
|
11月前
|
数据采集 机器学习/深度学习 JSON
【Pytorch神经网络实战案例】32 使用Transformers库的管道方式实现:加载指定模型+文本分类+掩码语言建模+摘要生成+特征提取+阅读理解+实体词识别
在Transformers库中pipeline类的源码文件pipelines.py里,可以找到管道方式自动下载的预编译模型地址。可以根据这些地址,使用第三方下载工具将其下载到本地。
511 0