你好,我是Giant。
昨天浏览Github的时候,无意中发现阿里又有了新动作:开源了最新的自然语言处理框架—PAI-EasyNLP。
我详细整理了这份食用指南,送给热爱算法的读者们。
1. 何谓EasyNLP?
EasyNLP主要帮助Pytorch用户简单高效地实现传统NLU任务,以及使用预训练语言模型、小样本学习、关键词提取、敏感词识别、数据增强等算法。
主要有以下特性:
1)无缝接入huggingface/transformers的模型;
2)发挥预训练模型魅力,集成了前沿的知识预训练模型,包括DKPLM和KGBERT等;
3)大模型高效落地,提供小样本学习和知识蒸馏能力,方便用户在很少的样本上训练大模型并取得很好的效果;
4)高度自定义,除了简洁的PAI命令,用户可根据自己的需求进行模型、数据处理、训练、评估、预测自定义。
预览整个框架,EasyNLP可满足多模态、知识蒸馏、小样本学习、NLU、NLG各个任务的需求。
Overview
支持使用pip指令一键安装。
$ pip install pai-easynlp
2.EasyNLP使用实例
简单来说,EasyNLP有两种调用方法,都非常简单。以文本分类为例,第一种可以使用EasyNLP的api快速实现一个基于BERT的分类器。
如果是自己的数据集,使用dataset的api也可以很快导入。数据格式通过“input_schema”指定。
然后运行main.py脚本就开始愉快的训练了!
其次,我们还能通过AppZoo指令更高效地执行任务。ModelZoo已支持BERT、RoBertA、MacBERT、KGBERT等十几种预训练模型。
有多高效?大约是13行代码。
inference的过程也同样简单,更多教程留给大家测试。