在实操上手操作之前,首先需要确认一下相关的专业名词的定义。
什么是EasyNLP
官方文档中定义:EasyNLP是PyTorch中易于使用的NLP开发和应用工具包,它采用可扩展的分布式训练策略构建,并支持适用于各种NLP应用的一整套NLP算法。集成了知识蒸馏和few-shot learning,用于落地大型预训练模型。
什么是mT5
官方定义是:T5是由谷歌提出的一个序列到序列预训练模型,它将不同的生成任务进行统一,在兼顾迁移性的前提下取得了文本生成领域的最佳性能。mT5是T5的多语言版本,该模型利用包含101种语言的语料训练得到多语言预训练模型。
在EasyNLP中,我们提供了经过训练的mT5(其它模型可见列表),以便用户能够受益于模型强大的建模能力。该模型是在mT5的基础上利用新闻数据进行微调得到。本文将以生成吸引人眼球的新闻标题为例,将mT5作为模型底座构建标题生成模型,展示如何利用EasyNLP进行模型构建、训练、评估、预测。
生成吸引人眼球的新闻标题
机器学习PAI体验地址:https://click.aliyun.com/m/1000370361/
开通机器学习PAI服务
如果没有开通机器学习PAI,那么你需要先开通
点击【免费开通并创建默认工作空间】
确认之后会出现弹窗提示,
我们选择【去授权】,进入到授权页面
点击【同意授权】之后,再次回到开通页面点击确认按钮,会看到【等待...】的提示
等待之后就显示开通成功
生成新闻标题
点击机器学习PAI首页的DSW Gallery,找到【基于EasyNLP的中文新闻标题生成】
创建DSW实例
点击【在DSW中打开】,这时会弹出页面选择实例
这里如果DSW实例没有可选项的话,点击选择框下面的【这里】跳转到创建DSW实例页面。
输入自定义实例名称,这里选择GPU P100 60GB的资源
镜像选择PAI-Pytorch 1.7/1.8镜像,这样创建的DSW实例才符合基于EasyNLP的中文新闻标题生成 所需要的环境要求
点击【确认订单】跳转到确认页面
再次确认实例信息后勾选协议点击【创建实例】完成创建。
EasyNLP安装
后续参考操作内容进行EasyNLP安装
! git clone https://github.com/alibaba/EasyNLP.git ! pip install -r EasyNLP/requirements.txt -i http://mirrors.aliyun.com/pypi/simple/ ! cd EasyNLP ! python setup.py install
使用如下命令验证是否安装成功:
! which easynlp
这里我的EasyNLP安装是没有安装成功的,尝试了两次,安装了两个多小时还是一样的结果
下面按照程序继续进入数据准备
数据准备
下载用于本示例的训练和测试集,并创建保存模型的文件夹
! wget http://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/release/tutorials/generation/cn_train.tsv ! wget http://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/release/tutorials/generation/cn_dev.tsv
数据下载完成后,可以通过以下代码查看第一条数据
print('Training data sample:') ! head -n 1 cn_train.tsv print('Development set data sample:') ! head -n 1 cn_dev.tsv
后续可以继续参考官方文档的步骤逐步操作下去即可。
DSW-Gallery使用感受
建议
在使用过程中,个人觉得能在DSW的实例中内置好EasyNLP安装的安装内容呢?这里按照操作文档逐步执行安装EasyNLP的过程真的很痛苦,单说从git拉文件以及执行! pip install就持续了一个多小时,实在是太磨炼人的耐心了,最尴尬的是好不容易都安装完成之后验证EasyNLP是否安装成功时,验证命令返回 no EasyNLP;因此个人强烈建议DSW实例可以内置EasyNLP,这样对于提升用户体验,帮助用户更快掌握DSW Gallery操作一定会大有助益的。
日常应用
通过预览案例,在DSW实例中快速启动案例,或将案例修改为适合自己的使用场景。通过DSW Gallery,丰富的案例和解决方案可提升研发的效率和质量,帮助新手快速完成模型构建和训练。在日常工作中博文提取摘要,以及公众号,媒体文件等提取核心内容等,在这个自媒体,不单是视频也包括文本的时代,应用的场景会越来越广泛,伴随着DSW Gallery后续功能的不断优化,操作的不断简单化,功能会越来越强大,也会越来越普适化,祝DSW Gallery越来越好。
最后,更多玩转云产品,点击进入:https://click.aliyun.com/m/1000370361/