什么是NLP
NPL是面向算法小白用户的行业自适应标注、训练和服务平台。该产品支持文本实体抽取、文本分类、关键短语抽取、情感分析、关系抽取、短文本匹配、商品评价解析等 NLP 定制化算法能力,用户无需拥有丰富的算法背景,仅需标注或上传适量文档数据,即可通过平台获得优质的 NLP 算法模型。
简单来说就是即使你是一个算法小白,你也可以拥有你自己的算法模型。下面开始上手实践吧
开通NLP
NLP官网地址:https://ai.aliyun.com/nlp 点击打开官网,点击【免费使用】
跳转到自然语言处理NLP,
这里我们不知道接下来我们要用到的是基础版、高级版还是行业应用版,因此这里我们先不开通,直接进入创建项目操作,等后续用到的时候再回过头来开通相应的服务。
新建项目
点击左侧菜单【创建项目】跳转到相应的服务开通页面
勾选NLP自学习平台服务协议,点击【立即开通】,开通成功。再次点击【创建项目】
这里我选择【关键短语抽取】点击【创建】,在弹出页面输入项目名称及项目描述点击【确认】
创建模型
点击【进入项目】
可以看到【创建模型】页面
点击【创建模型】
输入模型名称,根据专业词表要求结构填入专业词,点击本地上传后点击【提交】
静静等待模型训练,这里需要说明一下哈,模型训练完成之后当前页面是不会自动刷新的哦,因此你根据预计时间决定,时间差不多够的时候就自行F5刷新页面即可看到模型训练成功页面
模型训练成功之后我们来测试一下模型训练的成果吧,点击【测试】,输入一段话语,其中包含刚才训练模型的短语
然后点击【测试】看一下关键短语抽取的效果
使用感受和疑惑
这里可以看到我在文本内容中包含了刚才模型训练的“东奥”“初级”两个短语,但是在测试过程中并没有将这两个短语抽取出来,这是因为什么呢?是因为模型只训练了1次,训练度不够?在官方文档中对于这种情况发生的具体原因及解决方案也没有找到明确的说明,这里有点小缺憾,希望后期官方文档团队的可以就这块内容做相关的丰富,比如不同问题场景下发生的原因以及处理方案,目前来说个人是比较懵的,想不明白为什么指定的关键词短语没有被抽取出来。
继续测试
考虑到自学习模型训练效果不是很好,这里我来体验一下官方已经训练好的预训练模型
这里我选择【招标中标信息抽取-基础版服务】来测试一下官方预训练模型的效果
这里可以看到整体信息抽取的效果还是很可以的,主要信息已经抽取出来了。考虑到刚才自己的模型效果不是很好,这里我再次尝试
再次尝试
创建项目
这次我创建项目时选择【短文本匹配】类别创建项目
进入项目空间之后可以看到这个类型的项目需要创建标注任务
创建标注任务
点击【创建标注任务】输入标注名称,上传标注文件,这里的标注文件我直接选择官方的示例文件
点击【标注】跳转到标注文件次页面,
根据实际情况选择相似性后继续下一条
标注完成后点击【回到列表页】
这里根据业务需要确定是否需要质检,这里我不需要质检,下面开始训练
创建模型
这里我们开始创建模型
点击【确认】选中我们刚才已经标注过的内容,然后【提交】
等待模型训练完成之后点击【发布】模型
等待模型发布成功
发布成功点击【测试】体验一下模型训练效果,输入两段文本内容,
减少一下两段文本的内容再次尝试一下
这里两段的内容和在文档标注时期的内容基本相似了,
但是模型反馈的结果还是不相似,数据纠错选择相似,点击确认
数据纠错之后再次尝试效果
效果还是不理想,这是因为训练的次数不够吗,还是说因为标注的不够准确,这样,我拿标注内容测试一下看看
效果依然不够理想,这块希望官方可以再处理一下,提高一下精确度,这里短语A和短语B已经和标注时的内容完全一致了,标注是选择的相似,但是这里计算的相似度以及反馈结果都显示不相似,本次体验到此也就完成了,产品的应用场景还是有的,目前来说文本相似度判断以及关键短语抽取、智能文本分类以及文本信息抽取,商品评价解析等都有相当大的应用场景,后期继续提高模型准确度及算法精准度,相信会有很大的应用空间的,感谢好产品!