0.NLP自学习平台产品评测详细版
NLP自学习平台支持文本实体抽取、文本分类、关键短语抽取、情感分析、关系抽取、商品评价解析、简历抽取和合同要素抽取等NLP定制化算法能力,用户无需拥有丰富的算法背景,仅需标注或上传适量文档数据,即可通过平台快速创建算法模型并使用。
0.1 模型服务支持简介:
多语言分词
提供智能分词服务,由专业的团队研发,保证对数据、模型的不断迭代更新。用户只需简单的调用相关API接口即可获取到所需结果。目前支持简体中文、英文及泰文。
词性标注
通过词性标注服务,用户可以快速的为每一个词附上对应的词性,结合分词服务,可以快速进行更深层次的文本挖掘处理,无需担心新词发现、歧义消除等问题。
命名实体
我们为您提供的命名实体服务,可以帮助您快速识别文本中的实体,进而挖掘各实体间的关系,是进行深度文本挖掘,知识库构建等常用自然语言处理领域里的必备工具。
情感分析
基于海量大数据研发,为有情感分析需求的产品提供服务。能够对短文本进行情感的正负向及中性进行分析,给出结果。在舆情监控、话题审核、口碑分析聚类等商业领域有广大的应用空间。
中心词提取
基于海量数据,使用电商标题中心词以及类目进行训练,通过给每个词计算一个相关性分数来衡量每个词与句子的相关性程度,进而识别并提取出句子的中心词。适用于提取电商搜索query、标题及其他类似短文本(一般小于25个词)的中心词。
智能文本分类
将用户输入的一段文本自动映射到具体的类目上,以帮助用户快速完成文本的分类,并针对文本中的关键标签进行识别和提取。支持平层类目体系或者以树状形式组织的层次类目体系,当前系统内置两种默认分类体系可直接使用:新闻资讯领域内类目体系、电商领域类目体系。
文本信息抽取
当前提供的能力主要面向合同抽取领域,结合AI技术,通过自动阅读文档内容,将用户关心的关键核心信息进行提取,简化机械性和重复性的工作,协助企业完成文档审阅及录入工作。
商品评价解析
商品评价解析主要用于分析消费者反馈的评价、点评内容,同时也可以对类似微博的口语化、短文本进行分析。对于长篇幅的新闻篇章不适用。
0.2 产品优势
- 易用:使用流程简单,无需工程与算法背景。
- 快捷:全链路优化,平均训练模型耗时<30分钟。
- 专业:专业技术沉淀,500+标注数据时,模型准确率预计>85%。
详细本人不进行展开请参考:https://help.aliyun.com/document_detail/189575.html
1.平台使用流程简介
NLP自学习平台的基本使用流程如下图所示,全程可交互操作,无需工程与算法背景,预计500份以上的标注数据时,模型准确率可以达到85%以上
1.1 新建项目
创建并管理自己的项目,目前您可以创建十三种项目类型:1、文本实体抽取;2、文本分类;3、关键短语抽取;4、情感分析;5、文本关系抽取;6、短文本匹配;7、商品评价解析;8、简历抽取;9、双句文本分类;10、招中标信息抽取;11、合同要素抽取;12、合同抽取;13、对话文本分类。
1.2 数据管理
进入某一项目后,可以在数据中心中管理您的数据,有两种方式可以创建数据:
1、创建标注任务;2、上传数据集。
1.3 创建标注任务
步骤一:上传待标注文档,添加标注人员
创建者和项目管理员默认为标注人员,同时,您也可以将标注任务分配给您创建的阿里云子账号,被分配用户通过子账号的账号密码登录本平台,即可参与数据标注。
子账号登录说明:
1、子账号登录页,登录:https://signin.aliyun.com/login.htm
2、登录后,点击进入我的项目-创建标注任务。
注意:目前仅支持UTF-8编码方式的数据文件
步骤二:设置待标注的题目
不同项目类型中的题目类型会有所不同,例如
文本实体抽取项目中的题目为实体名:
文本分类项目中的题目为分类名:
步骤三:标注数据
完成标注任务的创建后,您可以在数据中心中,点击标注进入标注中心,进行文档的标注,每篇文档仅会被标注一次。
步骤四:数据质检(可选)
点击数据中心项目列表操作栏中的质检按钮,进入质检页面。
您可以通过筛选和搜索,质检已经标注好的文档,以确保良好的标注质量。
下面开始实战吧。
根据平台模型限制本人主要进行了基础算法、行业场景应用模型两类:简历抽取、关系抽取、文本分类进行测试。
2.简历抽取
简历抽取基于阿里内部海量已标注数据训练的模型和规则引擎,实现高准确率的中英文简历抽取等27个中文常见字段和10个英文常见字段。若有其他自定义字段,可自行补充标注数据,定制训练。
直接拿一份简历进行测试看看效果
通过实战发现NLP平台可以很好的把关键信息抽取出来,无需预训练,兼容性很高。评分5星!
如果有个性化需求也可以自己根据实体抽取模型进行标注定制化训练。
3.文本分类
指对文本按照内容类型进行分类,例如短信场景中,运营商根据短信文本内容判断其对应的分类,例如涉黄、暴恐、涉政、广告等。本平台支持定制基于用户自建分类体系的分类模型。
本次使用自带数据集进行情感分类:
首先创建模型,可以选择模型有很多。
- 预训练类长文本分类融合模型等
- 提示学习(小样本的)
根据自己数据量大小来决定模型选择,种类繁多,很nice
3.1 创建模型
3.2数据集标注or质检
数据集可以查看分布,觉得样本数不够多可以自行上传数据进行标注,增加模型性能
3.3 模型训练
同时也提供一些超参数调优,epochs、学习率 批量训练大小。这些可以自己个性化选择。(根据性能和业务要求去选)
这里提个意见:可以增加多点超参数,让训练门槛更加低,比如:warmup、R-drop、正则约束等等技巧--锦上添花
这个增量训练很意义非凡,不需要以后全量跑数据,减少时间开销,加速任务迭代可节省机器成本!
因为只有100条数据,模型性能一般,我们直接进行发布测试!
3.4 模型测试
整体效果还是比较满意的,毕竟在小样本情况下取得这样的结果,同时还有置信度来让我们判断结果是否可靠
如果不满意可以进行回炉重造,
可以看到还有版本管理,回溯和迭代功能很完善,平台很棒啊。楼主比较懒就没有自己标注数据测试了,感兴趣可以继续优化迭代
4.关系抽取
抽取文本中的实体及对应的关系。例如人名与生日,机构与成立时间等,本平台支持定制基于用户自建关系体系的关系抽取模型。
步骤和上述没什么区别,我就简单跳过了。
可以看到目前性能指标没有那么好,原因分析因为样本量少,训练轮数少(只训练了5轮),同时我选择了比较简单模型bert,没选择小样本的UIE。不过在下面实战还是很猛
结果还是不错的,因为500份数据中关系种类繁多,但任务难度不同,想夫妻这种关系抽取相对简单,所以效果不错,更多则需要定制化了。
5.外部调用
简历抽取(中文)服务为例
本预训练模型提供的服务无需自主标注训练,直接调用API即可使用。
服务开通与资源包购买
预训练模型使用前,请确认是否已经开通了NLP自学习平台服务,开通后可购买优惠资源包。
NLP自学习平台:开通地址
自学习平台资源包:购买地址
调试
# 安装依赖 pip install aliyun-python-sdk-core pip install aliyun-python-sdk-nlp-automl
# -*- coding: utf8 -*-import json from aliyunsdkcore.client import AcsClientfrom aliyunsdkcore.acs_exception.exceptions import ClientExceptionfrom aliyunsdkcore.acs_exception.exceptions import ServerExceptionfrom aliyunsdknlp_automl.request.v20191111 import RunPreTrainServiceRequest # Initialize AcsClient instance client = AcsClient( "<your-access-key-id>", "<your-access-key-secret>", "cn-hangzhou"); content = '简历文本' # Initialize a request and set parameters request = RunPreTrainServiceRequest.RunPreTrainServiceRequest() request.set_ServiceName('ResumeExtractorZH') request.set_PredictContent(content) # Print response response = client.do_action_with_exception(request) resp_obj = json.loads(response) predict_result = json.loads(resp_obj['PredictResult'])print(predict_result['result'])





























