NLP自学习平台产品评测详细版

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
简介: NLP自学习平台产品评测详细版

0.NLP自学习平台产品评测详细版

NLP自学习平台支持文本实体抽取、文本分类、关键短语抽取、情感分析、关系抽取、商品评价解析、简历抽取和合同要素抽取等NLP定制化算法能力,用户无需拥有丰富的算法背景,仅需标注或上传适量文档数据,即可通过平台快速创建算法模型并使用。

0.1 模型服务支持简介:

多语言分词

提供智能分词服务,由专业的团队研发,保证对数据、模型的不断迭代更新。用户只需简单的调用相关API接口即可获取到所需结果。目前支持简体中文、英文及泰文。

词性标注

通过词性标注服务,用户可以快速的为每一个词附上对应的词性,结合分词服务,可以快速进行更深层次的文本挖掘处理,无需担心新词发现、歧义消除等问题。

命名实体

我们为您提供的命名实体服务,可以帮助您快速识别文本中的实体,进而挖掘各实体间的关系,是进行深度文本挖掘,知识库构建等常用自然语言处理领域里的必备工具。

情感分析

基于海量大数据研发,为有情感分析需求的产品提供服务。能够对短文本进行情感的正负向及中性进行分析,给出结果。在舆情监控、话题审核、口碑分析聚类等商业领域有广大的应用空间。

中心词提取

基于海量数据,使用电商标题中心词以及类目进行训练,通过给每个词计算一个相关性分数来衡量每个词与句子的相关性程度,进而识别并提取出句子的中心词。适用于提取电商搜索query、标题及其他类似短文本(一般小于25个词)的中心词。

智能文本分类

将用户输入的一段文本自动映射到具体的类目上,以帮助用户快速完成文本的分类,并针对文本中的关键标签进行识别和提取。支持平层类目体系或者以树状形式组织的层次类目体系,当前系统内置两种默认分类体系可直接使用:新闻资讯领域内类目体系、电商领域类目体系。

文本信息抽取

当前提供的能力主要面向合同抽取领域,结合AI技术,通过自动阅读文档内容,将用户关心的关键核心信息进行提取,简化机械性和重复性的工作,协助企业完成文档审阅及录入工作。

商品评价解析

商品评价解析主要用于分析消费者反馈的评价、点评内容,同时也可以对类似微博的口语化、短文本进行分析。对于长篇幅的新闻篇章不适用。

0.2 产品优势

  • 易用:使用流程简单,无需工程与算法背景。
  • 快捷:全链路优化,平均训练模型耗时<30分钟。
  • 专业:专业技术沉淀,500+标注数据时,模型准确率预计>85%。

详细本人不进行展开请参考:https://help.aliyun.com/document_detail/189575.html

1.平台使用流程简介

NLP自学习平台的基本使用流程如下图所示,全程可交互操作,无需工程与算法背景,预计500份以上的标注数据时,模型准确率可以达到85%以上

1.1 新建项目

创建并管理自己的项目,目前您可以创建十三种项目类型:1、文本实体抽取;2、文本分类;3、关键短语抽取;4、情感分析;5、文本关系抽取;6、短文本匹配;7、商品评价解析;8、简历抽取;9、双句文本分类;10、招中标信息抽取;11、合同要素抽取;12、合同抽取;13、对话文本分类。

1.2 数据管理

进入某一项目后,可以在数据中心中管理您的数据,有两种方式可以创建数据:

1、创建标注任务;2、上传数据集。

1.3 创建标注任务

步骤一:上传待标注文档,添加标注人员

创建者和项目管理员默认为标注人员,同时,您也可以将标注任务分配给您创建的阿里云子账号,被分配用户通过子账号的账号密码登录本平台,即可参与数据标注。

子账号登录说明:

1、子账号登录页,登录:https://signin.aliyun.com/login.htm

2、登录后,点击进入我的项目-创建标注任务。

注意:目前仅支持UTF-8编码方式的数据文件

步骤二:设置待标注的题目

不同项目类型中的题目类型会有所不同,例如

文本实体抽取项目中的题目为实体名:

文本分类项目中的题目为分类名:

步骤三:标注数据

完成标注任务的创建后,您可以在数据中心中,点击标注进入标注中心,进行文档的标注,每篇文档仅会被标注一次。

步骤四:数据质检(可选)

点击数据中心项目列表操作栏中的质检按钮,进入质检页面。

您可以通过筛选和搜索,质检已经标注好的文档,以确保良好的标注质量。

下面开始实战吧。

根据平台模型限制本人主要进行了基础算法、行业场景应用模型两类:简历抽取、关系抽取、文本分类进行测试。

2.简历抽取

简历抽取基于阿里内部海量已标注数据训练的模型和规则引擎,实现高准确率的中英文简历抽取等27个中文常见字段和10个英文常见字段。若有其他自定义字段,可自行补充标注数据,定制训练。

直接拿一份简历进行测试看看效果

通过实战发现NLP平台可以很好的把关键信息抽取出来,无需预训练,兼容性很高。评分5星!

如果有个性化需求也可以自己根据实体抽取模型进行标注定制化训练。

3.文本分类

指对文本按照内容类型进行分类,例如短信场景中,运营商根据短信文本内容判断其对应的分类,例如涉黄、暴恐、涉政、广告等。本平台支持定制基于用户自建分类体系的分类模型。

本次使用自带数据集进行情感分类:

首先创建模型,可以选择模型有很多。

  1. 预训练类长文本分类融合模型等
  2. 提示学习(小样本的)

根据自己数据量大小来决定模型选择,种类繁多,很nice

3.1 创建模型

3.2数据集标注or质检

数据集可以查看分布,觉得样本数不够多可以自行上传数据进行标注,增加模型性能

3.3 模型训练

同时也提供一些超参数调优,epochs、学习率 批量训练大小。这些可以自己个性化选择。(根据性能和业务要求去选)

这里提个意见:可以增加多点超参数,让训练门槛更加低,比如:warmup、R-drop、正则约束等等技巧--锦上添花

这个增量训练很意义非凡,不需要以后全量跑数据,减少时间开销,加速任务迭代可节省机器成本!

因为只有100条数据,模型性能一般,我们直接进行发布测试!

3.4 模型测试

整体效果还是比较满意的,毕竟在小样本情况下取得这样的结果,同时还有置信度来让我们判断结果是否可靠

如果不满意可以进行回炉重造,

可以看到还有版本管理,回溯和迭代功能很完善,平台很棒啊。楼主比较懒就没有自己标注数据测试了,感兴趣可以继续优化迭代

4.关系抽取

抽取文本中的实体及对应的关系。例如人名与生日,机构与成立时间等,本平台支持定制基于用户自建关系体系的关系抽取模型。

步骤和上述没什么区别,我就简单跳过了。

可以看到目前性能指标没有那么好,原因分析因为样本量少,训练轮数少(只训练了5轮),同时我选择了比较简单模型bert,没选择小样本的UIE。不过在下面实战还是很猛

结果还是不错的,因为500份数据中关系种类繁多,但任务难度不同,想夫妻这种关系抽取相对简单,所以效果不错,更多则需要定制化了。

5.外部调用

简历抽取(中文)服务为例

本预训练模型提供的服务无需自主标注训练,直接调用API即可使用。

服务开通与资源包购买

预训练模型使用前,请确认是否已经开通了NLP自学习平台服务,开通后可购买优惠资源包。

NLP自学习平台:开通地址

自学习平台资源包:购买地址

调试

# 安装依赖 pip install aliyun-python-sdk-core pip install aliyun-python-sdk-nlp-automl

# -*- coding: utf8 -*-import json from aliyunsdkcore.client import AcsClientfrom aliyunsdkcore.acs_exception.exceptions import ClientExceptionfrom aliyunsdkcore.acs_exception.exceptions import ServerExceptionfrom aliyunsdknlp_automl.request.v20191111 import RunPreTrainServiceRequest # Initialize AcsClient instance client = AcsClient(   "<your-access-key-id>",   "<your-access-key-secret>",   "cn-hangzhou"); content = '简历文本' # Initialize a request and set parameters request = RunPreTrainServiceRequest.RunPreTrainServiceRequest() request.set_ServiceName('ResumeExtractorZH') request.set_PredictContent(content) # Print response response = client.do_action_with_exception(request) resp_obj = json.loads(response) predict_result = json.loads(resp_obj['PredictResult'])print(predict_result['result'])

详情参考手册:https://help.aliyun.com/document_detail/181187.html

相关文章
|
自然语言处理
对于NLP自学习平台的使用,你需要首先开通自然语言服务,然后才能购买和使用NLP自学习平台的各类产品
对于NLP自学习平台的使用,你需要首先开通自然语言服务,然后才能购买和使用NLP自学习平台的各类产品
259 1
|
机器学习/深度学习 自然语言处理 搜索推荐
阿里云智能语音交互产品测评:基于语音识别、语音合成、自然语言理解等技术
智能语音交互基于语音识别、语音合成、自然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景。 目前已上线实时语音识别、一句话识别、录音文件识别、语音合成等多款产品,您可以在控制台页面进行试用,也可以通过API调用相关能力。
46166 4
阿里云智能语音交互产品测评:基于语音识别、语音合成、自然语言理解等技术
|
人工智能 自然语言处理
阿里云产品体系分为6大分类——人工智能——分为10种模块——自然语言处理
阿里云产品体系分为6大分类——人工智能——分为10种模块——自然语言处理自制脑图
262 0
|
机器学习/深度学习 人工智能 自然语言处理
「观潮」百度NLP十年:语言与知识全布局,重磅推出5款产品新发布、2大计划
深度学习潮起仿佛还在昨天,百度 NLP 已走过了十年。
507 0
「观潮」百度NLP十年:语言与知识全布局,重磅推出5款产品新发布、2大计划
|
机器学习/深度学习 人工智能 自然语言处理
6.2万字报告剖析「智能写作」全貌,从落地产品看NLP商业化突破
近年来字节跳动、百度、阿里巴巴、美团点评、微软等各大互联网巨头纷纷加注智能创作/写作,并已在自有资讯、内容平台、电商、办公文书等业务场景中广泛应用;同时达观数据、智搜、妙笔智能、文因互联等 NLP 领域领先创业公司扎根营销文案、文本业务自动化、金融数据分析等场景,让 NLP 技术产生更显著的商业价值。 「智能写作」让我们看到论文中 SOTA 的 NLP 模型也可以被快速应用到工业场景中,辅助或直接成为人类的生产力。因此我们针对这一技术应用领域,搜集了数百余篇论文、第三方市场报告及国内外新闻报道,并采访了多位国内智能写作公司与产品线的产品经理或技术负责人,撰写了 6.2 万字报告,从基础概念到
2050 0
6.2万字报告剖析「智能写作」全貌,从落地产品看NLP商业化突破
|
自然语言处理
NLP产品级系统设计模式
在本文中,作者从六个方面描述了一些生产NLP系统的常见设计和部署模式。这些是团队为了使产品开发与技术、业务、战略和操作目标保持一致而必须做出的选择或权衡。
2480 0
|
机器学习/深度学习 人工智能 自然语言处理
NLP成下一个风口?「来也」完成千万美金 B 轮融资,推出战略级AI产品“吾来”
助理来也今天宣布完成千万美元B轮融资,本轮投资由双湖资本领投,早期投资方光速中国和红杉资本继续跟投。融资完成之际,助理来也顺势发布了战略升级后的全新产品「吾来」。在过去几年图像和语音领域大火之后,NLP会不会成为下一个“风口”?我们采访到了联合创始人兼CEO汪冠春。
3454 0
|
机器学习/深度学习 人工智能 自然语言处理
用公开语料推进NLP研究,孵化现象级产品 | 专访阿里AI Labs聂再清
相比用“手”和“眼睛”,以及其他以手机和电脑为媒介的操作,“语言”无疑是人类最自然的交互方式。正如亚马逊硬件高级副总裁Dave Limp所说,“亚马逊相信下一个大平台是语音,我们要做的就是为用户打造一个完全由语音控制的云计算机(指Echo)。
2792 0
|
机器学习/深度学习 自然语言处理 语音技术
|
11月前
|
存储 人工智能 自然语言处理
Pandas数据应用:自然语言处理
本文介绍Pandas在自然语言处理(NLP)中的应用,涵盖数据准备、文本预处理、分词、去除停用词等常见任务,并通过代码示例详细解释。同时,针对常见的报错如`MemoryError`、`ValueError`和`KeyError`提供了解决方案。适合初学者逐步掌握Pandas与NLP结合的技巧。
405 20

热门文章

最新文章