开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):实验:自然语言处理简单实现(一)】
课程地址:https://edu.aliyun.com/course/3112108/lesson/19282
实验:自然语言处理简单实现(一)
内容介绍:
一、阿里巴巴自然语言处理NLP平台介绍
二、快速实现电商领域的文本分类
一、阿里巴巴自然语言处理NLP平台介绍
1、阿里巴巴的自然语言处理平台
阿里云的自然语言处理平台,它是给开发者和企业提供的,用于文本分析和挖掘的核心工具。它可以帮助到用户来高效地处理文本。
目前这个平台已经广泛地应用在电商、文娱、司法、公安、金融、医疗、电力等等行业。已经取得了良好的效果。
在未来自然语言处理还会给用户带来更多有价值的服务。阿里云的自然语言处理包含以下服务。
一个是NLP的基础服务,然后是NLP的自学平台,NLP的基础服务包括分词、词性标注,然后命名实体情感分析,中心词提取等自然语言处理基础服务。
这些服务可以用于智能问答、对话机器人,舆情分析、内容推荐,电商评价等。
NLP的自学习平台,是面向算法小白用户的设计的NLP行业自适应标注,训练和服务平台。
2、NLP基础服务使用说明
NLP基础服务,包括分词,命名、实体识别、情感分析、执行标注、中心词提取、智能文本分类等算法。
使用这些算法的话,可以通过下面四个步骤快速地调用:
第一开通服务,开通服务要开通自然语言服务,才能购买NLP基础服务的二点零的各类产品。然后要确保已经注册了阿里云账号,
第二获取账号的访问密钥,需要为阿里云账号创建一个访问密钥,调用阿里云的API的时候,需要用密钥来完成身份认证。
第三在阿里云里面选要调用的API,前面讲到相同功能的API。
第四是调用API服务。那本次课程最后会以文本分类API调用为例,学习使用阿里云API的方法。
3、NLP的基础服务功能
第一,多语言分词。阿里云提供智能分析的服务,这个是由专业团队研发的保证。对数据模型的不断地迭代和更新。用户只要简单地调用API接口,就能得到所需的结果。目前多语言分词,支持简体中文、英文,还有泰文。
第二,阿里云的词性标注的这个功能,通过这个词性标注的这个服务,可以快速的给每一个词附上对应的词性,再结合分词服务,可以快速的更深层次的作文本挖掘的处理。用词性标注的服务,不需要担心新词发现和词歧义消除的问题。
第三,命名实体。这个服务是可以快速地识别文本中的实体,这样就可以挖掘各个实体之间的关系,命名实体这个服务呢它经常用于深度文本挖掘,知识构建,实质性领域里的自然语言处理任务的必备的工具。
第四,情感分析的基础服务是基于海量的数据进行研发的,为有情感需求情感分析需求的产品提供服务。情感分析能够对短文本进行情感的正向中性和负向的分析,并且输出结果。这个技术经常会用在舆情监控,话题的审核,口碑的分析等。
第五,中心词提取是基于海量数据使用,电商的标题、中心词以及类目进行训练的。给每个词计算一个相关性分数,来衡量每个词与句子的相关性,进而记住句子的中心词。
这项技术它适用于提取电商的搜索查询,产品的标题,或者其他的类似的短文本的中心词。一般来说是处理少于二十五个词的这种短文字。
第六,智能文本分类。这个服务是将用户的一段文本自动的映射到具体的类目上,帮助用户快速的完成文本的分类,并且对文本中的关键标签进行识别和提取。当前使用这个功能,系统是内置新闻资讯领域的类目体系和电商领域的类目体系。也就是输入文本之后,给这个分类用已经有的做得很好的新闻资讯,或者是电商领域的类目的分类。
第七个,文本信息抽取。文本信息抽取当前提供的主要是面向合同的。结合AI的技术,通过自动阅读文档的内容,将用户关心的关键的核心的信息进行提取。这样可以简化工作,可以协助企业完成文档的审阅和录入的工作。
第八,NLP的这个基础服务功能是商品评价解析。商品评价解析主要用于分析消费者反馈的评价,点评的内容,同时也可以对于社区的这种短文本进行分析,像是微博的文本,这种口语化的文本都可以。但是它对长篇幅的新闻这种篇章并不适用。
3、NLP自学习平台使用说明
NLP自学习平台它是一款自然语言处理行业的自适应标注训练和服务的平台。
它支持自然语言处理定制化算法的能力,可以做定制化的算法。不用太懂这个算法,小白也可以用这个平台,用起来非常简单。
只需要做简单的标注,然后上传适量的文档,那就可以通过平台去获得优质的NLP算法模型。
使用这个平台的过程是先要在这个平台里新建项目,新建项目完之后,要上传数据,然后做数据标注,这个过程都是很简单的,上传数据做好标注之后,就可以一键训练。
这个模型就在平台里生成了,生成模型之后,会有一个自动的评估,然后就可以使用模型发布服务。总的来说NLP自学习平台是非常用户友好的,非常容易学习的,很容易上手的。
4、NLP自学习平台的功能
第一是基础自学习模型。
基础自学习模型为用户提供了文本实体抽取、文本分类、关键短语抽取等,一些基础的模型的训练。
第二是行业场景自学习模型。
行业场景自学习模型包括情感分析,商品的评价解析、简历抽取,招中标信息抽取等,各种自然语言的算法能力模型训练。
第三应用算法自学习模型。
平台提供了合同抽取,司法裁判文书等自然语言算法能力的模型训练。
第四是预训练模型。
这些预训练模型可以直接的调用,也可以直接去训练商品评价解析,电销场景对话、新闻事件,然后裁判文书抽取等。
在预训练模型里面,某一些是可以做到多语言的。比如说新闻事件、裁判文书抽取,还有情感分析。
5、阿里巴巴自然语言处理开放平台为行业赋能
(1)在数字政府这个领域,在今天数字政府行业已经初步完成了管道打通,数据采集这样的智能化建设。
那在数字政府方案里,针对积累的大量的数据资源,并融合行业业务,通过地址标准化引擎,案件图谱,智能审批等一些应用服务于公安安全社会治理,司法检索等各类政务行业。
(2)在智慧医疗领域,那阿里巴巴的自然语言处理平台为电子病历,提交报告、药品说明书等多个医学文本类型提供了文本结构化信息抽取,知识图谱、文本推理、智能文本生成等基础的功能业务。
业务方可以通过智能医疗相关的接口,快速的搭建和实现自身的医疗AI业务。
(3)在智慧金融领域,结合自然语言处理、知识图谱、深度学习等前沿技术,构建多维数据指标及分析模型。以通用能力层技术输出及应用场景层的引擎输入为媒介,实现技术创新动力。
比如文本结构化处理,以及数据决策,可以用在财险、寿险等这个险种的领域实现智能核保,可以去有效地控制承保的风险。
(4)阿里巴巴自然语言处理开放平台要用在智能司法行业、,可以为司法文书、合同等常见的法律文书和法律文本提供文本结构化信息抽取,知识图谱,还有文本推理等功能。应用业务方可以通过智能司法接口快速的搭建和实现自身的司法AI业务。
(5)知识图谱引擎可以让用户方便的导入各种格式的文档或者网页,就能建立知识库,生成知识图库,生成知识图,搜索和知识问答引擎等应用,方便快速的寻找所需要的内容和洞察知识。
这个产品它是基于各类格式文档的多模态内容的解析能力。通过庞大的数据库训练的预训练模型,向量检索,还有知识解析,知识生成的技术,让这个过程变得更自动化,解析更精准。
(6)智能合同,合同是针对企业全生命周期管理的智能AI引擎产品。
这个全周期呢包括合同的起草审批,合同用印、合同归档,还有合同履行。通过提供合同抽取、合同审查,相对风险审查、合同对比等等可以帮助企业提升审查效率,降低成本,预防风险,实现合同管理的数字化和智能化。