开发者学堂课程【达摩院自然语言处理 NLP 技术和应用:面向算法小白的 NLP 自学习平台介绍】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址 :https://developer.aliyun.com/learning/course/41/detail/957
面向算法小白的 NLP 自学习平台介绍
内容介绍:
一、平台使用介绍
二、平台的使用流程
三、平台使用及操作演示
一、平台使用介绍
NLP 自学习平台是面向算法小白用户设计的 NLP 定制化训练和服务平台,用户无需拥有丰富的算法背景,仅需标注或上传适量文档数据,即可通过平台快速创建算法模型并使用。预计500份以上的标注数据时,模型准确率就可以达到85%以上。
目前已支持文本实体抽取、文本分类的定制化,之后会逐步上线更多的NLP算法能力。
二、平台的使用流程
使用流程一共分为四部:
1.新建项目
2.标注数据
3.一件室内模型
4.评估并使用
三、平台使用及操作演示
1.创建数据
点击我的项目业,可以在这里创建并管理自己的项目,目前支持两种项目类型: ①.文本实体抽取 ②.文本分类
以文本实体抽取项目为例,右上角点击创建项目,输入项目名称,项目描述,选择项目类型,设置项目管理员,注意一个项目可添加多个项目管理员,管理员拥有这个项目下所有权限,可以通过输入阿里云账号添加,创建项目后,操作区点击进入项目。进入项目后,可以在数据中心中管理数据。
有两种方式可以创建数据: ①.创建标注任务 ②.上传数据集
2.如何创建标注任务
右上角点击创建标注任务,输入标注任务的基本信息,上传带标注文档。设置抽取字段,例如期望在拍卖公告的网页信息抽取拍卖车辆的结构化信息、汽车品牌、车牌号码、行驶里程。
完成标注任务的创建后,可以点击标注,进入标注中心,进行文档的标注。此处省略更多文档的标注过程,标注完成后,可以质检已经标注好的文档,以确保良好的标注质量,
除了创建标注任务外,也可以上传本地以标注好的训练数据,按示例文件的格式归整后直接上传。
3.创建并管理模型
标志完数据后,可以进入模型中心创建并管理模型,点击右上角创建模型,在创建模型列中输入模型基本信息。
选择已标注完的数据,一键训练模型,需0.5~1小时。模型训练完成后可以查看评估指标,主要有精确率、召回率和 F1 级值同时也可以新增模型版本进行版本管理。同一个模型可以同时发布两个版本。模型发布后,可以直接在平台上进行测试,测试满意后,可以根据文档调用该模型。