机器学习PAI平台简单实现(二)

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
大数据开发治理平台 DataWorks,不限时长
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 机器学习PAI平台简单实现(二)

开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):机器学习PAI平台简单实现(二)

课程地址:https://edu.aliyun.com/course/3112108/lesson/19265

机器学习PAI平台简单实现(二)

三、基于机器学习PAI平台的新闻主题聚类


1. 基于机器学习PAI平台的新闻主题聚类-实验背景

机器学习 PAI 简单实现我们最后一个实战的案例是在PAI平台下面做新闻主题的聚类,新闻主题聚类我们先学习它的实验背景。新闻分类是文本挖掘里面非常常见的场景,这个媒体它或者内容生产商就是他们产生这个新闻文本的,他们要对这个文本进行分类,一般是用手工标注的方式,这样消耗大量的人力资源。


我们的PAI 平台它是提供智能文本挖掘算法,能够实现新闻文本的分类的自动化,也就是在有文本写出来后,不用人工去标注,我们通过对它文本的自动分析,就知道这个文本是属于哪个类。

数据集是包含有三个字段,是新闻类型,叫category,然后是新闻的标题title,然后是新闻的内容contact,一共三个字段。这个分类可能有新闻的类型,可能有体育新闻、社会新闻、科技新闻, title 是新闻的标题, content 是新闻的内容。下面是一个新闻的数据的一个具体的示例,大家可以看到。


比如财经新闻它的分类,它 title 是什么中间会怎么样然后里面的内容,本报记者,然后谁说明什么中间会怎么样这些数据可能是历史数据,可能已经有,然后我们把这个就已经做好标注的,可能历史上面就是这样,如果有新的新闻,比如这个 title 和 content 内容,标题和内容已经有,我们不想在人工的方式,手工的去标注这个新闻到底属于哪一类我们希望用机器学习的方式,自动的去对这个新闻的类型进行标注,这是我们的实验背景。

字段名

描述

category

新闻类型,包括体育新闻、社会、科技

title

新闻标题

content

新闻内容

图片502.png

 

2. 基于机器学习PAI平台的新闻主题聚类-实验流程

下面我们一起来学习机器学习平台 PAI 平台下面怎么做新闻主题聚类,这个实验流程是怎么样的?同样我们还是进到 PAI designer 这个平台来构建实验。首先还是读取数据集,这个新闻的数据集已经在我们内部已经存在,所以直接把这个数据引入就可以。引入后我们有一个增加序号列的这样一个动作,为每一列增加一个序号,然后做一次这个类型的转换。做这个类型的转换时,是把字段都转化成字符串,把每一个字段都转换成字符串后,方便我们对这个文本进行操作。这一步我们就开始有了这个文本的这个素材。


接下来我们用 Split word 这个组件。 split word 顾名思义就是分词,把词切开,这个分词,其实又有中文分词跟英文分词,英文又有不同的这个组件不同的切分方式,我们把这个 split word 组件拿过来后,可以对中文进行分词。比如这句话运行实验并查看模型结果,我们对它分词后可能得到的结果就是运行实验并查看模型结果。


也就是通过 split word,通过这个组件后,就把这个句子文本就切成了词,每一条新闻的内容都要进行分词,分词后可能会发现有很多词它是没有意义的,就是对内容的意义不大,像很多虚词还有标点符号等没有作用的,这些词的话还会影响到我们计算。


所以有一个停用词过滤这个步骤,这个可以从停用词表里面读出,读这个数据表读出来这个停用词,然后启用这个停用时过滤,之后得到的这个数据是没有停用词的,干干净净的一个词的序列,然后得到这些词后,我们再通过词频统计,这个也是顾名思义就知道这个可以统计出词频,不是每个分词都得到它相应的词频。


因为主题模型,这个 PLDA 是要它的输入,要用到这个主题模型,所以说这个词频统计后面要接一个三元组转 KV 的组件,通过这个三元组转KV,把这个文本转换成三元的形式,作为PLDA,不作为这个主题模型的输入。然后合并列后我们再进行 k 均值聚类, k 均值聚类就聚类算法,就能够得到新闻的聚类。这里这个示例相对来说比较复杂,从读数据表后进行数据类型转换,就是分词停用词过滤,而视频总计转换,再到PLDA,这个流程还是比较复杂的。

图片503.png

 

3. 基于机器学习PAI平台的新闻主题聚类-实验结果

新闻主题聚类这个实验运行结束后,我们看分类的结果。看左下图,左边是 append index,就是我们附加的那个序列,其实就是每一篇新闻的编号,右边是 cluster index, cluster 是聚类聚出的那个簇,也就是第 115 篇 ,292 篇248166,他们都是属于 0 这个cluster,比如 8 和 15 都是属于 4 这个cluster,这是我们聚类的结果。我们看这个数据,我们可以看到比如115,它是属于体育 ,0 这个聚类,然后 248 也是属于体育。但是财经的这个错了, 116,166 这个它是财经类的,但是它跟那两篇体育类的分到一起。

分类结果

append_id

cluster_index

115

0

292

0

248

0

166

0

116

2

210

3

8

4

15

4

查看数据

序号

category

 

title

 

content

 

append_id

1

体育

“欧洲..

来源:重庆晚报“欧洲通行证考验...

115

2

财经

新旗舰...

 

机构:周四上证指数快速击穿新低...

166

3

体育

图文:...

 

来源:体育体育讯北京时间6月...

248

4

科技

LG第...

赛迪网讯6月30日消息,据台湾...

292

这个结果来看,这个实验做的并不太理想,可能有下面两个原因,一个是实验的数据量可能比较小,另外一个是仅仅是业务场景这个分文本分类算法,他没有对数据集进行特征处理,也没有做一些细节的调优。但是大概通过这个过程,我们能知道做这个聚类的这个实验的过程是怎么样的。

 

四、本章小结


我们一起来回顾本章的内容。

1、人工智能、机器学习和深度学习之间的关系

2、机器学习的定义、主要研究方向

3、有监督学习、无监督学习、强化学习的学习过程

4、分类和回归的定义、区别

5、机器学习损失函数的定义及特点

6、机器学习常见优化函数的概念及执行过程

7、机器学习分类和回归常见的评估指标

8、线性回归的定义、模型过拟合和欠拟合的特点以及线性回归正则化模型

9、逻辑回归定义及任务类型、逻辑回归实现多分类的策略

10、朴素贝叶斯的定义与应用

11、K近邻算法的定义、应用、实现过程、距离度量

12、支持向量机的定义与应用、核函数的意义以及常用核函数介绍

13、决策树的定义与应用、决策树的结构以及决策树的构建步骤

14、集成算法的定义、应用、流派(Bagging、Boosting、Stacking)

15、聚类算法的定义与应用

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
4天前
|
机器学习/深度学习 人工智能 分布式计算
阿里云人工智能平台PAI论文入选OSDI '24
阿里云人工智能平台PAI的论文《Llumnix: Dynamic Scheduling for Large Language Model Serving》被OSDI '24录用。论文通过对大语言模型(LLM)推理请求的动态调度,大幅提升了推理服务质量和性价比。
|
14天前
|
机器学习/深度学习 人工智能 算法
人工智能平台PAI产品使用合集之在执行shade打包后遇到“类找不到”的错误,是什么原因
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
14天前
|
机器学习/深度学习 人工智能 JSON
人工智能平台PAI产品使用合集之创建特征视图时遇到报错,该如何排查
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
14天前
|
机器学习/深度学习 消息中间件 人工智能
人工智能平台PAI产品使用合集之vLLM是否支持模型长度扩展
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能平台PAI产品使用合集之如何配置cluster系统自动生成分布式参数
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
14天前
|
机器学习/深度学习 人工智能 PyTorch
人工智能平台PAI产品使用合集之Alink在PAI上执行时下载依赖库失败,是什么原因
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
14天前
|
机器学习/深度学习 人工智能 Java
人工智能平台PAI产品使用合集之如何配置工作空间存储路径
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
15天前
|
机器学习/深度学习 人工智能 数据处理
人工智能平台PAI产品使用合集之PAI-DSW实例服务器ping不通google.com,该如何排查
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
15天前
|
机器学习/深度学习 人工智能 Java
人工智能平台PAI产品使用合集之已经通过自定义镜像部署了一个模型,想要上传并导入其他模型,该如何操作
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
15天前
|
机器学习/深度学习 人工智能 对象存储
人工智能平台PAI产品使用合集之大文件如何下载下来
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。