机器学习PAI平台简单实现（二）-阿里云开发者社区

机器学习PAI平台简单实现（二）

2023-09-19 375

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 机器学习PAI平台简单实现（二）

开发者学习笔记【阿里云人工智能工程师ACA认证（2023版）:机器学习PAI平台简单实现（二）】

课程地址：https://edu.aliyun.com/course/3112108/lesson/19265

机器学习PAI平台简单实现（二）

三、基于机器学习PAI平台的新闻主题聚类

1. 基于机器学习PAI平台的新闻主题聚类-实验背景

机器学习 PAI 简单实现我们最后一个实战的案例是在PAI平台下面做新闻主题的聚类，新闻主题聚类我们先学习它的实验背景。新闻分类是文本挖掘里面非常常见的场景，这个媒体它或者内容生产商就是他们产生这个新闻文本的，他们要对这个文本进行分类，一般是用手工标注的方式，这样消耗大量的人力资源。

我们的PAI 平台它是提供智能文本挖掘算法，能够实现新闻文本的分类的自动化，也就是在有文本写出来后，不用人工去标注，我们通过对它文本的自动分析，就知道这个文本是属于哪个类。

数据集是包含有三个字段，是新闻类型，叫category，然后是新闻的标题title，然后是新闻的内容contact，一共三个字段。这个分类可能有新闻的类型，可能有体育新闻、社会新闻、科技新闻， title 是新闻的标题， content 是新闻的内容。下面是一个新闻的数据的一个具体的示例，大家可以看到。

比如财经新闻它的分类，它 title 是什么，中间会怎么样，然后里面的内容，本报记者，然后谁说明什么，中间会怎么样，这些数据可能是历史数据，可能已经有，然后我们把这个就已经做好标注的，可能历史上面就是这样，如果有新的新闻，比如这个 title 和 content 内容，标题和内容已经有，我们不想在人工的方式，手工的去标注这个新闻到底属于哪一类，我们希望用机器学习的方式，自动的去对这个新闻的类型进行标注，这是我们的实验背景。

字段名	描述
category	新闻类型，包括体育新闻、社会、科技等
title	新闻标题
content	新闻内容

图片502.png

2. 基于机器学习PAI平台的新闻主题聚类-实验流程

下面我们一起来学习机器学习平台 PAI 平台下面怎么做新闻主题聚类，这个实验流程是怎么样的？同样我们还是进到 PAI designer 这个平台来构建实验。首先还是读取数据集，这个新闻的数据集已经在我们内部已经存在，所以直接把这个数据引入就可以。引入后我们有一个增加序号列的这样一个动作，为每一列增加一个序号，然后做一次这个类型的转换。做这个类型的转换时，是把字段都转化成字符串，把每一个字段都转换成字符串后，方便我们对这个文本进行操作。这一步我们就开始有了这个文本的这个素材。

接下来我们用 Split word 这个组件。 split word 顾名思义就是分词，把词切开，这个分词，其实又有中文分词跟英文分词，英文又有不同的这个组件不同的切分方式，我们把这个 split word 组件拿过来后，可以对中文进行分词。比如这句话运行实验并查看模型结果，我们对它分词后可能得到的结果就是运行实验并查看模型结果。

也就是通过 split word，通过这个组件后，就把这个句子文本就切成了词，每一条新闻的内容都要进行分词，分词后可能会发现有很多词它是没有意义的，就是对内容的意义不大，像很多虚词还有标点符号等没有作用的，这些词的话还会影响到我们计算。

所以有一个停用词过滤这个步骤，这个可以从停用词表里面读出，读这个数据表读出来这个停用词，然后启用这个停用时过滤，之后得到的这个数据是没有停用词的，干干净净的一个词的序列，然后得到这些词后，我们再通过词频统计，这个也是顾名思义就知道这个可以统计出词频，不是每个分词都得到它相应的词频。

因为主题模型，这个 PLDA 是要它的输入，要用到这个主题模型，所以说这个词频统计后面要接一个三元组转 KV 的组件，通过这个三元组转KV，把这个文本转换成三元的形式，作为PLDA，不作为这个主题模型的输入。然后合并列后我们再进行 k 均值聚类， k 均值聚类就聚类算法，就能够得到新闻的聚类。这里这个示例相对来说比较复杂，从读数据表后进行数据类型转换，就是分词停用词过滤，而视频总计转换，再到PLDA，这个流程还是比较复杂的。

图片503.png

3. 基于机器学习PAI平台的新闻主题聚类-实验结果

新闻主题聚类这个实验运行结束后，我们看分类的结果。看左下图，左边是 append index，就是我们附加的那个序列，其实就是每一篇新闻的编号，右边是 cluster index， cluster 是聚类聚出的那个簇，也就是第 115 篇，292 篇248166，他们都是属于 0 这个cluster，比如 8 和 15 都是属于 4 这个cluster，这是我们聚类的结果。我们看这个数据，我们可以看到比如115，它是属于体育，0 这个聚类，然后 248 也是属于体育。但是财经的这个错了， 116，166 这个它是财经类的，但是它跟那两篇体育类的分到一起。

分类结果

append_id	cluster_index
115	0
292	0
248	0
166	0
116	2
210	3
8	4
15	4

查看数据

序号	category	title	content	append_id
1	体育	“欧洲..	来源:重庆晚报“欧洲通行证考验...	115
2	财经	新旗舰...	机构:周四上证指数快速击穿新低...	166
3	体育	图文:...	来源:体育体育讯北京时间6月...	248
4	科技	LG第...	赛迪网讯6月30日消息，据台湾...	292

这个结果来看，这个实验做的并不太理想，可能有下面两个原因，一个是实验的数据量可能比较小，另外一个是仅仅是业务场景这个分文本分类算法，他没有对数据集进行特征处理，也没有做一些细节的调优。但是大概通过这个过程，我们能知道做这个聚类的这个实验的过程是怎么样的。

四、本章小结

我们一起来回顾本章的内容。

1、人工智能、机器学习和深度学习之间的关系

2、机器学习的定义、主要研究方向

3、有监督学习、无监督学习、强化学习的学习过程

4、分类和回归的定义、区别

5、机器学习损失函数的定义及特点

6、机器学习常见优化函数的概念及执行过程

7、机器学习分类和回归常见的评估指标

8、线性回归的定义、模型过拟合和欠拟合的特点以及线性回归正则化模型

9、逻辑回归定义及任务类型、逻辑回归实现多分类的策略

10、朴素贝叶斯的定义与应用

11、K近邻算法的定义、应用、实现过程、距离度量

12、支持向量机的定义与应用、核函数的意义以及常用核函数介绍

13、决策树的定义与应用、决策树的结构以及决策树的构建步骤

14、集成算法的定义、应用、流派(Bagging、Boosting、Stacking)

15、聚类算法的定义与应用

机器学习PAI平台简单实现（二）

机器学习PAI平台简单实现（二）

三、基于机器学习PAI平台的新闻主题聚类

四、本章小结

大数据与机器学习

热门文章

最新文章

相关课程

相关电子书

相关实验场景