开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):机器学习PAI平台简单实现(二)】
课程地址:https://edu.aliyun.com/course/3112108/lesson/19265
机器学习PAI平台简单实现(二)
三、基于机器学习PAI平台的新闻主题聚类
1. 基于机器学习PAI平台的新闻主题聚类-实验背景
机器学习 PAI 简单实现我们最后一个实战的案例是在PAI平台下面做新闻主题的聚类,新闻主题聚类我们先学习它的实验背景。新闻分类是文本挖掘里面非常常见的场景,这个媒体它或者内容生产商就是他们产生这个新闻文本的,他们要对这个文本进行分类,一般是用手工标注的方式,这样消耗大量的人力资源。
我们的PAI 平台它是提供智能文本挖掘算法,能够实现新闻文本的分类的自动化,也就是在有文本写出来后,不用人工去标注,我们通过对它文本的自动分析,就知道这个文本是属于哪个类。
数据集是包含有三个字段,是新闻类型,叫category,然后是新闻的标题title,然后是新闻的内容contact,一共三个字段。这个分类可能有新闻的类型,可能有体育新闻、社会新闻、科技新闻, title 是新闻的标题, content 是新闻的内容。下面是一个新闻的数据的一个具体的示例,大家可以看到。
比如财经新闻它的分类,它 title 是什么,中间会怎么样,然后里面的内容,本报记者,然后谁说明什么,中间会怎么样,这些数据可能是历史数据,可能已经有,然后我们把这个就已经做好标注的,可能历史上面就是这样,如果有新的新闻,比如这个 title 和 content 内容,标题和内容已经有,我们不想在人工的方式,手工的去标注这个新闻到底属于哪一类,我们希望用机器学习的方式,自动的去对这个新闻的类型进行标注,这是我们的实验背景。
字段名 |
描述 |
category |
新闻类型,包括体育新闻、社会、科技等 |
title |
新闻标题 |
content |
新闻内容 |
2. 基于机器学习PAI平台的新闻主题聚类-实验流程
下面我们一起来学习机器学习平台 PAI 平台下面怎么做新闻主题聚类,这个实验流程是怎么样的?同样我们还是进到 PAI designer 这个平台来构建实验。首先还是读取数据集,这个新闻的数据集已经在我们内部已经存在,所以直接把这个数据引入就可以。引入后我们有一个增加序号列的这样一个动作,为每一列增加一个序号,然后做一次这个类型的转换。做这个类型的转换时,是把字段都转化成字符串,把每一个字段都转换成字符串后,方便我们对这个文本进行操作。这一步我们就开始有了这个文本的这个素材。
接下来我们用 Split word 这个组件。 split word 顾名思义就是分词,把词切开,这个分词,其实又有中文分词跟英文分词,英文又有不同的这个组件不同的切分方式,我们把这个 split word 组件拿过来后,可以对中文进行分词。比如这句话运行实验并查看模型结果,我们对它分词后可能得到的结果就是运行实验并查看模型结果。
也就是通过 split word,通过这个组件后,就把这个句子文本就切成了词,每一条新闻的内容都要进行分词,分词后可能会发现有很多词它是没有意义的,就是对内容的意义不大,像很多虚词还有标点符号等没有作用的,这些词的话还会影响到我们计算。
所以有一个停用词过滤这个步骤,这个可以从停用词表里面读出,读这个数据表读出来这个停用词,然后启用这个停用时过滤,之后得到的这个数据是没有停用词的,干干净净的一个词的序列,然后得到这些词后,我们再通过词频统计,这个也是顾名思义就知道这个可以统计出词频,不是每个分词都得到它相应的词频。
因为主题模型,这个 PLDA 是要它的输入,要用到这个主题模型,所以说这个词频统计后面要接一个三元组转 KV 的组件,通过这个三元组转KV,把这个文本转换成三元的形式,作为PLDA,不作为这个主题模型的输入。然后合并列后我们再进行 k 均值聚类, k 均值聚类就聚类算法,就能够得到新闻的聚类。这里这个示例相对来说比较复杂,从读数据表后进行数据类型转换,就是分词停用词过滤,而视频总计转换,再到PLDA,这个流程还是比较复杂的。
3. 基于机器学习PAI平台的新闻主题聚类-实验结果
新闻主题聚类这个实验运行结束后,我们看分类的结果。看左下图,左边是 append index,就是我们附加的那个序列,其实就是每一篇新闻的编号,右边是 cluster index, cluster 是聚类聚出的那个簇,也就是第 115 篇 ,292 篇248166,他们都是属于 0 这个cluster,比如 8 和 15 都是属于 4 这个cluster,这是我们聚类的结果。我们看这个数据,我们可以看到比如115,它是属于体育 ,0 这个聚类,然后 248 也是属于体育。但是财经的这个错了, 116,166 这个它是财经类的,但是它跟那两篇体育类的分到一起。
分类结果
append_id |
cluster_index |
115 |
0 |
292 |
0 |
248 |
0 |
166 |
0 |
116 |
2 |
210 |
3 |
8 |
4 |
15 |
4 |
查看数据
序号 |
category
|
title
|
content
|
append_id |
1 |
体育 |
“欧洲.. |
来源:重庆晚报“欧洲通行证考验... |
115 |
2 |
财经 |
新旗舰...
|
机构:周四上证指数快速击穿新低... |
166 |
3 |
体育 |
图文:...
|
来源:体育体育讯北京时间6月... |
248 |
4 |
科技 |
LG第... |
赛迪网讯6月30日消息,据台湾... |
292 |
这个结果来看,这个实验做的并不太理想,可能有下面两个原因,一个是实验的数据量可能比较小,另外一个是仅仅是业务场景这个分文本分类算法,他没有对数据集进行特征处理,也没有做一些细节的调优。但是大概通过这个过程,我们能知道做这个聚类的这个实验的过程是怎么样的。
四、本章小结
我们一起来回顾本章的内容。
1、人工智能、机器学习和深度学习之间的关系
2、机器学习的定义、主要研究方向
3、有监督学习、无监督学习、强化学习的学习过程
4、分类和回归的定义、区别
5、机器学习损失函数的定义及特点
6、机器学习常见优化函数的概念及执行过程
7、机器学习分类和回归常见的评估指标
8、线性回归的定义、模型过拟合和欠拟合的特点以及线性回归正则化模型
9、逻辑回归定义及任务类型、逻辑回归实现多分类的策略
10、朴素贝叶斯的定义与应用
11、K近邻算法的定义、应用、实现过程、距离度量
12、支持向量机的定义与应用、核函数的意义以及常用核函数介绍
13、决策树的定义与应用、决策树的结构以及决策树的构建步骤
14、集成算法的定义、应用、流派(Bagging、Boosting、Stacking)
15、聚类算法的定义与应用