机器学习PAI平台简单实现(二)

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 机器学习PAI平台简单实现(二)

开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):机器学习PAI平台简单实现(二)

课程地址:https://edu.aliyun.com/course/3112108/lesson/19265

机器学习PAI平台简单实现(二)

三、基于机器学习PAI平台的新闻主题聚类


1. 基于机器学习PAI平台的新闻主题聚类-实验背景

机器学习 PAI 简单实现我们最后一个实战的案例是在PAI平台下面做新闻主题的聚类,新闻主题聚类我们先学习它的实验背景。新闻分类是文本挖掘里面非常常见的场景,这个媒体它或者内容生产商就是他们产生这个新闻文本的,他们要对这个文本进行分类,一般是用手工标注的方式,这样消耗大量的人力资源。


我们的PAI 平台它是提供智能文本挖掘算法,能够实现新闻文本的分类的自动化,也就是在有文本写出来后,不用人工去标注,我们通过对它文本的自动分析,就知道这个文本是属于哪个类。

数据集是包含有三个字段,是新闻类型,叫category,然后是新闻的标题title,然后是新闻的内容contact,一共三个字段。这个分类可能有新闻的类型,可能有体育新闻、社会新闻、科技新闻, title 是新闻的标题, content 是新闻的内容。下面是一个新闻的数据的一个具体的示例,大家可以看到。


比如财经新闻它的分类,它 title 是什么中间会怎么样然后里面的内容,本报记者,然后谁说明什么中间会怎么样这些数据可能是历史数据,可能已经有,然后我们把这个就已经做好标注的,可能历史上面就是这样,如果有新的新闻,比如这个 title 和 content 内容,标题和内容已经有,我们不想在人工的方式,手工的去标注这个新闻到底属于哪一类我们希望用机器学习的方式,自动的去对这个新闻的类型进行标注,这是我们的实验背景。

字段名

描述

category

新闻类型,包括体育新闻、社会、科技

title

新闻标题

content

新闻内容

图片502.png

 

2. 基于机器学习PAI平台的新闻主题聚类-实验流程

下面我们一起来学习机器学习平台 PAI 平台下面怎么做新闻主题聚类,这个实验流程是怎么样的?同样我们还是进到 PAI designer 这个平台来构建实验。首先还是读取数据集,这个新闻的数据集已经在我们内部已经存在,所以直接把这个数据引入就可以。引入后我们有一个增加序号列的这样一个动作,为每一列增加一个序号,然后做一次这个类型的转换。做这个类型的转换时,是把字段都转化成字符串,把每一个字段都转换成字符串后,方便我们对这个文本进行操作。这一步我们就开始有了这个文本的这个素材。


接下来我们用 Split word 这个组件。 split word 顾名思义就是分词,把词切开,这个分词,其实又有中文分词跟英文分词,英文又有不同的这个组件不同的切分方式,我们把这个 split word 组件拿过来后,可以对中文进行分词。比如这句话运行实验并查看模型结果,我们对它分词后可能得到的结果就是运行实验并查看模型结果。


也就是通过 split word,通过这个组件后,就把这个句子文本就切成了词,每一条新闻的内容都要进行分词,分词后可能会发现有很多词它是没有意义的,就是对内容的意义不大,像很多虚词还有标点符号等没有作用的,这些词的话还会影响到我们计算。


所以有一个停用词过滤这个步骤,这个可以从停用词表里面读出,读这个数据表读出来这个停用词,然后启用这个停用时过滤,之后得到的这个数据是没有停用词的,干干净净的一个词的序列,然后得到这些词后,我们再通过词频统计,这个也是顾名思义就知道这个可以统计出词频,不是每个分词都得到它相应的词频。


因为主题模型,这个 PLDA 是要它的输入,要用到这个主题模型,所以说这个词频统计后面要接一个三元组转 KV 的组件,通过这个三元组转KV,把这个文本转换成三元的形式,作为PLDA,不作为这个主题模型的输入。然后合并列后我们再进行 k 均值聚类, k 均值聚类就聚类算法,就能够得到新闻的聚类。这里这个示例相对来说比较复杂,从读数据表后进行数据类型转换,就是分词停用词过滤,而视频总计转换,再到PLDA,这个流程还是比较复杂的。

图片503.png

 

3. 基于机器学习PAI平台的新闻主题聚类-实验结果

新闻主题聚类这个实验运行结束后,我们看分类的结果。看左下图,左边是 append index,就是我们附加的那个序列,其实就是每一篇新闻的编号,右边是 cluster index, cluster 是聚类聚出的那个簇,也就是第 115 篇 ,292 篇248166,他们都是属于 0 这个cluster,比如 8 和 15 都是属于 4 这个cluster,这是我们聚类的结果。我们看这个数据,我们可以看到比如115,它是属于体育 ,0 这个聚类,然后 248 也是属于体育。但是财经的这个错了, 116,166 这个它是财经类的,但是它跟那两篇体育类的分到一起。

分类结果

append_id

cluster_index

115

0

292

0

248

0

166

0

116

2

210

3

8

4

15

4

查看数据

序号

category

 

title

 

content

 

append_id

1

体育

“欧洲..

来源:重庆晚报“欧洲通行证考验...

115

2

财经

新旗舰...

 

机构:周四上证指数快速击穿新低...

166

3

体育

图文:...

 

来源:体育体育讯北京时间6月...

248

4

科技

LG第...

赛迪网讯6月30日消息,据台湾...

292

这个结果来看,这个实验做的并不太理想,可能有下面两个原因,一个是实验的数据量可能比较小,另外一个是仅仅是业务场景这个分文本分类算法,他没有对数据集进行特征处理,也没有做一些细节的调优。但是大概通过这个过程,我们能知道做这个聚类的这个实验的过程是怎么样的。

 

四、本章小结


我们一起来回顾本章的内容。

1、人工智能、机器学习和深度学习之间的关系

2、机器学习的定义、主要研究方向

3、有监督学习、无监督学习、强化学习的学习过程

4、分类和回归的定义、区别

5、机器学习损失函数的定义及特点

6、机器学习常见优化函数的概念及执行过程

7、机器学习分类和回归常见的评估指标

8、线性回归的定义、模型过拟合和欠拟合的特点以及线性回归正则化模型

9、逻辑回归定义及任务类型、逻辑回归实现多分类的策略

10、朴素贝叶斯的定义与应用

11、K近邻算法的定义、应用、实现过程、距离度量

12、支持向量机的定义与应用、核函数的意义以及常用核函数介绍

13、决策树的定义与应用、决策树的结构以及决策树的构建步骤

14、集成算法的定义、应用、流派(Bagging、Boosting、Stacking)

15、聚类算法的定义与应用

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
7天前
|
人工智能 调度 芯片
PAI训练服务:云上大模型训练新篇章
本文介绍了通用AI时代下的新训练方法及PAI平台的优化。随着大模型时代的到来,算力需求激增,硬件和网络通信成为瓶颈。PAI平台通过自动容错、3D健康检测等技术确保训练稳定性;通过资源配额、智能调度等提高性价比;并推出PAI-TorchAcc和PAI-ChatLearn两大引擎,分别实现高效训练加速和灵活的对齐训练,显著提升训练性能与效果。这些改进解决了大规模AI训练中的关键问题,提升了效率和稳定性。
|
7天前
|
存储 人工智能 大数据
AI开发新范式,PAI模型构建平台升级发布
本次分享由阿里云智能集团产品专家高慧玲主讲,聚焦AI开发新范式及PAI模型构建平台的升级。分享分为四个部分,围绕“人人可用”和“面向生产”两大核心理念展开。通过降低AI工程化门槛、提供一站式全链路服务,PAI平台致力于帮助企业和开发者更高效地实现AI应用。案例展示中,介绍了多模态模型微调在文旅场景的应用,展示了如何快速复现并利用AI解决实际问题。最终目标是让AI技术更普及,赋能各行业,推动社会进步。
|
3月前
|
机器学习/深度学习 测试技术
阿里云入选Gartner数据科学和机器学习平台挑战者象限
Gartner® 正式发布了《数据科学与机器学习平台魔力象限》报告(Magic Quadrant™ for Data Science and Machine Learning Platforms),阿里云成为唯一一家入选该报告的中国厂商,被评为“挑战者”(Challengers)。
|
10天前
|
人工智能 JSON 算法
魔搭支持在阿里云人工智能平台PAI上进行模型训练、部署了!
现在,魔搭上的众多模型支持在阿里云人工智能平台PAI-Model Gallery上使用阿里云算力资源进行模型训练和部署啦!
|
2月前
|
机器学习/深度学习 人工智能 监控
AutoTrain:Hugging Face 开源的无代码模型训练平台
AutoTrain 是 Hugging Face 推出的开源无代码模型训练平台,旨在简化最先进模型的训练过程。用户无需编写代码,只需上传数据即可创建、微调和部署自己的 AI 模型。AutoTrain 支持多种机器学习任务,并提供自动化最佳实践,包括超参数调整、模型验证和分布式训练。
182 4
AutoTrain:Hugging Face 开源的无代码模型训练平台
|
7天前
|
人工智能 容灾 Serverless
AI推理新纪元,PAI全球化模型推理服务的创新与实践
本次分享主题为“AI推理新纪元,PAI全球化模型推理服务的创新与实践”,由阿里云高级产品经理李林杨主讲。内容涵盖生成式AI时代推理服务的变化与挑战、play IM核心引擎的优势及ES专属网关的应用。通过LM智能路由、多模态异步生成等技术,PAI平台实现了30%以上的成本降低和显著性能提升,确保全球客户的业务稳定运行并支持异地容灾,目前已覆盖16个地域,拥有10万张显卡的推理集群。
|
6月前
|
机器学习/深度学习 人工智能 Shell
人工智能平台PAI操作报错合集之在分布式训练过程中遇到报错,是什么原因
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
6月前
|
机器学习/深度学习 人工智能 数据处理
人工智能平台PAI操作报错合集之任务重启后出现模型拆分报错,该怎么办
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
3月前
|
机器学习/深度学习 人工智能 算法
机器学习【教育领域及其平台搭建】
机器学习【教育领域及其平台搭建】
69 6
|
4月前
|
机器学习/深度学习 算法 数据挖掘
Python数据分析革命:Scikit-learn库,让机器学习模型训练与评估变得简单高效!
在数据驱动时代,Python 以强大的生态系统成为数据科学的首选语言,而 Scikit-learn 则因简洁的 API 和广泛的支持脱颖而出。本文将指导你使用 Scikit-learn 进行机器学习模型的训练与评估。首先通过 `pip install scikit-learn` 安装库,然后利用内置数据集进行数据准备,选择合适的模型(如逻辑回归),并通过交叉验证评估其性能。最终,使用模型对新数据进行预测,简化整个流程。无论你是新手还是专家,Scikit-learn 都能助你一臂之力。
178 8