使用 PAI 进行统计分析 | 学习笔记

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 快速学习使用 PAI 进行统计分析

开发者学堂课程【机器学习实战:使用 PAI 进行统计分析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/530/detail/7140


使用 PAI 进行统计分析

内容介绍

一、机器学习介绍

二、实例

 

一、机器学习介绍

1、找到机器学习,点击就进入机器学习的页面了,这是它的显示名称,它的实际名称是 PAI-DE MO- NEW,点击进入学习。

下图就是机器学习 PAI 的首页。

image.png

页面上方可以看到最新功能,新手引导,常见问题和社区等等。

下方存放了一些广告,机器学习的文章和 ICQ 等。社区下方也存放了一些和机器学习 PAI 相关的文章和实例等等。最左侧是一些导航栏,内容有首页,实验,notebook(可以使用 notebook 来开启一些 python 的项目来进行研发测试),数据源,组件,模型

可以在数据源中配置相关的数据源。

组件是 PAI 提供的一些功能模块,被由组件的形式展示给用户。

实验中创建的模型可以在模型这一栏中显示出来。

首页中有一些新建实验的按钮,可以选择是新建空白实验,还是使用模版,例如你可以选择新建一个 Tensortflow 12, 通过点击该模版来新建,还有一些模版包括图片分类,商品推荐,新闻分类等等。这些模版可以使得用户的开发过程更便捷。

 

二、实例

本次演示选择新建空白实验

1、选择所在的项目 PAI-DE MO- NEW,

填写名称:iris.start

点击新建,进入 PA I 的开发界面。

image.png

2、页面左侧是一些组件,包括源和目标栏目下有写数据:写数据就是将 PAI 产生的一些数据写回到我们数据存储的产品中,写回到 MaxCompute

读数据:将 MaxCompute 中的相应的数据读取出来,

OSS 数据同步:PAI 目前也支持 OSS 数据和 mysql 两个数据,可以将数据从数据源中读取出来,或者将数据写回去。

②数据预处理,在这里面会做一些和数据预处理有关的功能模块提供给用户。

采样与过滤:随机采样,数据合并,JON 合并列,还可以进行标准转换,拆分,归一化,标准化,等一系列功能。

特征工程,里面提供了一系列和特征功能有关的功能组件,包括特征转换类的,重要性评估类,特征选择类,和特征生成类等等。

统计分析,里面提供了很多和统计分析相关的基本功能。

机器学习:分类,回归类,聚类,等一系列机器学习的模型和方

法,

二分类:GBDT 二分类,PS- MART 二分类,线性支持,线性回归等算法。

深度学习,是一个单独的模块,可以点击页面中的点击这里来创

建,在项目学习中有个创建 GPU 的选项,如果开通了,就可以使用深度学习相关的组件。

时间序列,下面包含二维码常见的算法。

网络分析,很多文本分析相关的组件,例如数,传播等等。

⑨ 工具,主要 sql 脚本,因为数据大部分情况下都读取自 mysql 或者 MaxCompute ,如果需要对数据进行一些嵌入式的处理,就可以使用 sql 脚本对数据直接处理

金融板块,放置了一些金融类常用的组件。

以上就是提供的一些组件,是比较丰富的,并且还在持续优化与更新中。会增加更多的功能进来。

3、使用上传的数据集进行数据统计与分析的一个演示。

第一步:读数据表,将数据读取进来

第二步,选择数据视图,全表统计,对数据进行一个简单分析。可以直接左键选中组件,将其推至右方面板中完成选择,

再依次选择单样本检验,双样本检验,正态检验,散点检验。

第三部,在面板中将节点用线连接起来,表示他们之间的依赖关系。将鼠标放置到节点下方按钮中,显示的是一个输出的关系,将他连接到其他组件的输入中去,因为每一个组件都是用来对数据进行分析的,所以可以直接连接。有一个特殊的是双样本检验有两个输入,左侧输入端是样本一,右侧输入端是样本二。依次连接后,组件之间的关系就创建完成了

image.png

第四步,进行配置,点击读数据表组件,右侧就会出现一个属性配置相关的表,点击表名,输入 Aris。之后就会到 MaxCompute 中寻找相应的表,找到之后,就可以查看字段信息。配置完成之后,组件后面红色的感叹号就会消失。

查看数据视图,点击数据视图,在右端显示出来的属性面板中选择特征列,选择属性列,选择字段,选中 Double 的全部内容;目标列选中 spicious,. 查看参数置,将离散区间数改为 10。执行调优中可以选择诶计算核心数,选择每个 CPU 分配的内存。

右键点击该组件,选择执行到此处,执行完成后,读取数据组件之后就会出现绿色的完成标识,并且两者之间的连线就会变成动态的虚线。可以清楚的查看目前执行到哪一步。数据视图执行完毕,点击右键查看报告。

就可以看到数据视图,实际上就是根据不同字段,根据不同分类,计算经济系数和商。表中可以看到不同数据类型,不同组分所占比例不同。

image.png

蓝色主要集中在 sepel 字段比较小的部分,蓝色主要集中在 5.7 以下,绿色主要集中在 5.7 以上。黄色的值要要更大一些,每个字段的趋势都是有的。意思就是说不同结果的区分度还是挺明显的。

2、查看全表统计,点击全表统计,右侧会出现一个属性设置面板,默认属性是选择全部列,所以不需要更改,直接右键点击全表统计选择配置到此处,在配置过程中,我们还可以点击其他的一些信息。

点击箱线图,箱线图主要是画数据分布的图,箱线图中属性配置选择全部 double字段,枚举值选择 species ,箱线图就配置完成。

3、点击散点图,右侧出现属性面板,选择全部 double 字段,分类标签选择species,散点图就配置完成了。

4、点击全表统计,右键点击查看,下图即为结果,可以查看到字段的条数,空值的条数,非空的条数正无穷的条数,负无穷的条数,最大值,最小值和平均值等等。

image.png

5、右键点击箱线图,选择执行到此处。选中散点图,选择执行到此处。在配置过程中可以设置其他的一些组件。

正态分布,数据是极有可能符合某些分布,最常见的是正态分布,如果一个数据的产生受多种因素的影响,那么其产生就很有可能接近或者符合正态分布。选中正态分布,选择字段,选中全部 double,完成配置,右键点击组件选择执行到此处。

散点图已经执行完成了,右键点击散点图,然后选择查看分析报告,结果显示如下图所示。散点图是按照四个维度画成的,在散点图中不同颜色的点代表了不同的分类,在每个图中散点图分散的都很好就证明,三种花性状特征还是有明显不同的。

image.png

右键点击箱线图,查看分析报告,显示如下图。因为分为三类,所以下表右侧显示了第一类中 sepel-width 中数据分布特点,那个框就是大部分数据都集中在此处的区域。

中间是平均数,两侧是其他数据的分布。从图中可以看出,这个字段还是有一定分离度的.第二个图中可以明显看出分离度。

image.png

6、右键点击正态检验,查看分析报告,如下图所示,

image.png

由上图可以看出倾斜程度更接近 45° 的就更接近正态分布,并且进行了 Anderson Darling Test 和 Kolmogorov Smirnov.test 两种检验。通常 ADtest 的值越大,认为它越符合所检验的正态分布。实际上 sepal-width 是不符合正态分布的,KStest值大概上是 0.2 左右,整体上看和 y=x 直线还是有一定区别的。就是利用常见的检验方法对你提供的字段进行一个检验,返回结果后由自己判断是否符合。

7、单样本检验,右键点击单样本检验,右侧显示属性面板,样本一所在列选择sepel-length。单样本检验会自动检验所提供样本的平均值是否等于零,右键点击执行带此处,执行完成后,点击查看分析报告。下图中 Confidencelevel 为 0.8, 所以认为有百分之八十的可能性认为其平均值在 5.7 到 5.9 之间。

image.png

8、双样本检验会提供两个列,会检验提供的两个值相差是否等于零,邮件点击执行到此处。执行完成,点击查看分析报告如下图所示。

image.png

由第一栏知到,当这两个数据的平均值差等于 0 就是原假设,不等于 0 就是备值假设。P 值等于 0,因为 P 值有百分之八十的可能性在 1.88 到 2.88 之间,所以推翻原假设,接受备值假设,输入的两个数据的平均值的差不等于 0,所以她两的平均值不同。

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
5月前
|
机器学习/深度学习 编解码 计算机视觉
Python机器学习和图像处理学习笔记
Python机器学习和图像处理学习笔记
|
10月前
|
机器学习/深度学习 算法 搜索推荐
【吴恩达机器学习笔记】十五、大规模机器学习
【吴恩达机器学习笔记】十五、大规模机器学习
61 0
|
10月前
|
机器学习/深度学习 算法
【吴恩达机器学习笔记】九、机器学习系统的设计
【吴恩达机器学习笔记】九、机器学习系统的设计
66 0
|
10月前
|
机器学习/深度学习 算法
【吴恩达机器学习笔记】八、应用机器学习的建议
【吴恩达机器学习笔记】八、应用机器学习的建议
76 0
|
10月前
|
机器学习/深度学习 算法 前端开发
学习笔记: 机器学习经典算法-集成学习策略
机器学习经典算法-个人笔记和学习心得分享
120 0
|
10月前
|
机器学习/深度学习 算法 Python
学习笔记: 机器学习经典算法-决策树(Decision Tress)
机器学习经典算法-个人笔记和学习心得分享
137 0
|
10月前
|
机器学习/深度学习 资源调度 算法
学习笔记: 机器学习经典算法-核SVM(KernelSVM)
机器学习经典算法-个人笔记和学习心得分享
83 0
|
10月前
|
机器学习/深度学习 资源调度 算法
学习笔记: 机器学习经典算法-线性SVM(LinearSVM)
机器学习经典算法-个人笔记和学习心得分享
91 0
|
10月前
|
机器学习/深度学习 算法
学习笔记: 机器学习经典算法-空间内一点到超平面的距离推广公式
机器学习经典算法-个人笔记和学习心得分享
90 0
|
10月前
|
机器学习/深度学习 算法 数据可视化
学习笔记: 机器学习经典算法-分类算法模型的评价指标
机器学习经典算法-个人笔记和学习心得分享
93 0

热门文章

最新文章