【实验】阿里云大数据助理工程师认证(ACA)- 机器学习实现基本统计分析

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 【实验】阿里云大数据助理工程师认证(ACA)- 机器学习实现基本统计分析

实验概述

本实验在阿里云PAI机器学习平台上,对一组农业数据进行基本的统计分析,包括观察数据的分布情况,对农民的收入和其他变量的相关性进行分析,对不同区域的农民收入进行分组分析和对比分析,以探讨不同地区的农民之间是否存在收入差异。


实验目标

理解基本统计分析的一些概念的原理和使用方法,运用阿里云PAI机器学习平台上的基本统计分析组件,包括数据视图、相关系数矩阵、箱线图、正态检验、全表统计和双样本T检验等。

实验架构

阿里云大数据计算服务MaxCompute + 大数据开发套件DataIDE+ 机器学习平台PAI


第 1 章:实验背景


1.1 maxcompute


请点击页面左侧的 ,在左侧栏中,查看本次实验资源信息。

maxcomputemaxcompute MAXCOMPUTE

在弹出的左侧栏中,点击 创建资源 按钮,开始创建实验资源。

资源创建过程需要1-3分钟。完成实验资源的创建后,用户可以通过 实验资源 查看实验中所需的资源信息,例如:阿里云账号等。


1.2 实验概述


本实验在阿里云PAI机器学习平台上,对一组农业数据进行基本的统计分析,包括观察数据的分布情况,对农民的收入和其他变量的相关性进行分析,对不同区域的农民收入进行分组分析和对比分析,以探讨不同地区的农民之间是否存在收入差异。


1.3 实验目的


理解基本统计分析的一些概念的原理和使用方法,运用阿里云PAI机器学习平台上的基本统计分析组件,包括数据视图、相关系数矩阵、箱线图、正态检验、全表统计和双样本T检验等。


1.4 实验架构


阿里云大数据计算服务MaxCompute + 大数据开发套件Dataworks+ 机器学习平台PAI


1.5 实验准备


背景知识


统计学研究的对象是客观事物的数量关系和数量特征,是关于数据收集、整理、归纳和分析的方法论科学,是实证研究的一种最重要方法。统计方法广泛地运用于各个领域,起着信息功能、咨询功能、监督功能、辅助决策功能的作用。各个部门要做出决策、执行计划、检查监督、宏观调控等都需要以充分、灵通、可靠的统计资料为基础。


实验资源


本实验需要使用阿里云的MAXCOMPUTE资源,具体步骤如下:


【注】本实验均在Google Chrome浏览器下测试运行,为了达到最大兼容,推荐使用Windows7以上的操作系统以及Chrome浏览器进行实验。


【注】一旦开始创建资源,该实验就开始计时,并在到达实验规定的时长时,将自动结束实验并清除资源。


在实验的的第一章第一节,可以看到如下画面。点击右上方的我的实验资源按钮来创建MaxCompute资源。

在弹出的界面上点击创建资源按钮,等待片刻,系统会自动创建好数加子帐号资源。

在该页面上可以看到类似于下图的信息,包括接下来需要使用的子用户名称与子用户密码。

点击前往控制台按钮后将在一个新页面中连接到阿里云登录界面,登陆时需要子用户名称以及子用户密码。如图所示,将子用户名称复制粘贴在登陆框中的@符号前,点击下一步。

点击子用户密码显示按钮,将登陆密码填充进密码框中,点击登陆。

进入控制台的界面后,接下来的实验需要进入机器学习平台。在管理控制台左侧导航栏的“产品与服务”中的弹出菜单中,找到大数据(数加)下的“机器学习”,点击它

在指定地域下,可以看到系统已经自动创建了一个项目(项目名称是自动生成的随机值),单击【进入机器学习】,如下所示

20200711154949399.png


第 2 章:实验详情


2.1 导入数据


实验步骤

  1. 新建实验

单击【实验】,再单击【新建实验】,如下所示

20200711155040156.png


单击【新建空白实验】,输入实验名称“基本统计分析”,单击【新建】,如下所示:

20200711155132869.png


【注】 本实验中的项目名称是随机生成的一个唯一值,忽略上图中的“Ecommerce”,选择可以选择的项目名称即可。


创建完实验后,可以看到窗口被划分为如下几个区域:

20200711155152244.png


【注】本实验中只介绍用到的组件,更多详细介绍请参考阿里云官方文档


https://help.aliyun.com/document_detail/42709.html


读取数据

【注】本实验将会使用PAI上的公共数据表[pai_online_project].[farm_claim_process]


在最左侧导航栏中单击【数据源】,将【公共表】下的“farm_claim_process”拖入到工作簿的空白处,如下所示:

20200711155210755.png

该数据集的原背景:很多农民因为缺乏资金,在每年耕种前会向相关机构申请贷款来购买种地需要的物资,等丰收之后偿还。农业贷款发放问题是一个典型的数据挖掘问题。贷款发放人通过往年的数据,包括贷款人的年收入、种植的作物种类、历史借贷信息等特征来构建经验模型,通过这个模型来预测受贷人的还款能力。


本实验利用机器学习PAI强大的统计分析能力,探索不同地区的农民年收入的分布情况,不同地区的年收入之间是否有区别以及地区与年收入之间的相关性。故claimtype(贷款类型)和claimvalue(贷款金额)这两个字段在本实验中可以不用关心。


2.2 观察分布


这一步将会使用PAI统计分析中的两个组件


【SQL脚本】组件:可通过SQL脚本编辑器编写SQL语句。


【数据视图】组件:可视化了解特征取值分布,特征与标签列的分布情况,了解特征特点方便后续数据分析。


实验步骤


1 数据抽取


这一步需要将之后用到的特征和目标字段从原表中抽取出来,不需要抽取claimtype(贷款类型)和claimvalue(贷款金额)。


点击【组件】,拖入【工具】文件夹下的【SQL脚本】组件

20200711155313130.png


单击该组件,在右侧属性栏中输入如下SQL代码


select id
,region
,farmsize
,rainfall
,landquality
,farmincome
,maincrop
from ${t1}

20200711155337960.png

【注】输入数据会自动映射成t1~t4,使用方式如:select * from ${t1}

连接【ODPS源的输出】和左侧第一个【SQL脚本的输入】,如下图


20200711155355676.png


【注】【SQL脚本】组件共有4个输入点,需要连的是最左侧的第一个点,对应t1。连接错误会导致执行出错。

右键单击【SQL脚本】组件,选择【执行到此处】



20200711155412912.png


进入运行状态

20200711155431127.png


运行成功右键单击【SQL脚本】组件,运行成功时单击【查看数据】

20200711155455569.png

探查数据:region和maincrop明显是字符串特征,而在数值字段中,landquality应该是一个枚举特征,其他则是连续特征

20200711155512489.png

如果运行失败,单击【查看日志】

点击【全部】标签下的最后一段链接即可跳转到日志页面

20200711155536591.png

【注】日志有所差异的话是正常的,日志的详细说明文档参见https://help.aliyun.com/document_detail/27987.html?spm=5176.product27797.6.747.ky2HKF


2 数据转换和透视


从【统计分析】下拖入一个【数据视图】组件,并与【SQL脚本】组件连接,


单击【数据视图】,在右侧的【字段设置】标签下选择farmsize、rainfall、farmincome、region、maincrop作为特征列,landquality作为枚举特征


20200711155622973.png


选择特征列

20200711155652743.png


枚举特征

20200711155711866.png


右键单击【数据视图】选择【执行到此处】,完成后右键单击【数据视图】选择【查看分析报告】

20200711155730841.png

可以看到我们之前选择的5个特征已经通过可视化的方式展现了分布的情况,可以在【字段】列选择查看不同的特征


20200711155748823.png


【数据视图】有两个数据输出表,第一个是数据表,第二个是输出映射表

【数据视图】会对String类字符串做一个统计计算并映射成数字(转换成整数,方便机器学习识别和训练,某种程度有数据格式转换的功能)


2020071115580957.png

右键单击【数据视图】选择【查看数据】,点击【查看输出桩1】可以在数据表中看到,region和maincrop被自动转换


20200711155825792.png

关闭该窗口,右键单击【数据视图】选择【查看数据】,点击【查看输出桩2】可以在输出映射表中看到映射关系

20200711155844767.png


2.3 相关性分析


这一步将会使用PAI统计分析中的一个组件


【相关系数矩阵】组件:相关系数算法用于计算一个矩阵中每一列之间的相关系数,范围在[-1,1]之间。

相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r 表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。

20200711155911493.png

其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差


实验步骤


从【统计分析】下拖入一个【相关系数矩阵】组件


并与【数据视图】组件的输出节点连接,单击【相关系数矩阵】,在右侧的【字段设置】标签下选择farmsize、rainfall、landquality、farmincome、region、maincrop这6个字段

20200711155936383.png


20200711155949682.png


右键单击【相关系数矩阵】选择【执行到此处】,完成后单击【查看数据分析报告】,勾选【显示相关系数】。

20200711160010701.png


在farmincome所在的那一行(所在的行可能不同),可以看到farmincome和farmsize、rainfall 、landquality的相关系数为0.5左右,和region的相关系数只有0.09左右,而和maincrop的相关系数为-0.02。一般来说,取绝对值后,相关系数0-0.09为没有相关性,0.1-0.3为弱相关,0.3-0.5为中等相关,0.5-1.0为强相关。这说明农民的收入和农场的大小、降水量和土地质量有不错的线性正相关关系,和地区与种植的作物基本没有线性相关关系。


2.4 分组分析


这一步将使用PAI统计分析中的【箱线图】,可视化不同地区的农民年收入、降雨量和土地质量,观察数据的偏态和异常值。


箱线图(Boxplot)也称箱须图(Box-whisker Plot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。


箱线图主要包含六个数据节点,将一组数据从大到小排列,分别计算出他的上边缘,上四分位数(或第三四分位数)Q3,中位数Q2,下四分位数(或第一四分位数)Q1,下边缘,还有一个异常值。


2020071116004913.png

第三四分位数与第一四分位数的差距又称四分位间距(Inter Quartile Range,IQR)。


四分位间距框的顶部线条是第三四分位数的位置,即Q3,表示有75%的数据小于等于此值。底部线条是第一四分位数的位置,即Q1,表示有25%的数据小于此值。整个四分位间距框所代表的是数据集中50%(即75%-25%)的数据,四分位间距框的高度就是这些数据涉及的范围,能够表现出数据的集中程度。Q2是数据中位数的位置。

箱形图的作用


1 识别数据异常值:一批数据中的异常值值得关注,忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会带来不良影响;重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机。


2 比较几批数据的形状:同一数轴上,几批数据的箱形图并行排列,几批数据的中位数、尾长、异常值、分布区间等形状信息便一目了然。


箱线图的局限


1 不能提供关于数据分布偏态和尾重程度的精确度量


2 对于批量比较大的数据批,反应的形状信息更加模糊


3 用中位数代表总体评价水平有一定的局限性


实验步骤


从【统计分析】下拖入一个【箱线图】组件并与【数据视图】组件的输出节点连接,单击【箱线图】,在右侧选择farmsize、rainfall、landquality、farmincome这4个变量作为连续类型特征,选择region作为枚举类型特征

20200711160150219.png

选择连续类型特征

20200711160442367.png


右键单击【箱线图】选择【执行到此处】,完成后单击【查看分析报告】

20200711160501329.png


以farmincome为例, 按照region分成了4组,并显示了每组中的数据分布情况。整体上看,4个地区的收入中位数和下边缘都比较接近,其中1和2地区的下四分位数比较低一点,3和4地区的下四分位数稍高一些。但是上四分位数和上边缘就有差距了,2和3的上四分位数和上边缘比较高一些。总体而言,2和3地区的收入分布相对1和4地区比较分散一些,最高收入也高一些。


2.5 对比分析


使用PAI统计分析中的【正态检验】组件,检验不同地区的农民年收入是否符合正态分布。如果符合,使用PAI统计分析中的【全表统计】组件计算地区的年收入方差,然后用F检验确定不同地区的年收入方差没有显著性差异之后,最后用【双样本T检验】检验不同地区的农民年收入均值是否存在显著性差异。


【正态检验】组件:检验观测值是否服从正态分布,本组件由三种检验方法组成,包括Anderson-Darling Test,Kolmogorov-Smirnov Test以及QQ图,用户可以自选某一种或多种检验方法。原假设H0:观测值服从正态分布,H1:观测值不服从正态分布(KS的p值计算方法采用渐进计算KS分布的CDF,无论样本量多大都采用的是该方法。QQ图在样本量>1000时,会采样进行计算和画图输出,因此图中的数据点不一定覆盖所有样本)


【全表统计】组件:对一个存在的表,进行全表基本统计,或者仅对选中的列做统计。输出统计结果的全部字段如下

20200711160559945.png


【双样本T检验】组件:T检验分为单样本检验和双样本检验。


单样本T检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。


双样本T检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。


双样本T检验又分为两种情况,一是独立样本T检验,一是配对样本T检验。


独立样本T检验就是根据样本数据对两个样本来自的两个独立总体的均值是否有显著差异进行推断;进行独立样本T检验的条件是,两个样本的总体相互独立且符合正态分布。


配对样本是指对同一样本进行两次测试所获得的两组数据,或对两个完全的样本在不同条件下进行测试所得到的两组数据;配对样本T检验的前提条件:两样本是配对的(数量一样,顺序不能变),服从正态分布。


T检验的前提:


1.来自正态分布总体


2.随机样本


3.均数比较时,要求俩总体方差相等,即具有方差齐性(需要使用F检验)


F检验


F检验又叫方差齐性检验,在双样本T检验中要用到F检验。从两总体中随机抽取样本,要对这两个样本进行比较的时候,首先要判断两总体方差是否相同,即方差齐性。


若两总体方差相等,则直接用T检验,若不等,可采用T’检验或变量变换或秩和检验等方法。


F检验法是英国统计学家Fisher提出的,主要通过比较两组数据的方差V,以确定他们的精密度是否有显著性差异。


F检验的计算方法:


F检验的原假设总是假设两个方差是相等的。


步骤1:写出假设陈述

H0:方差无显著差异。
H1:方差有显著差异。

步骤2:计算的F临界值


把大的方差作为分子,小的方差作为分母,相除得到F临界值


步骤3:计算自由度


表中的自由度是样本大小- 1


步骤4:选择alpha大小


使用0.05的alpha(默认情况下),双尾检验需要减半,所以使用0.025。


步骤5:使用以下这张表格找到F临界值(这张表只适用于alpha=0.025)


横坐标df1是大方差(分子)的自由度,纵坐标df2是小方差(分母)的自由度。有很多个表,所以请确保在alpha = 0.025表中查找。

步骤6:比较计算值(步骤2)和表值(步骤5)


如果计算值高于表值,则可以拒绝原假设。

2020071116062480.png

本实验比较1和4地区的收入是否有显著差异,将采用独立样本T检验,需要两个样本满足正态分布和方差齐性。

实验步骤


从【工具】文件夹下拖入一个【SQL脚本】组件,连接【数据视图】组件的输出,并在右侧属性栏中输入如下SQL代码


select * from ${t1} where region = 1 

20200711160651827.png

右键单击【SQL脚本】选择【执行到此处】,完成后单击【查看数据】

20200711160710464.png

从【统计分析】下拖入一个【正态检验】组件, 与【SQL脚本】组件的输出连接,在右侧的【字段设置】标签下选择farmincome作为字段列

20200711160728526.png


选择字段列

20200711160747812.png

右键单击【正态检验】选择【执行到此处】,完成后单击【查看分析报告】


20200711160809396.png

【注】本实验用Kolmogorov-Smirnov Test来判断样本是否符合正态分布


KS Test的p-value大于0.05,不能拒绝原假设H0(观测值服从正态分布),所以地区1的收入服从正态分布。


从【统计分析】下拖入一个【全表统计】组件, 与【SQL脚本】组件的输出连接,在右侧的【字段设置】标签下选择farmincome作为输入列


20200711160832587.png

选择输入列

20200711160851567.png

右键单击【全表统计】选择【执行到此处】,完成后单击【查看数据】,找到“variance”列,将鼠标移入数据

2020071116103680.png

地区1的收入方差为93141790665.90714

按住键盘上的【CONTROL】键,选中【SQL脚本】、【正态检验】和【全表统计】这三个组件,在其中的任意一个组件上右键单击,选择【复制】(注意选中的三个节点会变成淡蓝色)


20200711161115846.png


在工作簿空白处右键单击,选择【粘贴节点】,连接【数据视图】的输出和【SQL脚本】的左侧第一个输入,在【SQL脚本】的参数设置中,将SQL语句修改为如下语句


select * from ${t1} where region = 4


20200711161142304.png

右键单击【SQL脚本】,选择【从此处开始执行】

20200711161204353.png


执行完成后,右键单击【正态检验】,选择【查看分析报告】

KS Test的p-value大于0.05,不能拒绝原假设H0(观测值服从正态分布),所以地区4的收入也服从正态分布。


右键单击【全表统计】,选择【查看数据】,找到方差


20200711161231284.png


地区4的收入方差为87874342403.63077


之前计算得到的地区1的收入方差为93141790665.90714


【注】接下去用F检验(方差齐性检验)来判断方差是否有显著性差异,原假设为两个地区的方差没有显著差异。

右键单击两个【全表统计】,选择【查看数据】,找到两组数据的样本数


地区1共93个样本

202007111612541.png


地区4共43个样本

F 计算值= 93141790665.90714 / 87874342403.63077 = 1.06


查看双尾检验查alpha等于0.025的表,横坐标为大方差的自由度为42,纵坐标为小方差的自由度为92


42介于40到60之间,92介于60到120之间,F表值为1.53 到 1.74之间。


F 计算值= 1.06 < F表值,不能拒绝原假设,所以两组数据的方差没有显著差异


为了防止下一步产生交错的数据连线,可以调整一下组件的位置


从【统计分析】下拖入一个【双样本T检验】组件,与两个【SQL脚本】组件的输出连接,并在右侧的【字段设置】标签下选择farmincome作为样本1和样本2所在列,在【参数设置】标签下选择【置信度】为0.95,【两总体方差是否相等】为tru


参数设置

右键单击【双样本T检验】选择【执行到此处】,完成后单击【查看数据】


回顾一下假设


H0:两个样本均值的差等于0


H1:两个样本均值的差不等于0


【双样本T检验】的结果中可以看到p value是0.39,大于alpha(0.05),不能拒绝原假设H0,所以地区1和地区4的收入均值没有显著性差异。

附:最终的任务流图


20200711161358693.png

第 3 章:思考与讨论


3.1 思考与讨论


  1. 分组分析和对比分析有哪些应用场景?


参考答案


A/B test:将某一个度量按照一个离散的维度分组之后,取其中的两组,一组是控制组,保持原有策略不变;另一组为实验组,采取新的策略。实验后收集两组的数据并进行对比分析,看实验组结果是否显著优于对照组。如果有,则证明策略有效。


如何判断某一个服从正态分布的样本平均值是否小于一个已知的总体平均数?

参考答案


先判断方差是否相等,然后使用单样本T检验,假设类型为单尾


独立样本T检验和配对样本T检验的差异在哪里?

参考答案


前者要求两样本相互独立,后者要求两样本相互配对;


前者需要考虑方差相等或不等两种情况,而后者方差通常是不等的。


通过相关系分析之后发现,两个变量之间有很高的相关性,是否能说明这两个变量之间有因果关系?

参考答案


不能。相关性分析只能说明变量之间存在关联性,但关联性不等于因果关系。可能是其他没有被考虑进来的变量同时影响了这两个变量。举个例子,A的年龄和B的年龄都同时在增长,具有非常高的相关性,但是这两个变量之间毫无因果关系,只不过都是受了时间的影响。


总之,如果两个变量之间存在相关关系,则意味着当一个变量发生系统性变化时,另一个变量也会发生系统的变化,可以是正的或负的。


如果一个变量与另一个变量同时增加,则存在正相关关系,即一个变量的高数值与另一个变量的高数值有关。


如果一个变量在另一个变量增加时减小,那么一个变量的高数值与另一个变量的低数值有关。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
目录
相关文章
|
2月前
|
机器学习/深度学习 测试技术
阿里云入选Gartner数据科学和机器学习平台挑战者象限
Gartner® 正式发布了《数据科学与机器学习平台魔力象限》报告(Magic Quadrant™ for Data Science and Machine Learning Platforms),阿里云成为唯一一家入选该报告的中国厂商,被评为“挑战者”(Challengers)。
|
4月前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】金山办公2020校招大数据和机器学习算法笔试题
金山办公2020校招大数据和机器学习算法笔试题的解析,涵盖了编程、数据结构、正则表达式、机器学习等多个领域的题目和答案。
105 10
|
5月前
|
机器学习/深度学习 人工智能 专有云
人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
【EMNLP2024】阿里云人工智能平台 PAI 多篇论文入选 EMNLP2024
阿里云人工智能平台 PAI 的多篇论文在 EMNLP2024 上入选。论文成果是阿里云与华南理工大学金连文教授团队、复旦大学王鹏教授团队共同研发。EMNLP 是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究,尤其重视自然语言处理的实证研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台 PAI 在自然语言处理和多模态算法能力方面研究获得了学术界认可。
|
2月前
|
机器学习/深度学习 自然语言处理 算法
大数据与机器学习
大数据与机器学习紧密相关,前者指代海量、多样化且增长迅速的数据集,后者则是使计算机通过数据自动学习并优化的技术。大数据涵盖结构化、半结构化及非结构化的信息,其应用广泛,包括商业智能、金融和医疗保健等领域;而机器学习分为监督学习、无监督学习及强化学习,被应用于图像识别、自然语言处理和推荐系统等方面。二者相结合,能有效提升数据分析的准确性和效率,在智能交通、医疗及金融科技等多个领域创造巨大价值。
105 2
|
2月前
|
JSON 测试技术 API
阿里云PAI-Stable Diffusion开源代码浅析之(二)我的png info怎么有乱码
阿里云PAI-Stable Diffusion开源代码浅析之(二)我的png info怎么有乱码
|
4月前
|
机器学习/深度学习 存储 人工智能
【ACL2024】阿里云人工智能平台PAI多篇论文入选ACL2024
近期,阿里云人工智能平台PAI的多篇论文在ACL2024上入选。论文成果是阿里云与阿里集团安全部、华南理工大学金连文教授团队、华东师范大学何晓丰教授团队共同研发。ACL(国际计算语言学年会)是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台PAI在自然语言处理和多模态算法、算法框架能力方面研究获得了学术界认可。
|
4月前
|
机器学习/深度学习 分布式计算 并行计算
性能优化视角:Python与R在大数据与高性能机器学习中的选择
【8月更文第6天】随着数据量的激增,传统的单机计算已经难以满足处理大规模数据集的需求。Python和R作为流行的数据科学语言,各自拥有独特的特性和生态系统来应对大数据和高性能计算的挑战。本文将从性能优化的角度出发,探讨这两种语言在处理大数据集和高性能计算时的不同表现,并提供具体的代码示例。
107 3
|
4月前
|
机器学习/深度学习 分布式计算 算法
MaxCompute 的 MapReduce 与机器学习
【8月更文第31天】随着大数据时代的到来,如何有效地处理和分析海量数据成为了一个重要的课题。MapReduce 是一种编程模型,用于处理和生成大型数据集,其核心思想是将计算任务分解为可以并行处理的小任务。阿里云的 MaxCompute 是一个面向离线数据仓库的计算服务,提供了 MapReduce 接口来处理大规模数据集。本文将探讨如何利用 MaxCompute 的 MapReduce 功能来执行复杂的计算任务,特别是应用于机器学习场景。
84 0