开发者学堂课程【天池大赛算法教程及获奖选手答辩: 新手入门赛-(o2o)数加平台使用教程(下)】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/389/detail/4998
新手入门赛-(o2o)数加平台使用教程(下)
目录:
一、数加平台简介
二、阿里云数加平台的两个入口
三、掌握平台的工具栏
一、数加平台简介
阿里云数加平台
阿里云数加平台(里云大数据平台,简称数加)提供大数据存储,计算、安全工具和服务等基础设施及行业解决方案,1
楼,帮助客户加大数据基础建设,包含计算数据开发、B系统、机器学习、可视化定向运营个性化推荐智能算
并结合行业服务商,提供气象电力、交通营销O20、游戏、多媒体,宏观经济分析等行业大数据解决方案
二、阿里云数加平台的两个入口
1.数据开发平台
数据开发平台是一套基于工作流的集成开发环境,支持 SOL MapReduce 等常见数据开发工具,可以进行数据分析处理及简单的算法开发。
2.机器学习平台
机器学习平台是一套专业的可视化算法集成开发环境采用工作流模式,通过施及配置件即可完成一个型训练或者预测,支持主流机器学习算法。
功能上几乎一样。
进入平台之前,看一下账号的问题。每个人会分配不同的 RAM 账号进行登陆。
接下来进入数据开发平台,有两个不同界面,点击 RAM 用户登录,就可以填写账号密码登陆。
注意阿里云账号(天池账号)和 RAM 账号的区别,阿里云账号一样可以登录数加系统,不过只是一个普通的阿里云个人用户。
而 RAM 账号才是天池竞赛的组织系统。
登录以后就可以进入数加平台了,这里就是数据开发平台的界面。
1.这里新建目录和脚本文件,在脚本里就可以写 SQL 代码并执行了。这里的数据是一个队伍共享的,一个共享文档可以共同编辑,很方便。
2.时时保存不能忘,这里无自动保存功能,要是直接关闭浏览器,下次进来就什么都没有了。
3.项目前缀。原始数据都是这样在,带有项目前缀,具体可以在赛题和数据“那里查到对应的项目前缀。
接下来比较重要的是右上角的帮助文档,可以让大家快速掌握 ODPS。左上方有一个项目选择的包,每一个比赛都有一个项目空间,对于天池比赛,就会有一排的项目空间,只有选择正确的项目空间,才能访问到数据。
有一个机器学习平台的按钮。首先会看到租户及空间选择的页面,需要选择正确的项目空间。
进入机器学习平台首页,学习平台又叫兀平台,上面有一些案例,对于新人同学快去掌握组建的功能。
三、掌握平台的工具栏
1.实验
实验对于数据开发平台对应的就是脚本文件,一个实验,有很多组建组成,每一个组建都是一张表,那我们看一个SQL脚本的建,读取语句储存到表当中。
数据源
所有的表储存在数据源中。
组建
有很多组建供我们选用,这样可以让我们快速完成一些复杂的功能。
模型
如果是选择机器学习的模型,那么训练好的模型就会存放在模型里。
工作空间
可以快速更改对应比赛的工作空间,才能够正确读取并保存数据。
右上角是平台使用的功能,例如缩放,居中等。
2、平台的优点和缺点
优点
◆表之间的逻辑可视化,清晰明了
◆同一个页面上可以多组件并行计算,比数据平台方使
◆右健菜单可以快速查看100行数据
◆有很多组件,参数设置界面图形化,会比数据开发平台方便很多
◆起名困难症患的福音
缺点
◆无法导出,代码自己留存不易。语句总是写在单独的代码中。
◆队友无法查看
◆组件的 bug 比使用命令行要多
数加平台简单实例
第一步,讲数据表保存到本地,由于平台无法读取带前缀的表,只能在数据开发完成。
第二步,创建新建实验,读取数据。数据源选取一样。在表选择里填写。
第三步,使用 SQL 进行操作。
3、数据分析
三张表读入,第一个是用户的 uid,很容易统计出每个 ID 在表中出现的数量和相互的关系。第二个是优惠券的类型,进行展开。
滑窗数据划分
按时间段对原始数据进行区分,相互对应。
4.特征工程
把一类一类特征做成特征表,平台写 SQL 语句的优势显示出来,十分清晰。左侧是把特征 Join 到一起,右侧一类历史统计特征,一类 leakage 特征。最后放在一起得到特征表,进行训练。
5.模型训练
1. 自身切分测试
2. 线下滑窗测试
3. 预测提交
所有组建都是现成的,都可以在平台找到使用。可能平台组建不是非常全面,但未来会不断完善。