新手入门赛-(o2o)数加平台使用教程(下)|学习笔记

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 快速学习新手入门赛-(o2o)数加平台使用教程(下)

开发者学堂课程【天池大赛算法教程及获奖选手答辩 新手入门赛-(o2o)数加平台使用教程(下)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/389/detail/4998


新手入门赛-(o2o)数加平台使用教程(下) 


目录:

一、数加平台简介

二、阿里云数加平台的两个入口

三、掌握平台的工具栏

 

一、数加平台简介

阿里云数加平台

阿里云数加平台(里云大数据平台,简称数加)提供大数据存储,计算、安全工具和服务等基础设施及行业解决方案,1

楼,帮助客户加大数据基础建设,包含计算数据开发、B系统、机器学习、可视化定向运营个性化推荐智能算

并结合行业服务商,提供气象电力、交通营销O20、游戏、多媒体,宏观经济分析等行业大数据解决方案

 

二、阿里云数加平台的两个入口

1.数据开发平台

数据开发平台是一套基于工作流的集成开发环境,支持 SOL MapReduce 等常见数据开发工具,可以进行数据分析处理及简单的算法开发。

2.机器学习平台

机器学习平台是一套专业的可视化算法集成开发环境采用工作流模式,通过施及配置件即可完成一个型训练或者预测,支持主流机器学习算法。

功能上几乎一样。

进入平台之前,看一下账号的问题。每个人会分配不同的 RAM 账号进行登陆。

接下来进入数据开发平台,有两个不同界面,点击 RAM 用户登录,就可以填写账号密码登陆。

注意阿里云账号(天池账号)和 RAM 账号的区别,阿里云账号一样可以登录数加系统,不过只是一个普通的阿里云个人用户。

而 RAM 账号才是天池竞赛的组织系统。

登录以后就可以进入数加平台了,这里就是数据开发平台的界面。

1.这里新建目录和脚本文件,在脚本里就可以写 SQL 代码并执行了。这里的数据是一个队伍共享的,一个共享文档可以共同编辑,很方便。

2.时时保存不能忘,这里无自动保存功能,要是直接关闭浏览器,下次进来就什么都没有了。

3.项目前缀。原始数据都是这样在,带有项目前缀,具体可以在赛题和数据“那里查到对应的项目前缀。

接下来比较重要的是右上角的帮助文档,可以让大家快速掌握 ODPS。左上方有一个项目选择的包,每一个比赛都有一个项目空间,对于天池比赛,就会有一排的项目空间,只有选择正确的项目空间,才能访问到数据。

有一个机器学习平台的按钮。首先会看到租户及空间选择的页面,需要选择正确的项目空间。

进入机器学习平台首页,学习平台又叫兀平台,上面有一些案例,对于新人同学快去掌握组建的功能。

 

三、掌握平台的工具栏

1.实验

实验对于数据开发平台对应的就是脚本文件,一个实验,有很多组建组成,每一个组建都是一张表,那我们看一个SQL脚本的建,读取语句储存到表当中。

数据源

所有的表储存在数据源中。

组建

有很多组建供我们选用,这样可以让我们快速完成一些复杂的功能。

模型

如果是选择机器学习的模型,那么训练好的模型就会存放在模型里。

工作空间

可以快速更改对应比赛的工作空间,才能够正确读取并保存数据。

右上角是平台使用的功能,例如缩放,居中等。

2、平台的优点和缺点

优点

◆表之间的逻辑可视化,清晰明了

◆同一个页面上可以多组件并行计算,比数据平台方使

◆右健菜单可以快速查看100行数据

◆有很多组件,参数设置界面图形化,会比数据开发平台方便很多

◆起名困难症患的福音

缺点

◆无法导出,代码自己留存不易。语句总是写在单独的代码中。

◆队友无法查看

◆组件的 bug 比使用命令行要多

数加平台简单实例

第一步,讲数据表保存到本地,由于平台无法读取带前缀的表,只能在数据开发完成。

第二步,创建新建实验,读取数据。数据源选取一样。在表选择里填写。

第三步,使用 SQL 进行操作。

3、数据分析

三张表读入,第一个是用户的 uid,很容易统计出每个 ID 在表中出现的数量和相互的关系。第二个是优惠券的类型,进行展开。

滑窗数据划分

按时间段对原始数据进行区分,相互对应。

4.特征工程

把一类一类特征做成特征表,平台写 SQL 语句的优势显示出来,十分清晰。左侧是把特征 Join 到一起,右侧一类历史统计特征,一类 leakage 特征。最后放在一起得到特征表,进行训练。

5.模型训练

1. 自身切分测试

2. 线下滑窗测试

3. 预测提交

所有组建都是现成的,都可以在平台找到使用。可能平台组建不是非常全面,但未来会不断完善。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
SQL 机器学习/深度学习 分布式计算
新手入门赛-(o2o)数加平台使用教程(上)|学习笔记
快速学习新手入门赛-(o2o)数加平台使用教程(上)
154 0
|
弹性计算 缓存 安全
冬季实战营第二期:Linux操作系统实战入门全流程
冬季实战营第二期:Linux操作系统实战入门全流程
129 0
冬季实战营第二期:Linux操作系统实战入门全流程
|
NoSQL Java 关系型数据库
|
机器学习/深度学习 分布式计算 DataWorks
大数据上手实战!《Elasticsearch 实战进阶营》第二季限时免费报名啦
8月18日,阿里巴巴大数据训练营“九营齐开”正式开营,来自数据计算、数据分析、数据仓库、搜索、机器学习、数据智能等多个领域的技术大佬亲身上阵教学,解读各技术领域基础原理,剖析行业实践案例,帮助开发者实现大数据从0到1的上手学习。
10074 4
大数据上手实战!《Elasticsearch 实战进阶营》第二季限时免费报名啦
|
人工智能 Kubernetes 小程序
开发者社区精选直播合集(十六)| 云开发平台小课合集
积跬步以至千里,云开发小课跟你一起脚踏实地学习云原生开发新范式
开发者社区精选直播合集(十六)| 云开发平台小课合集
|
存储 JSON 运维
【小程序云七天学习训练营】Day1
小程序云是阿里云面向小程序场景提供的一站式云服务,帮助开发者实现一云多端的业务战略。开发者可通过小程序云支撑各类小程序前端,在一朵云内实现统一的资源管理、统一的数据运营和统一的业务设计。
1311 0
【小程序云七天学习训练营】Day1
|
存储 运维 小程序
【小程序云七天学习训练营】Day4
第四天学习计划:云函数使用
552 1
【小程序云七天学习训练营】Day4
|
机器学习/深度学习 分布式计算 DataWorks
大数据上手实战!训练营“9营齐开”第二季限时免费报名啦
首期大数据“9营齐开”计划吸引了10000+开发者报名参与,成为今夏最火爆的大数据训练营!伴随着第一季训练营的完美落幕,大数据训练营“九营齐开”第二季已蓄势待发!
3987 0
大数据上手实战!训练营“9营齐开”第二季限时免费报名啦
阿里云【7天实践训练营】进阶路线——Day1:打造专属云笔记
阿里云【7天实践训练营】进阶路线——Day1:打造专属云笔记
157 0
阿里云【7天实践训练营】进阶路线——Day1:打造专属云笔记
|
SQL 大数据 数据处理
超强阵容实操教学, 0 基础 Flink 训练营免费抢报啦!
ApacheFlink 作为大数据计算领域冉冉升起的新星正散发着耀眼的光芒。它新鲜、它开源、它先进的架构设计象征着流式数据处理与批式数据处理融为一体的希望。越来越多的开发者加入到 Flink 小松鼠大本营,尝试用 Flink 来解决生产环境中的数据处理难题。
1118 0
超强阵容实操教学, 0 基础 Flink 训练营免费抢报啦!