新手入门赛-(o2o)数加平台使用教程(下)|学习笔记

简介: 快速学习新手入门赛-(o2o)数加平台使用教程(下)

开发者学堂课程【天池大赛算法教程及获奖选手答辩 新手入门赛-(o2o)数加平台使用教程(下)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/389/detail/4998


新手入门赛-(o2o)数加平台使用教程(下) 


目录:

一、数加平台简介

二、阿里云数加平台的两个入口

三、掌握平台的工具栏

 

一、数加平台简介

阿里云数加平台

阿里云数加平台(里云大数据平台,简称数加)提供大数据存储,计算、安全工具和服务等基础设施及行业解决方案,1

楼,帮助客户加大数据基础建设,包含计算数据开发、B系统、机器学习、可视化定向运营个性化推荐智能算

并结合行业服务商,提供气象电力、交通营销O20、游戏、多媒体,宏观经济分析等行业大数据解决方案

 

二、阿里云数加平台的两个入口

1.数据开发平台

数据开发平台是一套基于工作流的集成开发环境,支持 SOL MapReduce 等常见数据开发工具,可以进行数据分析处理及简单的算法开发。

2.机器学习平台

机器学习平台是一套专业的可视化算法集成开发环境采用工作流模式,通过施及配置件即可完成一个型训练或者预测,支持主流机器学习算法。

功能上几乎一样。

进入平台之前,看一下账号的问题。每个人会分配不同的 RAM 账号进行登陆。

接下来进入数据开发平台,有两个不同界面,点击 RAM 用户登录,就可以填写账号密码登陆。

注意阿里云账号(天池账号)和 RAM 账号的区别,阿里云账号一样可以登录数加系统,不过只是一个普通的阿里云个人用户。

而 RAM 账号才是天池竞赛的组织系统。

登录以后就可以进入数加平台了,这里就是数据开发平台的界面。

1.这里新建目录和脚本文件,在脚本里就可以写 SQL 代码并执行了。这里的数据是一个队伍共享的,一个共享文档可以共同编辑,很方便。

2.时时保存不能忘,这里无自动保存功能,要是直接关闭浏览器,下次进来就什么都没有了。

3.项目前缀。原始数据都是这样在,带有项目前缀,具体可以在赛题和数据“那里查到对应的项目前缀。

接下来比较重要的是右上角的帮助文档,可以让大家快速掌握 ODPS。左上方有一个项目选择的包,每一个比赛都有一个项目空间,对于天池比赛,就会有一排的项目空间,只有选择正确的项目空间,才能访问到数据。

有一个机器学习平台的按钮。首先会看到租户及空间选择的页面,需要选择正确的项目空间。

进入机器学习平台首页,学习平台又叫兀平台,上面有一些案例,对于新人同学快去掌握组建的功能。

 

三、掌握平台的工具栏

1.实验

实验对于数据开发平台对应的就是脚本文件,一个实验,有很多组建组成,每一个组建都是一张表,那我们看一个SQL脚本的建,读取语句储存到表当中。

数据源

所有的表储存在数据源中。

组建

有很多组建供我们选用,这样可以让我们快速完成一些复杂的功能。

模型

如果是选择机器学习的模型,那么训练好的模型就会存放在模型里。

工作空间

可以快速更改对应比赛的工作空间,才能够正确读取并保存数据。

右上角是平台使用的功能,例如缩放,居中等。

2、平台的优点和缺点

优点

◆表之间的逻辑可视化,清晰明了

◆同一个页面上可以多组件并行计算,比数据平台方使

◆右健菜单可以快速查看100行数据

◆有很多组件,参数设置界面图形化,会比数据开发平台方便很多

◆起名困难症患的福音

缺点

◆无法导出,代码自己留存不易。语句总是写在单独的代码中。

◆队友无法查看

◆组件的 bug 比使用命令行要多

数加平台简单实例

第一步,讲数据表保存到本地,由于平台无法读取带前缀的表,只能在数据开发完成。

第二步,创建新建实验,读取数据。数据源选取一样。在表选择里填写。

第三步,使用 SQL 进行操作。

3、数据分析

三张表读入,第一个是用户的 uid,很容易统计出每个 ID 在表中出现的数量和相互的关系。第二个是优惠券的类型,进行展开。

滑窗数据划分

按时间段对原始数据进行区分,相互对应。

4.特征工程

把一类一类特征做成特征表,平台写 SQL 语句的优势显示出来,十分清晰。左侧是把特征 Join 到一起,右侧一类历史统计特征,一类 leakage 特征。最后放在一起得到特征表,进行训练。

5.模型训练

1. 自身切分测试

2. 线下滑窗测试

3. 预测提交

所有组建都是现成的,都可以在平台找到使用。可能平台组建不是非常全面,但未来会不断完善。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
网络协议 架构师 Linux
云架构师进阶攻略(完整版)-3
云架构师进阶攻略(完整版)
142 0
|
缓存 监控 Kubernetes
云架构师进阶攻略(完整版)-6
云架构师进阶攻略(完整版)
129 0
|
运维 架构师 网络协议
云架构师进阶攻略(完整版)-2
云架构师进阶攻略(完整版)
101 0
云架构师进阶攻略(完整版)-2
|
存储 运维 Kubernetes
云架构师进阶攻略(完整版)-4
云架构师进阶攻略(完整版)
148 0
|
分布式计算 资源调度 搜索推荐
云架构师进阶攻略(完整版)-5
云架构师进阶攻略(完整版)
|
存储 缓存 人工智能
云架构师进阶攻略(完整版)-1
云架构师进阶攻略(完整版)
232 0
云架构师进阶攻略(完整版)-1
|
SQL 机器学习/深度学习 分布式计算
新手入门赛-(o2o)数加平台使用教程(上)|学习笔记
快速学习新手入门赛-(o2o)数加平台使用教程(上)
122 0
|
弹性计算 缓存 安全
冬季实战营第二期:Linux操作系统实战入门全流程
冬季实战营第二期:Linux操作系统实战入门全流程
113 0
冬季实战营第二期:Linux操作系统实战入门全流程
|
NoSQL Java 关系型数据库
|
人工智能 前端开发 物联网
平头哥智能语音最佳应用实践 | 开发者社区精选文章合集(二十八)
随着社会未来向智能化的逐渐发展,数字化的趋势也愈加确定无疑的。智能语音技术的发展,优化了产品的便捷体验,让越来越多的企业和终端用户看到了“智能生活”的增长空间。
平头哥智能语音最佳应用实践 | 开发者社区精选文章合集(二十八)

热门文章

最新文章