一、实验背景介绍
大数据计算服务(MaxCompute,原名 ODPS)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入大数据计算服务(MaxCompute,原名 ODPS)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。本实验结合实际数据和案例,深入浅出的演示了如何使用MaxCompute的内置函数。
完成此实验后,可以掌握的内置函数有:
1. 数值类函数; 2. 字符串类函数; 3. 日期类函数;
二、实验环境架构
实验环境架构:阿里云大数据计算服务MaxCompute
第 1 章:实验准备
1.1 申请MaxCompute资源
请点击页面左侧的 ,在左侧栏中,查看本次实验资源信息。 maxcompute申请MaxCompute资源 MAXCOMPUTE 在弹出的左侧栏中,点击 创建资源 按钮,开始创建实验资源。 资源创建过程需要1-3分钟。完成实验资源的创建后,用户可以通过 实验资源 查看实验中所需的资源信息,例如:阿里云账号等。
1.2 开通服务
(本实验用到odps客户端,创建资源之前确保本地安装了java8或者以上版本) Java下载地址:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html 1)点击【实验资源】,查看本次实验资源信息(MaxCompute资源)。 2)在弹出的左侧栏中,点击 【创建资源】按钮,开始创建实验资源。 如下图:
注意:实验环境一旦开始创建则进入计时阶段,建议学员先基本了解实验具体的步骤、目的,真正开始做实验时再进行创建。 3)创建资源,如下图:(创建资源需要几分钟时间,请耐心等候……) 4)资源创建成功后,可通过【实验资源】查看实验中所需的实验资源信息。如下图:
注意:在本地保存下阿里云账号信息,包括资源中的项目名称、企业别名、子用户名称、子用户密码、AK ID、AK Secret等信息。 沙箱实验环境说明:
企业别名:即主账号ID;
子用户名称和子用户密码:登录实验环境的账号;
AK ID和AK Secret:系统为当前用户分配的登录验证密钥信息,配置odps客户端时需要;
控制台url:登录实验开发环境的地址; 5)点击页面左侧的【控制台url】,复制链接,在新的窗口打开,跳转到登录页。
6)在登录页,输入【实验资源】中提供的账号,格式为:子用户名称@企业别名,再点击【下一步】。 7)输入【实验资源】中提供的的“子用户密码”,点击【登录】 8)登陆后,进入【管理控制台】界面, 点击左侧菜单栏 【大数据(数加)】,再点击【DataWorks】,进入数据开发概览页。
1.3 创建项目
沙箱环境已经默认创建完项目,点击【进入数据开发】即可。
本小节以下步骤供使用个人账号实验参考。
开通MaxCompute后,点击【管理控制台】
选中MaxCompute服务,选择【按量付费】,然后点击【下一步】
填写项目相关信息:输入“项目名称”(全局唯一)、“显示名”以及“项目描述” 信息,然后点击【创建项目】。
项目创建成功后,点击【进入数据开发】:】
打开【数据开发】页
1.4 安装配置odpscmd客户端
步骤1:客户端下载 (本实验已经提供好客户端,自行下载附件)
步骤2:解压odpscmd_public.zip 到本地目录,密码:aca21104 如:解压至E:\ODPS_DEMO
步骤3:查看本次实验课用到的介质,可以看到如下的文件夹:
步骤4:在conf文件夹中有odps_config.ini文件。鼠标右键编辑此文件,配置相关信息:
说明: project_name=<对应实验资源中的项目名称> access_id=<对应实验资源中的AK ID> access_key=<对应实验资源中的AK Secret> end_point=http://service.odps.aliyun.com/api(默认) tunnel_endpoint=http://dt.odps.aliyun.com (默认) log_view_host=http://logview.odps.aliyun.com(默认) https_check=true (默认)
步骤5:修改好配置文件后,鼠标双击运行bin目录下的odpscmd(在Linux系统下是./bin/odpscmd,Windows下运行./bin/odpscmd.bat),现在可以运行 MaxCompute 命令,如:
注意:项目可以随时根据情况切换,上图表示环境设置成功.
1.5 测试表dual准备
在【临时查询】页面,点击【新建】,然后点击【QDPS SQL】
输入“节点名称”,选择“目标文件夹”,然后点击【提交】。
面,进行脚本开发,创建实验测试表dual,点击【运行】。
SQL语句:
CREATE TABLE dual (
id BIGINT
)
LIFECYCLE 10000;
然后查看运行日志日志显示测试表创建成功。
往测试表里插入一条数据,输入SQL语句,点击【运行】。
insert into table dual select count(1) from dual;
查看测试表数据内容,输入SQL语句,点击【运行】。:
select * from dual limit 10;
1.6 测试表t_dml准备
进入脚本编辑页面,进行脚本开发,创建实验测试表t_dml,点击【运行】
create table t_dml ( detail_id bigint, sale_date datetime, province string, city string, product_id bigint, cnt bigint, amt double );
然后查看运行日志显示测试表创建成功。
打开odpscmd客户端交互界面
执行命令,加载数据 t_dml.csv,(注意修改数据文件存放路径):
tunnel upload f:\data\t_dml.csv t_dml;
查看数据表数据:输入sql语句,点击【运行】,查看结果。
select * from t_dml limit 10;
1.7 测试表t_product准备
进入脚本编辑页面,进行脚本开发,创建实验测试表t_product,点击【运行】。
create table t_product (product_id bigint, product_name string, category_id bigint, category_name string, price double);
然后查看运行日志显示测试表创建成功。
打开odpscmd客户端交互界面
加载数据 t_product.csv,注意文件路径:
tunnel upload f:\data\t_product.csv t_product;
查看数据表数据,输入sql,点击【运行】。
select * from t_product limit 10;
1.8 测试表t_sign准备
进入脚本编辑页面,进行脚本开发,创建实验测试表t_sign,点击【运行】。
create table t_sign (id bigint, name string, height double, is_female boolean, birth_day datetime);
测试表创建成功
进入odpscmd客户端交互界面 执行命令,加载数据 t_sign.csv:
tunnel upload f:\data\t_sign.csv t_sign;
查看数据表数据,输入sql, 点击【运行】
select * from t_sign limit 10;