一、实验简介
本教程基于大数据AI公共数据集(淘宝、飞猪、阿里音乐、Github、TPC等),快速完成大数据分析。
实验目标:
通过DataWorks+MaxCompute完成离线查询分析
通过Hologres完成外表加速查询分析
免费试用产品:
二、环境准备
开通大数据开发治理平台DataWorks
选择上海Region开通DataWorks免费试用
如果无法享受免费试用可以开通DataWorks按量付费
开通大数据计算引擎MaxCompute
选择上海Region开通MaxCompute免费试用
如果无法享受免费试用可以开通MaxCompute按量付费(可能产生费用)
开通实时数仓Hologres
选择上海Region开通Hologres免费试用
如果无法享受免费试用可以开通Hologres共享集群(湖仓加速版)(可能产生费用)
二、离线大数据查询分析
创建DataWorks工作空间并绑定MaxCompute
创建DataWorks工作空间
绑定MaxCompute计算引擎
前往DataWorks数据分析
https://da-cn-shanghai.data.aliyun.com/#/query
若左侧目录无数据集,请删除或在列表重新添加目录
阿里电商数据集分析
本数据集来源天池阿里移动推荐算法挑战赛,基于阿里巴巴100万条脱敏的真实商品数据,近12亿条记录,可以基于各类商品、操作、时间等字段,体验阿里云大数据分析能力。
在欢迎页打开默认SQL文件(若无欢迎页,请确认开通region为上海后,关闭所有便签页,从默认页面打开)
选择分析执行引擎MaxCompute
点击运行后查看结果
点击查看默认生成图表
Github事件数据集分析
大量开发人员在GitHub上进行开源项目的开发工作,并在项目的开发过程中产生海量事件。GitHub会记录每次事件的类型及详情、开发者、代码仓库等信息,并开放其中的公开事件,包括加星标、提交代码等。
打开动态更新-Github事件数据集-查看详情,在数据集详情页打开SQL示例文件
选择分析执行引擎MaxCompute,运行查看结果
自定义数据集分析
单击任意表,打开表详情页,查看字段信息
点击生成SQL语句,并运行,进行数据预览
新建SQL文件,撰写自定义SQL语句,进行自由分析
基于MaxCompute引擎分析需要在每个文件执行打开MaxCompute三层模型开关
SET odps.namespace.schema=true;---打开MaxCompute三层模型
四、外表加速查询分析
前往Hologres管控台,新增数据库
选择购买的示例,输入数据库名称,选择SPM(简单模式)
在Holoweb-元数据管理中,登录数据库
在Holoweb-SQL编辑器中,复制以下SQL,无需将数据导出至Hologres,即可通过外表加速查询能力(Hologres配置越高,查询速度越快)
----本示例可以基于公共数据集统计淘宝活跃下单时间并排序IMPORT FOREIGN SCHEMA "bigdata_public_dataset#commerce"LIMIT to (commerce_ali_e_commerce)FROM SERVER odps_server INTO public OPTIONS(if_table_exist 'update',if_unsupported_type 'error');---创建Hologres外表SET odps.namespace.schema=true;---打开MaxCompute三层模型SELECT CASE WHEN SUBSTR(behavior_time,12)::int>=0AND SUBSTR(behavior_time,12)::int<=3 THEN '0点-3点' WHEN SUBSTR(behavior_time,12)::int>=4AND SUBSTR(behavior_time,12)::int<=7 THEN '4点-7点' WHEN SUBSTR(behavior_time,12)::int>=8AND SUBSTR(behavior_time,12)::int<=11 THEN '8点-11点' WHEN SUBSTR(behavior_time,12)::int>=12AND SUBSTR(behavior_time,12)::int<=15 THEN '12点-15点' WHEN SUBSTR(behavior_time,12)::int>=16AND SUBSTR(behavior_time,12)::int<=19 THEN '16点-19点' WHEN SUBSTR(behavior_time,12)::int>=20AND SUBSTR(behavior_time,12)::int<=23 THEN '20点-23点' END AS 下单时间 ,COUNT(*)AS 订单数---统计订单总数FROM commerce_ali_e_commerce GROUPBY 下单时间 ORDERBYCOUNT(*)DESCLIMIT100
三、后续体验
除了数据分析,DataWorks还包含了数据建模、数据集成、数据开发、数据调度、数据运维、数据地图、数据质量、数据治理、数据安全、数据服务等众多大数据开发治理平台能力,帮助企业快速构建大数据平台,可参考文档《零售电子商务数仓搭建》