实验内容:
通过DataWorks对MaxCompute数仓中的派送订单数据进行分析,得到配送员的客户好评排行。
实验思路:
1、通过DataWorks将CSV文件数据同步到MaxCompute。
2、对数据进行分析得到结果。
实验目的:
通过本实验让学员掌握使用DataWorks同步本地数据到MaxCompute的方法,学习到以下知识点:
1、掌握使用DataWorks同步本地数据到MaxCompute的方法;
2、掌握使用DataWorks对MaxCompute数据进行分析的方法;
3、掌握DataWorks电子表格的使用方法。
实验步骤:
搜索框输入DataWorks,在搜索结果中点击大数据开发治理平台DataWorks,进入DataWorks控制台。
DataWorks上传的默认数据源为CSV文件,实验前需要先下载CSV文件。
https://university-labfileapp.oss-cn-hangzhou.aliyuncs.com/%E5%AE%8F%E9%B9%8F--%E5%A4%A7%E6%95%B0%E6%8D%AEACA/order_buy_list.csv
点击上传文件
DataWorks会自动解析上传的CSV数据,将number和mark类型设置为BIGINT属性,后面会对这两个字段进行统计处理,只有数值类型才可以统计。
点击【提交】将数据保存到 MaxCompute 数仓。
如下图所示,自动生成了一个临时文件,并自动生成了刚刚创建的 order_list 的 SQL语句
在 SQL 查询编辑页面临时文件中,删除上一步自动生成的 SQL 语句,输入以下 SQL 语句(保持sql产品名一致):
SELECT DISTINCT a.staffid
,a.dlivery
,(
SELECT sum(number) FROM u_vqdin61q_1696322645.order_list WHERE staffid = a.staffid
) AS total
,(
SELECT sum(mark) FROM u_vqdin61q_1696322645.order_list WHERE staffid = a.staffid
) AS credit
FROM u_vqdin61q_1696322645.order_list AS a
;
// DISTINCT 的语法,意思是过滤重复的数据,DISTINCT 字段名,代表过滤该字段名下的重复数据。
// SUM(字段名) 是统计、合计的语法,将该字段名下的所有数值相加
// AS 可以理解为重命名的意思,将表的名称重新命名。
点击按钮进入 DataWorks【电子表格】功能页面。
按配送订单量排序,点击 total 字段右侧的向下箭头按钮
降序效果如下图所示,可以看出田永峰的送单量最多
按好评分数排序,点击 credit 字段右侧的向下箭头按钮
效果如下图所示,可以看出张志勇的客户好评最高
统计好评率
统计出员工的客户好评率,客户分数除以订单数量
在最右侧增加一列,字段名为 percent。点击最右侧对应的空白列执行以下操作:在空白处输入=号,鼠标先点击左侧‘张志勇’的 credit 对应列,出现=D6,输入/,代表相除的意思,然后点击‘张志勇’的 total 对应列,会出现=D6/C6,然后按下回车键,会出现对应的比例值。
最后通过分析翟红良的好评率最高,其次为刘浩。
实验总结:
本次实验通过DataWorks将本地配送订单数据同步到MaxCompute数仓,然后用SQL对数据进行分析得到客户对员工的好评率。
实验使用了DataWorks的数据上传和电子表格功能,同时体验到了通过电子表格直接分析结果数据的便捷性。