实验背景介绍
了解更多2017云栖大会·北京峰会 TechInsight & Workshop.
本手册为云栖大会Workshop《云数据·大计算:快速搭建互联网在线运营分析平台》的《数据处理:数据建模与加工》篇而准备。主要阐述在使用DataWorks/MaxCompute过程中如何直读TableStore中的日志数据并进行加工、用户画像,学员可以根据本实验手册,去学习如何创建外部表、编写SQL。
实验涉及大数据产品
- 表格存储 Table Store
实验过程
必备条件:
- 开通表格存储服务Table Store,并在华北2区创建相应的实例
- 记录该次实验中使用的AK信息
- 下载此次用户数据Mock程序
获取AK
- 前往AK控制台 获取AK,由于该AK具有该云账户完全的权限,请妥善保管。
创建实例:
需要记录的信息为:实例名称,域名访问地址,由于也使用的MaxCompute的华北2区域,建议使用私网地址。
数据准备
1.根据不同的电脑环境,下载相应的数据Demo包
./workshop_demo_linux -h 会列出该demo的相关命令:
* prepare: 准备测试数据,创建数据表,根据conf中的用户数量,为用户生成一周的行为日志数据
* raw ${
userid} ${
date} ${
Top条数}: 查询指定用户的日志明细
* new/day_active/month_active/day_pv/month_pv:在结果表中查询上述几种类型的报表数据,(新增:new,日活:day_active,月活:month_active,日PV:day_pv,月PV:month_pv)
创建的表结构为:
原始日志数据表:user_trace_log:
列名 | 类型 | 说明 |
---|---|---|
* md5 | STRING | ‘用户uid的md5值 前8位’,表格存储主键 |
* uid | STRING | ‘用户uid’,表格存储主键 |
* ts | BIGINT | ‘用户操作时间戳’,表格存储主键 |
ip | STRING | 'ip地址', |
status | BIGINT | '服务器返回状态码' |
bytes | BIGINT | '返回给客户端的字节数' |
device | STRING | '终端型号' |
system | STRING | '系统版本 ios xxx/android xxx' |
customize_event | STRING | 自定义事件:登录/退出/购买/注册/点击/后台/切换用户/浏览 |
use_time | BIGINT | APP单次使用时长,当事件为退出、后台、切换用户时有该项 |
customize_event_content | STRING | 用户关注内容信息,在customize_event为浏览和评论时包含该列 |
分析结果表: analysis_result:
列名 | 类型 | 说明 |
---|---|---|
* metric | STRING | 报表的类型:'new', 'day_active', 'month_active', 'day_pv', 'month_pv',表格存储主键 |
* ds | STRING | 时间yyyy-mm-dd 或者 yyyy-mm,表格存储主键 |
num | BIGINT | 对应的数据值 |
2.配置Demo环境
1. 解压包,并进入解压目录
2. 编辑conf/app.conf, 根据实际情况修改如下字段:
* endpoint
* instanceName
* accessKeyId
* accessKeySecret
3.启动Demo准备测试数据
./workshop_demo_linux prepare
Prepare the metric data
Prepare User data
total insert data count is: 41766
用户明细查询
执行:
./workshop_demo_linux raw 00001 "2017-12-19" 20
结果如下:
需要注意,由于表格存储是SchemaFree结构,表的属性列不需要预先定义,customize_event 中不同的事件对应了不同的内容,故该demo中将 事件-内容做了对齐显示,例如 browse finance 表示浏览事件,对应的内容为金融类资讯, backstage 210 则表明此次切换到后台一共运行了210秒
报表结果查询
执行:
./workshop_demo_linux day_active"
结果如下:
下一步
到目前为止,原始数据收集完成,请进行《数据处理:数据建模与加工》篇,对数据进行分析。
完整课程信息:云数据·大计算:快速搭建互联网在线运营分析平台