北京云栖大会workshop:《数据接入:海量数据存储及实时访问》篇

本文涉及的产品
对象存储 OSS,20GB 3个月
云备份 Cloud Backup,100GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
简介: 本手册为北京云栖 Workshop《云数据·大计算:快速搭建互联网在线运营分析平台》的数据准备部分,介绍使用表格存储完成行为日志采集工作,并提供实时在线查询。

实验背景介绍

了解更多2017云栖大会·北京峰会 TechInsight & Workshop.

本手册为云栖大会Workshop《云数据·大计算:快速搭建互联网在线运营分析平台》的《数据处理:数据建模与加工》篇而准备。主要阐述在使用DataWorks/MaxCompute过程中如何直读TableStore中的日志数据并进行加工、用户画像,学员可以根据本实验手册,去学习如何创建外部表、编写SQL。

实验涉及大数据产品

实验过程

必备条件:

  • 开通表格存储服务Table Store,并在华北2区创建相应的实例
  • 记录该次实验中使用的AK信息
  • 下载此次用户数据Mock程序

获取AK

  • 前往AK控制台 获取AK,由于该AK具有该云账户完全的权限,请妥善保管。

创建实例:

  • 表格存储官网进行服务开通
  • 登录表格存储控制台

    在控制台上创建实例,在华北2创建实例(注意:实例名称为的整个区域唯一,建议为workshop-bj-随机数字),实例类型选择容量型与高性能实例均可。

_

需要记录的信息为:实例名称,域名访问地址,由于也使用的MaxCompute的华北2区域,建议使用私网地址。

数据准备

1.根据不同的电脑环境,下载相应的数据Demo包

./workshop_demo_linux -h 会列出该demo的相关命令:

* prepare: 准备测试数据,创建数据表,根据conf中的用户数量,为用户生成一周的行为日志数据
* raw ${
   userid} ${
   date} ${
   Top条数}: 查询指定用户的日志明细
* new/day_active/month_active/day_pv/month_pv:在结果表中查询上述几种类型的报表数据,(新增:new,日活:day_active,月活:month_active,日PV:day_pv,月PV:month_pv)

创建的表结构为:

原始日志数据表:user_trace_log:

列名 类型 说明
* md5 STRING ‘用户uid的md5值 前8位’,表格存储主键
* uid STRING ‘用户uid’,表格存储主键
* ts BIGINT ‘用户操作时间戳’,表格存储主键
ip STRING 'ip地址',
status BIGINT '服务器返回状态码'
bytes BIGINT '返回给客户端的字节数'
device STRING '终端型号'
system STRING '系统版本 ios xxx/android xxx'
customize_event STRING 自定义事件:登录/退出/购买/注册/点击/后台/切换用户/浏览
use_time BIGINT APP单次使用时长,当事件为退出、后台、切换用户时有该项
customize_event_content STRING 用户关注内容信息,在customize_event为浏览和评论时包含该列

分析结果表: analysis_result:

列名 类型 说明
* metric STRING 报表的类型:'new', 'day_active', 'month_active', 'day_pv', 'month_pv',表格存储主键
* ds STRING 时间yyyy-mm-dd 或者 yyyy-mm,表格存储主键
num BIGINT 对应的数据值

2.配置Demo环境

1. 解压包,并进入解压目录
2. 编辑conf/app.conf, 根据实际情况修改如下字段:
* endpoint
* instanceName
* accessKeyId
* accessKeySecret

3.启动Demo准备测试数据

./workshop_demo_linux prepare
Prepare the metric data
Prepare User data
total insert data count is: 41766

用户明细查询

执行:
./workshop_demo_linux raw 00001 "2017-12-19" 20

结果如下:

_

需要注意,由于表格存储是SchemaFree结构,表的属性列不需要预先定义,customize_event 中不同的事件对应了不同的内容,故该demo中将 事件-内容做了对齐显示,例如 browse finance 表示浏览事件,对应的内容为金融类资讯, backstage 210 则表明此次切换到后台一共运行了210秒

报表结果查询

执行:
./workshop_demo_linux day_active"

结果如下:
_

下一步

到目前为止,原始数据收集完成,请进行《数据处理:数据建模与加工》篇,对数据进行分析。

完整课程信息:云数据·大计算:快速搭建互联网在线运营分析平台

相关实践学习
消息队列+Serverless+Tablestore:实现高弹性的电商订单系统
基于消息队列以及函数计算,快速部署一个高弹性的商品订单系统,能够应对抢购场景下的高并发情况。
阿里云表格存储使用教程
表格存储(Table Store)是构建在阿里云飞天分布式系统之上的分布式NoSQL数据存储服务,根据99.99%的高可用以及11个9的数据可靠性的标准设计。表格存储通过数据分片和负载均衡技术,实现数据规模与访问并发上的无缝扩展,提供海量结构化数据的存储和实时访问。 产品详情:https://www.aliyun.com/product/ots
相关文章
|
存储 缓存 数据可视化
《Elastic(中国)产品应用实战》——五、10分钟内查询一个PB级的云存储(下)
《Elastic(中国)产品应用实战》——五、10分钟内查询一个PB级的云存储(下)
|
存储 缓存 固态存储
《Elastic(中国)产品应用实战》——五、10分钟内查询一个PB级的云存储(上)
《Elastic(中国)产品应用实战》——五、10分钟内查询一个PB级的云存储(上)
|
运维 资源调度 分布式计算
阿里云实时数仓Hologres通过中国信通院分布式分析型数据库性能评测,8192个节点刷新现有参评记录
阿里云实时数仓Hologres通过中国信通院分布式分析型数据库性能评测,8192个节点刷新现有参评记录。
1093 0
阿里云实时数仓Hologres通过中国信通院分布式分析型数据库性能评测,8192个节点刷新现有参评记录
|
分布式计算 NoSQL 大数据
北京Workshop准备条件:《云数据·大计算:快速搭建互联网在线运营分析平台》
本手册为云栖大会Workshop之《云计算·大数据:海量日志数据分析与应用》场的前提准备条件所需。主要为保障各位学员在workshop当天能够顺畅进行动手实操,那么本场需要各位学员再参加之前确保自己云账号已免费开通表格存储TableStore、大数据计算服务MaxCompute、DataWorks和Quick BI。
5977 0
北京Workshop准备条件:《云数据·大计算:快速搭建互联网在线运营分析平台》
|
监控 大数据 数据挖掘
阿里云MVP Meetup 《云数据·大计算:海量日志数据分析与应用》之《数据应用:数据服务》篇
本文主要阐述在使用DataWorks(数据工场)的过程中如何使用数据服务模块,快速将已生成的数据给用起来。此功能可用于快速将数仓中的结果表生成API,通过API给下游应用使用,或者通过API服务完成数据共享等。
1439 0
|
SQL 数据采集 关系型数据库
阿里云MVP Meetup 《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇
大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇
4050 0
|
SQL 数据采集 大数据
大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇
本手册为云栖大会Workshop《云计算·大数据:海量日志数据分析与应用》的《数据采集:日志数据上传》篇而准备。主要为保障各位学员在workshop当天能够顺畅进行动手实操,那么本节为学员掌握阿里云数据采集的操作和使用。
5835 0
|
数据采集 弹性计算 监控
2017云栖大会·杭州峰会:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:海量流式视频日志收集》篇
2017云栖大会·杭州峰会:《在线用户行为分析:基于流式计算的数据处理及应用》之《流数据采集:海量流式视频日志收集》篇
3420 0
|
数据采集 搜索推荐 数据挖掘
|
存储 监控 大数据
2018上海云栖大会workshop-函数计算解决金融行业异构报文处理示例
在金融行业里,不同的机构传输的数据报文格式千差外别,有的是日志格式,有的时候表格格式,有的csv格式,形式各式各样,千变万化的格式给统一处理系统带来不少麻烦,在传统的系统设计里,会设计存储报文的磁盘空间,处理服务器以及处理后的报文数据的数据库存储,哪么到了云时代,系统架构发生了很大的变化,今天我们结合对象存储,函数计算、日志服务以及表格存储来讲解整个业务处理过程。
1952 0