大数据workshop:《在线用户行为分析:基于流式计算的数据处理及应用》之《实时数据分析:海量日志数据多维透视》篇

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 本手册为云栖大会Workshop之《在线用户行为分析:基于流式计算的数据处理及应用》场的《实时数据分析:海量日志数据多维透视》篇所需。主要帮助现场学员熟悉并掌握阿里云数加·分析型数据库AnalyticDB的操作和使用。

实验背景介绍

了解更多2017云栖大会·成都峰会 TechInsight & Workshop.

本手册为云栖大会Workshop之《在线用户行为分析:基于流式计算的数据处理及应用》场的《实时数据分析:海量日志数据多维透视》篇所需。主要帮助现场学员熟悉并掌握阿里云数加·分析型数据库AnalyticDB的操作和使用。

实验涉及大数据产品

前提准备

必备条件:确保已经获取到实验所需的阿里云账号和密码。

创建AnalyticDB表

通过DMS创建AnalyticDB数据表可以通过可视化建表和SQL窗口建表两种模式。

1.可视化建表

  • step1:进入DMS for AnalyticDB并使用阿里云账号进行登录。
  • step2:选择进入区域华北2,继而点击操作栏中的进入,进入workshop_demo数据库。

进入ADS

  • step3:根据自己获取的阿里云账号后三位数字选择进入对应表组。

【说明】如当前云账号为train00620@aliyun-inc.com,那么选择进入表组workshop_620。

  • step4:右键对应的表组,选择新建表进入可视化创建表模式。

选择新建表

  • step5:配置表名、字段名称、数据类型、主键,选择对应表组、一级分区列和更新方式,如下图所示。

其中表组选择自己云账号对应的表组,一级分区列选择为pv_time,分区方式中的哈希分区数为8.

表属性中表组选择自己账号所对应的表组,表名为pv_abc(abc同为账号后三位数字),如pv_day_620。因为表名在同一个AnalyticDB数据库中应全局唯一。

配置表

  • step6:在新建表页面底部,点击保存按钮。
  • step7:在提交变更弹出框中点击确定按钮,直至提示“变更执行成功”,如下图。

提交创建表

创建表成功

2.通过SQL窗口创建表

也可以通过DDL模式创建天浏览量pv的表,pv_day_abc(同上,abc为账号后三位数字)。

  • step1:点击顶部菜单栏中的SQL窗口,进入DDL模式。

SQL窗口

  • step2:在SQL窗口中依次复制并执行如下SQL代码。

执行SQL

建表SQL如下:(其中需要注意自己的表名、一级分区列以及建表所属的表组tablegroup属性。)

--统计当天实时浏览量pv
CREATE TABLE pv_day_620 (
pv_time varchar NOT NULL , 
pv_count bigint NOT NULL , 
primary key (pv_time)
) 
PARTITION BY HASH KEY(pv_time) PARTITION NUM 8
TABLEGROUP workshop_620
OPTIONS(UPDATETYPE='realtime')
;
  • step3:右键对应的表组,选择刷新查看已经创建成功的表。

刷新SQL


由于时间关系,关于区域访问量、按照小时统计浏览量、按设备统计浏览量和统计请求来源量的建表将不在此进行动手操作,但是讲师会给大家讲解。workshop结束后,会将所有指标统计过程的代码开发给大家进行体验。

>>>点击进入《流数据处理:通过StreamSQL分析用户行为》篇

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
12天前
|
机器学习/深度学习 算法 数据挖掘
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
本文介绍了2023年第二届钉钉杯大学生大数据挑战赛初赛A题的Python代码分析,涉及智能手机用户监测数据分析中的聚类分析和APP使用情况的分类与回归问题。
27 0
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
|
11天前
|
存储 数据可视化 数据挖掘
大数据环境下的房地产数据分析与预测研究的设计与实现
本文介绍了一个基于Python大数据环境下的昆明房地产市场分析与预测系统,通过数据采集、清洗、分析、机器学习建模和数据可视化技术,为房地产行业提供决策支持和市场洞察,探讨了模型的可行性、功能需求、数据库设计及实现过程,并展望了未来研究方向。
大数据环境下的房地产数据分析与预测研究的设计与实现
|
3天前
|
数据采集 数据可视化 算法
GitHub星标68K!Python数据分析入门手册带你从数据获取到可视化
Python作为一门优秀的编程语言,近年来受到很多编程爱好者的青睐。一是因为Python本身具有简捷优美、易学易用的特点;二是由于互联网的飞速发展,我们正迎来大数据的时代,而Python 无论是在数据的采集与处理方面,还是在数据分析与可视化方面都有独特的优势。我们可以利用 Python 便捷地开展与数据相关的项目,以很低的学习成本快速完成项目的研究。
|
5天前
|
数据采集 数据可视化 算法
GitHub星标68K!Python数据分析入门手册带你从数据获取到可视化
Python作为一门优秀的编程语言,近年来受到很多编程爱好者的青睐。一是因为Python本身具有简捷优美、易学易用的特点;二是由于互联网的飞速发展,我们正迎来大数据的时代,而Python 无论是在数据的采集与处理方面,还是在数据分析与可视化方面都有独特的优势。我们可以利用 Python 便捷地开展与数据相关的项目,以很低的学习成本快速完成项目的研究。 今天给小伙伴们分享的这份Python数据分析入门手册本着实用性的目的,着眼于整个数据分析的流程,介绍了从数据采集到可视化的大致流程。
|
5天前
|
消息中间件 数据采集 JSON
大数据 - DWD&DIM 行为数据
大数据 - DWD&DIM 行为数据
16 1
|
10天前
|
供应链 数据可视化 数据挖掘
【python】python省市水资源数据分析可视化(源码+数据)【独一无二】
【python】python省市水资源数据分析可视化(源码+数据)【独一无二】
|
8天前
|
数据可视化 数据挖掘 数据处理
【python】python农产品数据分析可视化(源码+论文+数据)【独一无二】
【python】python农产品数据分析可视化(源码+论文+数据)【独一无二】
|
9天前
|
数据可视化 数据挖掘 Python
【python】python学生成绩数据分析可视化(源码+数据+论文)【独一无二】
【python】python学生成绩数据分析可视化(源码+数据+论文)【独一无二】
|
10天前
|
数据可视化 算法 数据挖掘
【python】商业数据聚类-回归数据分析可视化(源码+数据)【独一无二】
【python】商业数据聚类-回归数据分析可视化(源码+数据)【独一无二】
|
10天前
|
机器学习/深度学习 数据可视化 API
【python】python基于tushare股票数据分析可视化(源码+数据+报告)【独一无二】
【python】python基于tushare股票数据分析可视化(源码+数据+报告)【独一无二】

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute