4.互联网、电商离线大数据分析最佳实践(一)|学习笔记

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 快速学习4.互联网、电商离线大数据分析最佳实践

开发者学堂课程【DataWorks一站式大数据开发治理平台精品课程:4.互联网、电商离线大数据分析最佳实践】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1252


4.互联网、电商离线大数据分析最佳实践(一 )

内容介绍

一、场景描述

二、实现架构

三、MaxCompute产品介绍

四、MaxCompute五大产品特性

五、MaxCompute优缺点

六、方案优势

七、操作

一、场景描述

电商网站销售数据通过大数据分析后将业务指标数据在大屏幕上展示,如销售指标、客户指标、销售排名、订单地区分布等。大屏上销售数据可视化动态展示,效果震撼,触控大屏支持用户自助查询数据,极大地增强数据的可读性。通过 maxcompute 里面进行一个etl,最后把数据通过 datav 展示出来。有一些场景满足7+1的这些需求就可以,没有特别实时性的要求,可就可以使用这个方案,也可以降低计算的成本。

1、适用场景

电商网站数据看板

全国/全球业务态势分析

互联网金融风险数据监控

最后通过阿里云组合的使用,搭建以下这种数据看板。

2、行业标签

这个方案是通过电商网站进行模拟的,实际上这个方案是一个通用的

方案

基本上可以应用在其他的行业,互联网、新零售、金融、通用,都是

针对离线场景做的。

3、产品标签

MaxCompute、RDS、ECS、Dataworks.DataV、VPC、EIP 等。


二、实现架构

架构说明

1、用户订单等数据同步到 MaxCompute.

2、通过 Dataworks 对原始数据进行处理并形成开放API。

3、需要展示的结果数据以API的形式通过 DataV 在大屏上展示。

是阿里云技术产品事业部业务支撑平台的解决方案架构师闲逛,下午跟分享的是互联网电商一线大数据分析首先会给介绍离线大数据分析的一个基本的业务场景,主要是会通过线上实操的方式完整的搭建这样的一套线上的环境通过 stepbystep 的一个操作,带着看这离线大数据分析如何通过阿里云的产品来实现。

4、首先有一个电商网站的 demo 的环境,对于自己线上的系统,肯定有自己的一套系统,对于如果要做 PoC 的测试,快速的做模拟,这里面提供了一个电商网站搭建的教程,主要是通过前端的SlV作为一个负债均衡来,应用部署在的ecs上,后端的数据库用的res,非常简单的电商的一套业务系统,数据分析的这一部分,把业务数据放到rds里面,如果有日志可以放到的日志服务里面,这些数据业务数据日志数据都可以通过 maxcompute 通过 dataworks的di,数据集成的功能,把它同步到 maxcompute 里面,用 maxcompute 做大数据的数仓,再使用 dataworks 对数据进行 etl 进行处理,处理完了结果数据再写到 maxcompute。再使用 dataworks 里面的数据服务,开发 openAPI,openAPI 对接 datav,用 datav展示,这里面除了对接 datav,像有自己的业务系统,需要对接的数据,就可以使用数据服务里面包装openAPI,提供服务,比如应用需要调用数据的API,都可以试用到这个场景,报表展示出用 datav,这里面也可以使用,比如跟di的分析,也可以对接的 quickbi,都是可以使用的一个方案。

三、MaxCompute产品介绍

MaxCompute 向用户提供了丰富的大数据开发工具、完善的数据导入导出方案以及多种经典的分布式计算模型。能够最快速地解决用户海量数据计算问题,有效降低企业大数据计算平台的总体拥有成本,提高大数据应用开发效率,并保障数据在云计算环境的安全。

产品特点

1.云原生服务架构:

1.全托管的 Serverless、多租户模式,作业级别的自动弹性伸缩,免平台运维及配置调优势。

2.支持按作业付费、预占计算资源付费、打包套餐等多种付费方案,满足最灵活的客户购买需求。

3.多功能:

提供SQL/MR/Spark/机器学习/图计算等多种计算能力,避免为计算而

搬数据。

4.高性能计算引擎:

随若数据规模的增加,性能线性增长,超越竞品的性能优势。

5.安全的数据平台:

原生的多租户系统,以项目进行隔离;所有计算任务在安全沙箱中运

行,支持ACL+Policy+Label细粒度授权,支持数据KM加密,支持行为

审计(即将发布)。

6.生态开放:

高度兼容 Hive、支持原生的 Spark 应用、支持 Python 生态(PyODPS)、第三方BI工具。

7.企业级管理能力:

完整的批量(Tunnel)/实时(Datahub)数据接入能力、Dataworks数据开发/应用生产运维/数据管理数据质量,快速构建企业级数据服务

平台。

目前在 dataworks 里面支持的最小的调度时间是5分钟,在针对除了t+1场景之外,如果是业务上需要更短的时间,可以做到5分钟的延时,maxcompute 里面的最大优势,是能够针对海量的数据做计算存储,能够支持到1b级别数据。它能够降低企业总体的开发速度,因为它是一套免运维的全托管大数据的数仓,也支持了非常丰富的付费括开源生态的产品,按需求付费或者预付费都可以支持的,能够对接阿里云包括开源生态的产品,能够支持odpssql、maxcompute、图计算、spark、交互式分析 hologres 这样的产品都能够直接进行对接。比如要做自定义的开发,能够使用 Java 或者 Python 做开发,都是高度兼容各个生态的,包括阿里云的产品和开源生态的产品。

相关实践学习
DataV Board用户界面概览
本实验带领用户熟悉DataV Board这款可视化产品的用户界面
阿里云实时数仓实战 - 项目介绍及架构设计
课程简介 1)学习搭建一个数据仓库的过程,理解数据在整个数仓架构的从采集、存储、计算、输出、展示的整个业务流程。 2)整个数仓体系完全搭建在阿里云架构上,理解并学会运用各个服务组件,了解各个组件之间如何配合联动。 3 )前置知识要求   课程大纲 第一章 了解数据仓库概念 初步了解数据仓库是干什么的 第二章 按照企业开发的标准去搭建一个数据仓库 数据仓库的需求是什么 架构 怎么选型怎么购买服务器 第三章 数据生成模块 用户形成数据的一个准备 按照企业的标准,准备了十一张用户行为表 方便使用 第四章 采集模块的搭建 购买阿里云服务器 安装 JDK 安装 Flume 第五章 用户行为数据仓库 严格按照企业的标准开发 第六章 搭建业务数仓理论基础和对表的分类同步 第七章 业务数仓的搭建  业务行为数仓效果图  
相关文章
|
4月前
|
数据采集 SQL DataWorks
【颠覆想象的数据巨匠】DataWorks——远超Excel的全能数据集成与管理平台:一场电商数据蜕变之旅的大揭秘!
【8月更文挑战第7天】随着大数据技术的发展,企业对数据处理的需求日益增长。DataWorks作为阿里云提供的数据集成与管理平台,为企业提供从数据采集、清洗、加工到应用的一站式解决方案。不同于桌面级工具如Excel,DataWorks具备强大的数据处理能力和丰富的功能集,支持大规模数据处理任务。本文通过电商平台案例,展示了如何使用DataWorks构建数据处理流程,包括多源数据接入、SQL任务实现数据采集、数据清洗加工以提高质量,以及利用分析工具挖掘数据价值的过程。这不仅凸显了DataWorks在大数据处理中的核心功能与优势,还展示了其相较于传统工具的高扩展性和灵活性。
150 0
|
弹性计算 分布式计算 运维
4.互联网、电商离线大数据分析最佳实践(一)|学习笔记
快速学习4.互联网、电商离线大数据分析最佳实践
390 0
|
存储 搜索推荐 Serverless
《云上社交行业技术服务白皮书》——第三章 云上社交典型场景与架构——3.1 通用大社交媒体——3.1.1 文字与图像社交(上)
《云上社交行业技术服务白皮书》——第三章 云上社交典型场景与架构——3.1 通用大社交媒体——3.1.1 文字与图像社交(上)
408 0
|
机器学习/深度学习 运维 Cloud Native
《云上社交行业技术服务白皮书》——第三章 云上社交典型场景与架构——3.1 通用大社交媒体——3.1.1 文字与图像社交(下)
《云上社交行业技术服务白皮书》——第三章 云上社交典型场景与架构——3.1 通用大社交媒体——3.1.1 文字与图像社交(下)
436 0
|
分布式计算 MaxCompute
《基于MaxCompute构建Noxmobi全球化精准营销系统_多点_杨洋》电子版地址
基于MaxCompute构建Noxmobi全球化精准营销系统_多点_杨洋
98 0
《基于MaxCompute构建Noxmobi全球化精准营销系统_多点_杨洋》电子版地址
|
分布式计算 DataWorks 数据可视化
4.互联网、电商离线大数据分析最佳实践(三)|学习笔记
快速学习4.互联网、电商离线大数据分析最佳实践
4.互联网、电商离线大数据分析最佳实践(三)|学习笔记
|
存储 分布式计算 运维
飞天大数据产品价值解读——SaaS 模式云数据仓库 MaxcCompute(二)| 学习笔记
快速学习飞天大数据产品价值解读——SaaS 模式云数据仓库 MaxcCompute(二),介绍了飞天大数据产品价值解读——SaaS 模式云数据仓库 MaxcCompute(二)系统机制, 以及在实际应用过程中如何使用。
飞天大数据产品价值解读——SaaS 模式云数据仓库 MaxcCompute(二)| 学习笔记
|
存储 SQL 分布式计算
4.互联网、电商离线大数据分析最佳实践(二)|学习笔记
快速学习4.互联网、电商离线大数据分析最佳实践
|
移动开发 小程序 数据挖掘
大合集!互联网行业常用数据分析指标
大家好,我是爱学习的小xiong熊妹。 上一篇讲到,数据分析的8大步骤里,找指标是非常重要的一步。通过这一步,把一个具体业务描述,转化为一个可以通过数据量化分析的问题。 理论上,分析指标要根据具体业务场景来设计。但这样操作起来太复杂,很多小伙伴会问:有没有常用的指标,能直接拿来套用?今天就跟大家盘点下,互联网行业的常用指标。
853 0
大合集!互联网行业常用数据分析指标