开发者学堂课程【DataWorks一站式大数据开发治理平台精品课程:4.互联网、电商离线大数据分析最佳实践】与课程紧密联系,让用户快速学习知识
课程地址:https://developer.aliyun.com/learning/course/81/detail/1252
4.互联网、电商离线大数据分析最佳实践(一 )
内容介绍
一、场景描述
二、实现架构
三、MaxCompute产品介绍
四、MaxCompute五大产品特性
五、MaxCompute优缺点
六、方案优势
七、操作
一、场景描述
电商网站销售数据通过大数据分析后将业务指标数据在大屏幕上展示,如销售指标、客户指标、销售排名、订单地区分布等。大屏上销售数据可视化动态展示,效果震撼,触控大屏支持用户自助查询数据,极大地增强数据的可读性。通过 maxcompute 里面进行一个etl,最后把数据通过 datav 展示出来。有一些场景满足7+1的这些需求就可以,没有特别实时性的要求,可就可以使用这个方案,也可以降低计算的成本。
1、适用场景
电商网站数据看板
全国/全球业务态势分析
互联网金融风险数据监控
最后通过阿里云组合的使用,搭建以下这种数据看板。
2、行业标签
这个方案是通过电商网站进行模拟的,实际上这个方案是一个通用的
方案
基本上可以应用在其他的行业,互联网、新零售、金融、通用,都是
针对离线场景做的。
3、产品标签
MaxCompute、RDS、ECS、Dataworks.DataV、VPC、EIP 等。
二、实现架构
架构说明
1、用户订单等数据同步到 MaxCompute.
2、通过 Dataworks 对原始数据进行处理并形成开放API。
3、需要展示的结果数据以API的形式通过 DataV 在大屏上展示。
是阿里云技术产品事业部业务支撑平台的解决方案架构师闲逛,下午
跟分享的是互联网电商一线大数据分析首先会给介绍离线大数据分
析的一个基本的业务场景,主要是会通过线上实操的方式完整的搭建
这样的一套线上的环境通过 stepbystep 的一个操作,带着看这离
线大数据分析如何通过阿里云的产品来实现。
4、首先有一个电商网站的 demo 的环境,对于自己线上的系统,肯定
有自己的一套系统,对于如果要做 PoC 的测试,快速的做模拟,这里面提供了一个电商网站搭建的教程,主要是通过前端的SlV作为一个负债均衡来,应用部署在的ecs上,后端的数据库用的res,非常简单的电商的一套业务系统,数据分析的这一部分,把业务数据放到rds里面,如果有日志可以放到的日志服务里面,这些数据业务数据日志数据都可以通过 maxcompute 通过 dataworks的di,数据集成的功能,把它同步到 maxcompute 里面,用 maxcompute 做大数据的数仓,再使用 dataworks 对数据进行 etl 进行处理,处理完了结果数据再写到 maxcompute。再使用 dataworks 里面的数据服务,开发 openAPI,openAPI 对接 datav,用 datav展示,这里面除了对接 datav,像有自己的业务系统,需要对接的数据,就可以使用数据服务里面包装openAPI,提供服务,比如应用需要调用数据的API,都可以试用到这个场景,报表展示出用 datav,这里面也可以使用,比如跟di的分析,也可以对接的 quickbi,都是可以使用的一个方案。
三、MaxCompute产品介绍
MaxCompute 向用户提供了丰富的大数据开发工具、完善的数据导入导出方案以及多种经典的分布式计算模型。能够最快速地解决用户海量数据计算问题,有效降低企业大数据计算平台的总体拥有成本,提高大数据应用开发效率,并保障数据在云计算环境的安全。
产品特点
1.云原生服务架构:
1.全托管的 Serverless、多租户模式,作业级别的自动弹性伸缩,免平台运维及配置调优势。
2.支持按作业付费、预占计算资源付费、打包套餐等多种付费方案,满足最灵活的客户购买需求。
3.多功能:
提供SQL/MR/Spark/机器学习/图计算等多种计算能力,避免为计算而
搬数据。
4.高性能计算引擎:
随若数据规模的增加,性能线性增长,超越竞品的性能优势。
5.安全的数据平台:
原生的多租户系统,以项目进行隔离;所有计算任务在安全沙箱中运
行,支持ACL+Policy+Label细粒度授权,支持数据KM加密,支持行为
审计(即将发布)。
6.生态开放:
高度兼容 Hive、支持原生的 Spark 应用、支持 Python 生态(PyODPS)、第三方BI工具。
7.企业级管理能力:
完整的批量(Tunnel)/实时(Datahub)数据接入能力、Dataworks数据开发/应用生产运维/数据管理数据质量,快速构建企业级数据服务
平台。
目前在 dataworks 里面支持的最小的调度时间是5分钟,在针对除了t+1场景之外,如果是业务上需要更短的时间,可以做到5分钟的延时,maxcompute 里面的最大优势,是能够针对海量的数据做计算存储,能够支持到1b级别数据。它能够降低企业总体的开发速度,因为它是一套免运维的全托管大数据的数仓,也支持了非常丰富的付费括开源生态的产品,像按需求付费或者预付费都可以支持的,能够对接阿里云包括开源生态的产品,能够支持odpssql、maxcompute、图计算、spark、交互式分析 hologres 这样的产品都能够直接进行对接。比如要做自定义的开发,能够使用 Java 或者 Python 做开发,都是高度兼容各个生态的,包括阿里云的产品和开源生态的产品。