大数据发展历程及技术选型(3)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据发展历程及技术选型(3)

数据研发实践


数据处理架构


image.png


最早数据仓库的计算只支持批处理
通常是按天定时处理数据
在后期逐步进化到准实时,本质上还是批处理
只是处理频度上得有提升,到小时级,或者15分钟这种


  • lambda架构


后期演化出一条新的流处理链路 这个链路和之前的批处理分别处理
然后在服务层面利用大数据的计算能力进行合并
向外提供离线+实时数据服务


  • Flink流批一体化


在接入层统一采用流式接入
计算层采用统一套框架支持实时计算+离线计算
批处理仅仅作为流处理的一个特殊场景进行支持
整体上可以做到流处理、批处理的自由切换


流批处理区别


  • 流计算


用于支持线上业务场景(比如互联网的推荐、搜索、风控等)


  • 批处理


更多是支持离线统计分析



image.png


业务数据层(ODS层)


  • 原始数据


原始数据经过缓冲层(STG)的加载
会进入数仓的业务数据层
这一层采用范式建模
基本保持与数据源完全一致的结构


好处


1、一次性接入数据源结构,针对需求的变动不用频繁去与数据源对接
2、便于业务研发更好地理解数据,同时是也是公司的原始数据资产


  • 变化的数据


使用数据拉链加工与存储


好处


1、保留历史数据的同时,尽可能少占用存储空间
长期来看,拉链存储比起每天全量保留历史节约大概90%空间
2、快速、高效地获取历史任意一天业务系统的快照数据


公共数据层(包括公共明细层DWD,公共汇总层DWS)


公共数据层是数据仓库的核心层,是整个数仓中使用率最高的
采用维度建模思路
类型包括事务事实、周期快照、累积快照
方便下游对数据的使用设计一系列的宽表模型
在调用分布来看,宽表的使用占到70%以上


将不同业务过程中的事实进行统一整合,包括纵向整合&横向整合


  • 纵向


对于商品、用户主数据类可能分散在不同的源系统中采用纵向整合


  • 横向


横向整合主要包括交易、内容等行为数据不同业务过程的整合
比如:用户(用户信息、注册信息)购买(下单、支付、结算、覆约、完成)商品(商品信息,商家信息,等)
会把订单流转业务过程整合放到一张明细表里,同时会研发一些基于用户、或者商品视角的轻度汇总宽表


劣势


1、数据冗余较多,在存储、计算、调用较为占资源,建议尽量还是按场景去使用
2、宽表整合的信息较多,数据权限不好控制。建议可以根据需求,在有限范围内开放整体宽表权限,或者通过视图或者子表的方式建立不同权限的数据范围,适应不同组织的需求
3、宽表通常依赖比较多,会影响数据的产出的时效。


应用数据层(DWA层)


偏向应用的数据加工
也叫集市层
按维度建模思想


image.png


主题分类


  • 数据主题视角


主题是将企业的业务进行宏观数据抽象
是数据仓库里数据的主要组织形式
1、参照波特价值链,分析企业本身经营的业务(基本活动、支持型活动),分别对应哪些数据
2、参照业界通用模型,例如像IBM、TD等针对大型行业(如电信、金融、零售)有一些数据主题的通用划分方法
3、对企业的内部数据(线上数据模块、数据字典)进行摸底,确认对应到哪些主题


划分结果会按照三个层级:主题域—》主题—》子主题


1、第一级是主题域,针对相对稳定的主题进行合并,归拢到主题域,利于数据的理解与建立全局的数据资产目录
2、第二级是主题
3、第三级是子主题,主要针对有些主题下分类较多,比如供应链主题下会包含采购、仓储、配送等子主题
数据主题划分建议完全互斥,不建议重复


  • 数据业务视角


数据业务域是根据企业经营的具体业务
结合企业的组织架构进行划分
层次和分类可以相对灵活,子分类可以允许重复
因为两条不同的业务域可能经营相同的业务,例如电商、内容下都有会员这个业务


内容+电商的数据主题与业务分类


一横一纵两个视角,将数据进行更好的归类,在数据模型设计中会打上相应分类标签,从而让数据研发&数据使用人员统一认知
以上两种分类方式主要应用于核心的公共数据层
业务数据层、应用数据层并不需要遵循以上分类规则,比如业务数据层(ODS层)是按照数据源进行分类,应用数据层(DWA)
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
分布式计算 安全 大数据
企查查支撑8000万+企业数据的大数据平台技术选型与实现
企查查终端所有企业工商信息均实时同步更新,汇集了目前国内市场中的80个产业链,8000个行业,6000个市场以及8000多万家企业数据。
7818 0
|
消息中间件 存储 SQL
大数据流处理平台的技术选型参考
大数据流处理平台的技术选型参考
大数据流处理平台的技术选型参考
|
存储 分布式计算 大数据
大数据发展历程及技术选型(5)
大数据发展历程及技术选型(5)
217 0
大数据发展历程及技术选型(5)
|
大数据 数据管理 数据安全/隐私保护
大数据发展历程及技术选型(4)
大数据发展历程及技术选型(4)
148 0
大数据发展历程及技术选型(4)
|
数据采集 存储 数据可视化
大数据发展历程及技术选型(2)
大数据发展历程及技术选型(2)
183 0
大数据发展历程及技术选型(2)
|
大数据 OLTP 云计算
大数据发展历程及技术选型(1)
大数据发展历程及技术选型(1)
276 0
大数据发展历程及技术选型(1)