大数据发展历程及技术选型(2)

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 大数据发展历程及技术选型(2)

数据中台架构与技术选型


底座是数据基础平台


数据采集平台&计算平台&存储平台 
可自建可使用云计算服务


中间部分两大块是中台的公共数据区


公共数据区包括数据仓库(数据湖) 
主要负责公共数据模型研发
还包括统一指标(标签)平台
负责把模型组织成可以对外服务的数据,例如数据指标、数据标签


上层是数据应用服务层


将公共数据区的数据对外包装并提供服务,包括数据接口平台、多维查询平台,数据可视化平台、数据分析平台等


贯穿始终


  • 数据开发平台


包括数据开发的各类工具组合
例如:数据管道工具(比如数据接入、数据导出)、模型设计工具、脚本开发工具、数据调度工具等


  • 数据管理平台


包括统一元数据管理、数据质量管理、数据生命周期管理
针对数据全链路的数据管理,保证数据中台可以监控数据链路中的数据流向、数据使用效果、数据生命周期,以衡量数据的价值与成本


与业务充分结合


在数据中台的建设中一定不要忽视的是与业务的衔接
因为数据来源于业务并最终应用于业务
在数据中台的建设中需要有一系列的流程制度明确与业务的充分衔接
以保障数据源&数据产出的质量



image.png


数据抽取层


  • sqoop


结构化数据(关系型数据库)离线抽取


  • flume


非结构化日志接入


数据存储层


Hadoop文件系统Hdfs
kafka作为流式数据总线


计算与调度层


离线计算主要是hive,spark
也有部分选用tez


实时计算


前些年storm,spark比较流行
最近几年大家纷纷往Flink转型


数据调度


除了像Airflow Azkaban Oozie等
易观开源的Dolphin-scheduler也非常活跃


数据引擎层


即OLAP层
这一层里的选择非常多
选择丰富主要是可以适配不同的数据应用场景
从概念上讲分为ROLAP、MOLAP以及两者混搭


  • MOLAP


提前做一些预计算
以生成Cube的方式
达到空间换取查询效率


  • ROLAP


即查即用
效率完全取决于查询引擎的性能
ROLAP的趋势会更加明显 因为没有中间的数据链路


数据可视化层


比较主流的有Metabase、Superset、Redash
也可以选择阿里、百度的一些开源控件


组件选择


开源组件选择标准


  • 是否有鲜活的成功案例,优先找自己类似业务场景


  • 接口的开放性,与其他组件的兼容性


  • 社区活跃性度&发展趋势


商业化组件


基于云的数据组件可以选择
包括数据采集、处理、分析、数据可视化全过程



相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
分布式计算 安全 大数据
企查查支撑8000万+企业数据的大数据平台技术选型与实现
企查查终端所有企业工商信息均实时同步更新,汇集了目前国内市场中的80个产业链,8000个行业,6000个市场以及8000多万家企业数据。
7859 0
|
消息中间件 存储 SQL
大数据流处理平台的技术选型参考
大数据流处理平台的技术选型参考
大数据流处理平台的技术选型参考
|
存储 分布式计算 大数据
大数据发展历程及技术选型(5)
大数据发展历程及技术选型(5)
220 0
大数据发展历程及技术选型(5)
|
大数据 数据管理 数据安全/隐私保护
大数据发展历程及技术选型(4)
大数据发展历程及技术选型(4)
149 0
大数据发展历程及技术选型(4)
|
大数据 数据处理 流计算
大数据发展历程及技术选型(3)
大数据发展历程及技术选型(3)
226 0
大数据发展历程及技术选型(3)
|
大数据 OLTP 云计算
大数据发展历程及技术选型(1)
大数据发展历程及技术选型(1)
280 0
大数据发展历程及技术选型(1)