数仓版本技术选型-阿里云开发者社区

数仓版本技术选型

2022-07-14 553

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生数据仓库AnalyticDB MySQL版，基础版 8ACU 100GB 1个月

简介： 分享数仓建设初期各个版本

数仓版本技术选型：

1、数据采集传输：flume（1.9）、sqoop、kafka（zookeeper-3.4.10、kafka-2.x）

Flume解决日志的采集，Kafka解决消息的分发和消峰，Sqoop用于HDFS和关系型数据库进行数据的传递；

假如使用flume1.9进行处理，其中sources为外部kakfa（版本2.0.1），sink为内网kafka（版本2.0），这样处理的话应该就没问题

2、数据存储：MySQL（MySQL-8）、HDFS

MySql主要用于查询，它用于存储与前端进程交互比较频繁的数据，因为查询要速度比较块，HDFS主要用于存储，用于存储计算和分析的数据量大的数据

3、数据计算：hive（hive-2）、spark（spark-2.3.0）

Hive是底层是基于MR，速度慢，Spark基于内存，数据在计算过程中不落盘，都存储在内存中，速度快，可以进行多表查询

4、数据查询：presto（0.2，具体依赖jdk版本，比如0.209的说明里面写的很清楚，JDK1.8后面小版本要求必须是8u151+）、Druid（1.2.x，具体依赖jdk版本）

Presto和Impala是同类型同级别的框架，Druid在处理实时即席查询比Kylin强一些

5、数据可视化：QuickBI、Metabase、Superset、Echarts

QuickBI：收费

Metabase：开源免费，安装依赖的环境简单、配置简单清楚，支持对外共享，权限控制，可以便捷地创建图表，仪表盘界面整洁美观，但是图表类型较单一并且只能对单一表进行查询

Superset：免费简单但可选图像不多，只有简单的柱状图饼状图折线图

Echarts：免费但开发起来有一定难度，需要自己编写java代码，甚至有些图形需要自己绘画，对接相对麻烦（不建议使用）

PS：

1、具体各技术版本型号有待商榷，可以使用推荐版本；

2、离线数据50亿条数据量级大概有360G，考虑保存3个副本：360*3=1080G，

预留20%-30%Buf=1080G/0.7=1543G≈1.5T，现有服务器4*500=2T，可保持不变，

如果考虑数仓分层，每一层会生成大量的中间结果表，服务器集群将近再扩容1-2倍

数仓版本技术选型

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

数仓版本技术选型

热门文章

最新文章

相关课程

相关电子书

相关实验场景