数仓版本技术选型

简介: 分享数仓建设初期各个版本

数仓版本技术选型:

1、数据采集传输:flume(1.9)、sqoop、kafka(zookeeper-3.4.10、kafka-2.x)

Flume解决日志的采集,Kafka解决消息的分发和消峰,Sqoop用于HDFS和关系型数据库进行数据的传递;

假如使用flume1.9进行处理,其中sources为外部kakfa(版本2.0.1),sink为内网kafka(版本2.0),这样处理的话应该就没问题

2、数据存储:MySQL(MySQL-8)、HDFS

MySql主要用于查询,它用于存储与前端进程交互比较频繁的数据,因为查询要速度比较块,HDFS主要用于存储,用于存储计算和分析的数据量大的数据

3、数据计算:hive(hive-2)、spark(spark-2.3.0)

Hive是底层是基于MR,速度慢,Spark基于内存,数据在计算过程中不落盘,都存储在内存中,速度快,可以进行多表查询

4、数据查询:presto(0.2,具体依赖jdk版本,比如0.209的说明里面写的很清楚,JDK1.8后面小版本要求必须是8u151+)、Druid(1.2.x,具体依赖jdk版本)

Presto和Impala是同类型同级别的框架,Druid在处理实时即席查询比Kylin强一些

5、数据可视化:QuickBI、Metabase、Superset、Echarts

QuickBI:收费

Metabase:开源免费,安装依赖的环境简单、配置简单清楚,支持对外共享,权限控制,可以便捷地创建图表,仪表盘界面整洁美观,但是图表类型较单一并且只能对单一表进行查询

Superset:免费简单但可选图像不多,只有简单的柱状图饼状图折线图

Echarts:免费但开发起来有一定难度,需要自己编写java代码,甚至有些图形需要自己绘画,对接相对麻烦(不建议使用)

PS:

1、具体各技术版本型号有待商榷,可以使用推荐版本;

2、离线数据50亿条数据量级大概有360G,考虑保存3个副本:360*3=1080G,

预留20%-30%Buf=1080G/0.7=1543G≈1.5T,现有服务器4*500=2T,可保持不变,

如果考虑数仓分层,每一层会生成大量的中间结果表,服务器集群将近再扩容1-2倍

相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
12天前
|
Cloud Native 关系型数据库 OLAP
云原生数据仓库AnalyticDB产品使用合集之 orcale的行转列函数wm_concat 在pg版本有对应的相关函数吗
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
13天前
|
分布式计算 DataWorks 关系型数据库
实时数仓 Hologres产品使用合集之在哪里可以查看例如已经发现的问题但是还没有出修复版本的情况的文档
实时数仓Hologres的基本概念和特点:1.一站式实时数仓引擎:Hologres集成了数据仓库、在线分析处理(OLAP)和在线服务(Serving)能力于一体,适合实时数据分析和决策支持场景。2.兼容PostgreSQL协议:Hologres支持标准SQL(兼容PostgreSQL协议和语法),使得迁移和集成变得简单。3.海量数据处理能力:能够处理PB级数据的多维分析和即席查询,支持高并发低延迟查询。4.实时性:支持数据的实时写入、实时更新和实时分析,满足对数据新鲜度要求高的业务场景。5.与大数据生态集成:与MaxCompute、Flink、DataWorks等阿里云产品深度融合,提供离在线
|
10月前
|
Cloud Native 关系型数据库 数据挖掘
AnalyticDB PostgreSQL版7.0版本公测期间,享优先购买福利!一次性购买6个月资源,可享0.1折!
云原生向量数据库AnalyticDB PostgreSQL版全新发布7.0公测版本!版本性能较开源实现开箱5X性能提升!
|
存储 安全 Cloud Native
云栖重磅发布 - AnalyticDB PostgreSQL 7.0版本,企业级分析能力升级!
云原生数据仓库AnalyticDB PostgreSQL(简称ADB PG) 7.0版本发布公开测试。该版本着重于提升企业级分析能力,安全管理,执行性能等方面,整体性价比显著提升!
云栖重磅发布 - AnalyticDB PostgreSQL 7.0版本,企业级分析能力升级!
|
关系型数据库 大数据 OLAP
AnalyticDB for PostgreSQL 6.0 新版本技术解析
本文介绍阿里云 AnalyticDB for PG 6.0版本 OLTP及OLAP方面的特性增强,以及主要场景优势。
3291 0
AnalyticDB for PostgreSQL 6.0 新版本技术解析
|
OLAP
AnalyticDB 2.4版本发布啦!
AnalyticDB 2.4版本本周发布,很多用户期待的资源大盘功能终于上线。该功能以实例汇总信息和单节点资源信息两个维度向用户展示资源详情和系统性能,很好地协助用户进行数据探查。该版本又新增了DUMP 时支持返回数据总条数功能以及重点优化了MPP下几个函数的兼容性等特性。
3563 0
|
关系型数据库 OLAP 数据库
分析型数据库 PostgreSQL版本实例规格定义变更
信息摘要: 实例由按多个“计算组”组成,改为由按“节点”组成。一个节点只对应一个数据分区,简化规格定义,遵循标准集群数据库的模式。适用客户: 数据仓库/大数据/数据分析/数据库用户;政府/金融/零售/互联网等行业版本/规格功能: AnalyticDB for PostgreSQL 实例规格定义由多个“计算组”组成改为由多个“节点”组成。
1008 0
|
12天前
|
Cloud Native 数据管理 OLAP
云原生数据仓库AnalyticDB产品使用合集之是否可以创建表而不使用分区
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
337 2
云原生数据仓库AnalyticDB产品使用合集之是否可以创建表而不使用分区
|
12天前
|
SQL Cloud Native 关系型数据库
云原生数据仓库AnalyticDB产品使用合集之如何进行一键诊断
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
347 7