数据仓库 、数据中心相关技术知识和生态相关了解

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 数据仓库 、数据中心相关技术知识和生态相关了解

@[toc]

数据仓库 、数据中心相关技术知识和生态相关了解


1、数据仓库 数仓


数仓的分层

1、ODS 层:Operation Data Store    原始数据层   加载原始数据不做处理
2、DWD 层:Data Warehouse Detail   明细数据层   对 ODS 层数据进行清洗,去除空值、脏数据、超过极限范围的数据,对敏感数据进行脱敏
3、DWS 层:Data Warehouse Service  服务数据层   以 DWD 数据为基础,按天进行轻度汇总
4、DWT 层:Data Warehouse Topic    数据主题层   以 DWT 数据为基础,按主题进行汇总
5、ADS 层:Application Data Store  数据应用层   为各种报表提供数据

分层的目的
1、简化复杂任务,方便定位问题
2、减少重复开发
3、隔离原始数据

数据集市(Data Market)和数据仓库
1、数据集市是数据仓库的 Mini 版本,主要服务于部门
2、数据仓库是企业级的,为企业的各个部门提供决策支持手段


一些数仓处理相关的技术框架
1、Azkaban 一套简单的任务调度服务,整体包括三部分webserver、dbserver、executorserver
参考 https://blog.csdn.net/wt334502157/article/details/116891032

Azkaban的功能特点

1、 Web用户界面
2、 方便上传工作流
3、 方便设置任务之间的关系
4、 工作流调度
5、 认证/授权
6、 能够杀死并重启工作流
7、 模块化和可插拔的插件机制
8、 项目工作区
9、 工作流和任务的日志记录和审计

2、数据处理 ETL


ETL 相关技术
1、Kettle 一个开源的 ETL 工具,后面改名为 Pentaho Data Integration (但是国内仍然喜欢叫 Kettle)
参考 https://baike.baidu.com/item/Kettle/5920713?fr=aladdin

1、以 Java 开发,支持跨平台运行
2、支持 100% 无编码、拖拽方式开发ETL数据管道
3、可对接包括传统数据库、文件、大数据平台、接口、流数据等数据源
4、支持ETL数据管道加入机器学习算法

3、数据湖


参考 https://blog.csdn.net/jyj1100/article/details/104692133

可以使用 Delta Lake 构建湖仓一体

Apache Hudi(简称Hudi)提供在DFS上存储超大规模数据集,同时使得流式处理如果批处理一样,该实现主要是通过如下两个原语实现。
1、Update/Delete记录: Hudi支持更新/删除记录,使用文件/记录级别索引,同时对写操作提供事务保证。查询可获取最新提交的快照来产生结果。
2、Change Streams: Hudi也支持增量获取表中所有更新/插入/删除的记录,从指定时间点开始进行增量查询

Hudi 支持
1、快照查询
2、增量查询
3、读优化查询

4、数据中心相关


参考 https://www.jianshu.com/p/68aba8d09a89

Camel 框架的核心是一个路由引擎,或者更确切地说是一个路由引擎构建器。它允许您定义自己的路由规则,决定从哪个源接收消息,并确定如何处理这些消息并将其发送到其他目标。
Camel 提供更高层次的抽象,使您可以使用相同的API与各种系统进行交互,而不管系统使用的协议或数据类型如何。
Camel 中的组件提供了针对不同协议和数据类型的API的特定实现。开箱即用,Camel支持80多种协议和数据类型。

Maven 依赖

<dependencies>
  <dependency>
    <groupId>org.apache.camel</groupId>
    <artifactId>camel-core</artifactId>
    <version>2.15.6</version>
  </dependency>
</dependencies>

canal 是为了解决 MySql 增量数据同步问题的工具,otter 基于 canal

canal 用于对 MySql 的增量数据订阅和消费
canal 通过 MySql binlog 拿到变更数据,再发送给 MySql Kafka ES 等

使用场景
1、作为 otter 的一部分
2、更新缓存

相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
4天前
|
存储 传感器 监控
探索现代数据中心的冷却技术革新
【4月更文挑战第23天】 在信息技术迅猛发展的今天,数据中心作为计算和存储的核心枢纽,其稳定性和效率至关重要。然而,随着处理能力的增强,设备发热量急剧上升,有效的冷却方案成为确保数据中心持续运行的关键因素。本文将深入分析当前数据中心面临的热管理挑战,并探讨几种前沿的冷却技术,包括液冷系统、热管技术和环境自适应控制策略。通过比较不同技术的优缺点,我们旨在为数据中心管理者提供实用的冷却解决方案参考。
|
1月前
|
存储 定位技术 数据中心
探索现代数据中心的冷却技术革新
在这篇文章中,我们将深入探讨现代数据中心冷却技术的最新进展。随着数据量的激增和计算能力的提升,数据中心的能效和散热问题变得日益重要。文章将介绍几种创新的冷却方法,包括液冷系统、热管技术和环境冷却集成设计,并讨论它们的工作原理、优势以及面临的挑战。通过这些技术的比较,我们旨在为数据中心管理者提供决策支持,以实现更高效、可持续的运营。
33 1
|
1月前
|
人工智能 运维 监控
未来数据中心的自动化运维技术探索
随着信息技术的快速发展,未来数据中心的运维需求将变得更加复杂而多样化。本文将探讨自动化运维技术在未来数据中心中的应用,分析其优势和挑战,并探讨如何实现高效的自动化运维管理。
|
4月前
|
存储 大数据 数据管理
数据仓库(08)数仓事实表和维度表技术
所谓的事实表和维度表技术,指的就是如何和构造一张事实表和维度表,是的事实表和维度表,可以涵盖现在目前的需要和方便后续下游数据应用的开发
55 1
|
4月前
|
存储 分布式计算 关系型数据库
云原生数据仓库AnalyticDB MySQL湖仓版架构升级,持续释放技术红利!
云原生数据仓库AnalyticDB MySQL湖仓版架降价23%!持续提供高性价比的产品服务
|
4月前
|
存储 分布式计算 关系型数据库
|
7月前
|
存储 数据管理 大数据
技术的未来:亚太地区数据仓库即服务及其对电信的影响
技术的未来:亚太地区数据仓库即服务及其对电信的影响
|
7月前
|
存储 数据挖掘 大数据
第16章 数据仓库与联机分析处理技术——复习笔记
第16章 数据仓库与联机分析处理技术——复习笔记
|
9月前
|
人工智能 运维 大数据
技术、应用、突破——一场液冷研讨会,助你把握数据中心液冷产业未来122.228.85
技术、应用、突破——一场液冷研讨会,助你把握数据中心液冷产业未来122.228.85
|
10月前
|
SQL 存储 HIVE
数据仓库系列--维度表技术
数据仓库系列--维度表技术
108 0

热门文章

最新文章

  • 1
    Serverless 应用引擎操作报错合集之阿里函数计算中我打开sd时遇到错误,信息为"Function instance exited unexpectedly(code 1, message:operation not permitted) with start command ' '."如何解决
    5
  • 2
    Serverless 应用引擎操作报错合集之阿里函数计算中配置完fc,出现‘Function instance exited unexpectedly(code 1, message:operation not permitted) with start command 'npm run start '. 报错如何解决
    6
  • 3
    Serverless 应用引擎操作报错合集之阿里函数计算中,出现"Process exited unexpectedly before completing request"错误如何解决
    6
  • 4
    Serverless 应用引擎操作报错合集之阿里函数计算中,总是报错“Process exited unexpectedly before completing request (duration: 0ms, maxMemoryUsage: 0.00MB)”如何解决
    7
  • 5
    Serverless 应用引擎操作报错合集之阿里函数计算中{"ErrorCode":"AccessDenied","ErrorMessage":"Current user is in debt."}出现这个代码如何解决
    9
  • 6
    Serverless 应用引擎操作报错合集之阿里函数计算中我的3dopenpose报错 "error 预览失败" 如何解决
    10
  • 7
    Serverless 应用引擎操作报错合集之阿里函数计算中,(FC)无法正常运行如何解决
    7
  • 8
    Serverless 应用引擎操作报错合集之阿里函数计算中,出现FC 3 assert torch.cuda.is_available() 报错如何解决
    9
  • 9
    Serverless 应用引擎操作报错合集之阿里函数计算中,生成图片时进程卡住如何解决
    10
  • 10
    Serverless 应用引擎操作报错合集之阿里函数计算中出现关于“FC environment variables [FC_RuntIME_API] are not defined exit status 1”的报错如何解决
    12