【大数据】大数据技术栈

简介: 【大数据】大数据技术栈

Hadoop

Hadoop是一个分布式系统基础架构,核心是 HDFS、YARN、MapReduce 3大组件组成。

  • HDFS(Hadoop Distributed File System,即Hadoop分布式文件系统)主要功能是提供海量数据存储
  • YARN(资源管理系统) 主要功能是资源管理和程序调度
  • MapReduce 主要功能:数据划分和计算任务调度、数据/代码互定位

Hive

Hive是基于Hadoop的数仓分析系统,可以将SQL语句转换为MapReduce任务运行,不适合用于联机事务处理,也不提供实时查询功能。它最适合应用在基于大量不可变数据的批处理作业

Spark

Spark 基于Hadoop MapReduce开发的大数据计算引擎,构建大型、低延迟数据分析应用程序

Hbase

Hbase 分布式数据库 Hadoop的子项目 特点 适合于非结构化数据存储 基于列的而不是基于行的模式

Kafka

Kafka 分布式发布订阅消息系统 主要能力:消息队列、流式处理

分类

image.png

大数据术语

DW 数据仓库

 

数据仓库包含:

ODS层 (Operational Data Store) 原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理。

DWM层(data warehourse middle)数据中间层,在DWD层的数据基础上,对数据做轻度的聚合操作,生成一系列的中间表

DWD层 (Data Warehouse Detail)明细数据层, 结构和粒度与原始表保持一致,对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据)。

DWS层(Data Warehouse service) 服务数据层,以DWD为基础,进行轻度汇总。 在这层通常会有以某一个维度为线索,组成跨主题的宽表。

ADS层 (application data service)数据应用层,为各种统计报表提供数据。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
存储 SQL 分布式计算
大数据技术栈列表
大数据技术栈列表
367 0
|
SpringCloudAlibaba 网络协议 Cloud Native
Spring Cloud Alibaba-全面详解(学习总结---从入门到深化)
Spring Cloud Alibaba致力于提供微服务开发的一站式解决方案。
16039 3
Spring Cloud Alibaba-全面详解(学习总结---从入门到深化)
Redisson官方文档 - 15. 项目依赖列表
Redisson采用了常见的若干项目作为依赖,比如Netty、Jackson等等。
3425 0
|
8月前
|
存储 SQL OLAP
【赵渝强老师】TiDB的列存引擎:TiFlash
TiFlash是TiDB的列式存储引擎,借助ClickHouse实现高效协处理器层,采用Multi-Raft体系进行数据复制与分散。它实时从TiKV同步数据,提供一致性的最新读取。组件包括列式存储引擎和TiFlashproxy,支持TiDB与TiSpark计算引擎。需手动指定表同步,并通过DDL语句管理副本数量。文档还介绍了部署、创建副本、查看同步进度及删除副本等操作步骤,展示了其在OLAP场景的应用。
220 0
【赵渝强老师】TiDB的列存引擎:TiFlash
|
数据库 数据安全/隐私保护
共享锁和排他锁在实际应用中的优缺点
【10月更文挑战第16天】共享锁和排他锁是多进程和多线程环境中常用的同步机制,它们各自具有优点和缺点。在实际应用中,需要根据具体的场景和需求选择合适的锁类型。在选择锁时,需要考虑读写比例、数据一致性要求、系统性能、死锁风险等因素,并结合实际情况进行优化和调整。通过合理使用锁,可以提高系统的并发性、数据一致性和性能。
|
存储 Java 应用服务中间件
Java规则引擎Drools急速入门
Java规则引擎Drools急速入门
Java规则引擎Drools急速入门
|
Java Spring
ddd 领域事件 springboot 代码案例
ddd 领域事件 springboot 代码案例
457 0
|
机器学习/深度学习 人工智能 运维
智能化运维:AI在IT基础设施管理中的应用
【6月更文挑战第24天】本文将深入探讨人工智能(AI)如何革新传统IT运维模式,提升效率与响应速度。通过分析AI技术在故障预测、自动化处理和安全防护等方面的应用实例,揭示其对现代IT基础设施管理的深远影响。文章旨在为读者提供一个关于AI赋能运维领域的全面视角,同时指出实施过程中可能遇到的挑战与对策。
539 5
|
安全 架构师 项目管理
快速成长的秘诀|自我成长的方法有哪些?
快速成长总共三篇,分别是《完成自我升级》、《自我成长的方法》、《学会自我培养或培养他人》。本文为第二篇,会从9个维度分享自我成长。
2689 66
|
编解码 API 开发工具
NV21、NV12、YV12、RGB565、YUV等颜色编码格式区别和接口设计探讨
NV21、NV12、YV12、RGB565、YUV分别是不同的颜色编码格式,这些颜色编码格式各有特点,适用于不同的应用场景。选择合适的颜色编码格式取决于具体的需求和环境:
557 1