【大数据】大数据技术栈

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 【大数据】大数据技术栈

Hadoop

Hadoop是一个分布式系统基础架构,核心是 HDFS、YARN、MapReduce 3大组件组成。

  • HDFS(Hadoop Distributed File System,即Hadoop分布式文件系统)主要功能是提供海量数据存储
  • YARN(资源管理系统) 主要功能是资源管理和程序调度
  • MapReduce 主要功能:数据划分和计算任务调度、数据/代码互定位

Hive

Hive是基于Hadoop的数仓分析系统,可以将SQL语句转换为MapReduce任务运行,不适合用于联机事务处理,也不提供实时查询功能。它最适合应用在基于大量不可变数据的批处理作业

Spark

Spark 基于Hadoop MapReduce开发的大数据计算引擎,构建大型、低延迟数据分析应用程序

Hbase

Hbase 分布式数据库 Hadoop的子项目 特点 适合于非结构化数据存储 基于列的而不是基于行的模式

Kafka

Kafka 分布式发布订阅消息系统 主要能力:消息队列、流式处理

分类

image.png

大数据术语

DW 数据仓库

 

数据仓库包含:

ODS层 (Operational Data Store) 原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理。

DWM层(data warehourse middle)数据中间层,在DWD层的数据基础上,对数据做轻度的聚合操作,生成一系列的中间表

DWD层 (Data Warehouse Detail)明细数据层, 结构和粒度与原始表保持一致,对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据)。

DWS层(Data Warehouse service) 服务数据层,以DWD为基础,进行轻度汇总。 在这层通常会有以某一个维度为线索,组成跨主题的宽表。

ADS层 (application data service)数据应用层,为各种统计报表提供数据。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
SpringCloudAlibaba 网络协议 Cloud Native
Spring Cloud Alibaba-全面详解(学习总结---从入门到深化)
Spring Cloud Alibaba致力于提供微服务开发的一站式解决方案。
15888 3
Spring Cloud Alibaba-全面详解(学习总结---从入门到深化)
|
4月前
|
JSON API 数据格式
深度分析易贝API接口,用Python脚本实现
本文深度解析了eBay开放平台的RESTful API接口体系,涵盖其核心功能、OAuth 2.0认证机制、请求规范及限流策略,并基于Python构建了完整的API调用框架。内容包括商品与订单管理接口的实现逻辑、认证流程、错误处理机制及实战调用示例,适用于跨境电商系统开发与多平台集成。
|
8月前
|
存储 SQL OLAP
【赵渝强老师】TiDB的列存引擎:TiFlash
TiFlash是TiDB的列式存储引擎,借助ClickHouse实现高效协处理器层,采用Multi-Raft体系进行数据复制与分散。它实时从TiKV同步数据,提供一致性的最新读取。组件包括列式存储引擎和TiFlashproxy,支持TiDB与TiSpark计算引擎。需手动指定表同步,并通过DDL语句管理副本数量。文档还介绍了部署、创建副本、查看同步进度及删除副本等操作步骤,展示了其在OLAP场景的应用。
197 0
【赵渝强老师】TiDB的列存引擎:TiFlash
|
数据库 数据安全/隐私保护
共享锁和排他锁在实际应用中的优缺点
【10月更文挑战第16天】共享锁和排他锁是多进程和多线程环境中常用的同步机制,它们各自具有优点和缺点。在实际应用中,需要根据具体的场景和需求选择合适的锁类型。在选择锁时,需要考虑读写比例、数据一致性要求、系统性能、死锁风险等因素,并结合实际情况进行优化和调整。通过合理使用锁,可以提高系统的并发性、数据一致性和性能。
|
10月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【蘑菇识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能
蘑菇识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了9种常见的蘑菇种类数据集【"香菇(Agaricus)", "毒鹅膏菌(Amanita)", "牛肝菌(Boletus)", "网状菌(Cortinarius)", "毒镰孢(Entoloma)", "湿孢菌(Hygrocybe)", "乳菇(Lactarius)", "红菇(Russula)", "松茸(Suillus)"】 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,
970 11
基于Python深度学习的【蘑菇识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能
|
11月前
|
敏捷开发 监控 数据可视化
干货:18种项目管理可视化图表是什么?怎么用?
项目管理的核心之一是高效的沟通和信息传递。
725 0
干货:18种项目管理可视化图表是什么?怎么用?
|
运维 安全 网络安全
Web安全-企业网络架构
Web安全-企业网络架构
294 1
|
机器学习/深度学习 人工智能 运维
智能化运维:AI在IT基础设施管理中的应用
【6月更文挑战第24天】本文将深入探讨人工智能(AI)如何革新传统IT运维模式,提升效率与响应速度。通过分析AI技术在故障预测、自动化处理和安全防护等方面的应用实例,揭示其对现代IT基础设施管理的深远影响。文章旨在为读者提供一个关于AI赋能运维领域的全面视角,同时指出实施过程中可能遇到的挑战与对策。
519 5
|
SQL 数据库
@Update注解批量更新始终报错
@Update注解批量更新始终报错
227 4
|
Linux Android开发 C++
Python游戏开发
【4月更文挑战第12天】Python适合游戏开发,因其易学性和丰富的库如Pygame、Panda3D、Kivy。要开始,选择一个库,用pip安装,学习基础概念如游戏循环、事件处理,然后编写代码。测试、调试后,可发布到相应平台。利用书籍、在线教程和社区资源加速学习进程。
476 4

热门文章

最新文章