【大数据】大数据技术栈

简介: 【大数据】大数据技术栈

Hadoop

Hadoop是一个分布式系统基础架构,核心是 HDFS、YARN、MapReduce 3大组件组成。

  • HDFS(Hadoop Distributed File System,即Hadoop分布式文件系统)主要功能是提供海量数据存储
  • YARN(资源管理系统) 主要功能是资源管理和程序调度
  • MapReduce 主要功能:数据划分和计算任务调度、数据/代码互定位

Hive

Hive是基于Hadoop的数仓分析系统,可以将SQL语句转换为MapReduce任务运行,不适合用于联机事务处理,也不提供实时查询功能。它最适合应用在基于大量不可变数据的批处理作业

Spark

Spark 基于Hadoop MapReduce开发的大数据计算引擎,构建大型、低延迟数据分析应用程序

Hbase

Hbase 分布式数据库 Hadoop的子项目 特点 适合于非结构化数据存储 基于列的而不是基于行的模式

Kafka

Kafka 分布式发布订阅消息系统 主要能力:消息队列、流式处理

分类

image.png

大数据术语

DW 数据仓库

 

数据仓库包含:

ODS层 (Operational Data Store) 原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理。

DWM层(data warehourse middle)数据中间层,在DWD层的数据基础上,对数据做轻度的聚合操作,生成一系列的中间表

DWD层 (Data Warehouse Detail)明细数据层, 结构和粒度与原始表保持一致,对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据)。

DWS层(Data Warehouse service) 服务数据层,以DWD为基础,进行轻度汇总。 在这层通常会有以某一个维度为线索,组成跨主题的宽表。

ADS层 (application data service)数据应用层,为各种统计报表提供数据。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
存储 SQL 分布式计算
大数据技术栈列表
大数据技术栈列表
460 0
|
10月前
|
JSON API 数据格式
深度分析易贝API接口,用Python脚本实现
本文深度解析了eBay开放平台的RESTful API接口体系,涵盖其核心功能、OAuth 2.0认证机制、请求规范及限流策略,并基于Python构建了完整的API调用框架。内容包括商品与订单管理接口的实现逻辑、认证流程、错误处理机制及实战调用示例,适用于跨境电商系统开发与多平台集成。
|
存储 SQL OLAP
【赵渝强老师】TiDB的列存引擎:TiFlash
TiFlash是TiDB的列式存储引擎,借助ClickHouse实现高效协处理器层,采用Multi-Raft体系进行数据复制与分散。它实时从TiKV同步数据,提供一致性的最新读取。组件包括列式存储引擎和TiFlashproxy,支持TiDB与TiSpark计算引擎。需手动指定表同步,并通过DDL语句管理副本数量。文档还介绍了部署、创建副本、查看同步进度及删除副本等操作步骤,展示了其在OLAP场景的应用。
359 0
【赵渝强老师】TiDB的列存引擎:TiFlash
|
数据库 数据安全/隐私保护
共享锁和排他锁在实际应用中的优缺点
【10月更文挑战第16天】共享锁和排他锁是多进程和多线程环境中常用的同步机制,它们各自具有优点和缺点。在实际应用中,需要根据具体的场景和需求选择合适的锁类型。在选择锁时,需要考虑读写比例、数据一致性要求、系统性能、死锁风险等因素,并结合实际情况进行优化和调整。通过合理使用锁,可以提高系统的并发性、数据一致性和性能。
|
运维 安全 网络安全
Web安全-企业网络架构
Web安全-企业网络架构
758 1
|
算法 小程序
【密码学】一文读懂基于离散对数的随机数生成器
是的,我又来水文章了,本文带着大家来了解一个新的随机数生成器,基于离散对数的随机数生成器,之前已经带着大家了解过了两个类似的随机数生成器了,其中一个是BBS随机数生成器,另一个是基于RSA的随机数生成器,有兴趣的读者可以自行回顾一下之前的文章哈。
619 152
【密码学】一文读懂基于离散对数的随机数生成器
|
机器学习/深度学习 人工智能 算法
人工智能伦理框架:构建AI的道德指南针
【7月更文挑战第16天】随着人工智能技术的快速发展,其对社会的深远影响引起了广泛关注。本文探讨了构建人工智能伦理框架的必要性,并提出了一套基于四大原则的伦理指导方针:透明度、公正性、责任归属和隐私保护。文章旨在为AI系统的设计与部署提供道德指南,确保技术进步与人类价值观相协调。
1548 3
|
机器学习/深度学习 人工智能 运维
智能化运维:AI在IT基础设施管理中的应用
【6月更文挑战第24天】本文将深入探讨人工智能(AI)如何革新传统IT运维模式,提升效率与响应速度。通过分析AI技术在故障预测、自动化处理和安全防护等方面的应用实例,揭示其对现代IT基础设施管理的深远影响。文章旨在为读者提供一个关于AI赋能运维领域的全面视角,同时指出实施过程中可能遇到的挑战与对策。
730 5
|
分布式计算 算法 搜索推荐
阿里巴巴内部:全技术栈PPT分享(架构篇+算法篇+大数据)
我只截图不说话,PPT大全,氛围研发篇、算法篇、大数据、Java后端架构!除了大家熟悉的交易、支付场景外,支撑起阿里双十一交易1682亿元的“超级工程”其实包括以下但不限于客服、搜索、推荐、广告、库存、物流、云计算等。 Java核心技术栈:覆盖了JVM、锁、并发、Java反射、Spring原理、微服务、Zookeeper、数据库、数据结构等大量知识点。 大数据:Spark、Hadoop
|
Linux Android开发 C++
Python游戏开发
【4月更文挑战第12天】Python适合游戏开发,因其易学性和丰富的库如Pygame、Panda3D、Kivy。要开始,选择一个库,用pip安装,学习基础概念如游戏循环、事件处理,然后编写代码。测试、调试后,可发布到相应平台。利用书籍、在线教程和社区资源加速学习进程。
682 4