大数据组件太多,侧重多学习这几个吧

简介: 大数据技术派,分享优质文章,技术资料,包括但不限于主流的大数据技术:Hadoop、Kafka、Hbase、Flink、Spark等。

大数据技术派



大数据技术派,分享优质文章,技术资料,包括但不限于主流的大数据技术:Hadoop、Kafka、Hbase、Flink、Spark等。


资料


整理的一些资料,后面也会一直更新,一直维护,Git也会一直维护更新。

微信图片_20220426134720.png


大数据技术


干货,主流大数据技术总结


学习建议,大数据组件那么多,可以重点学习这几个。


大数据SQL中的Join【谓词下推】讲解


一、Hadoop


Hadoop 数据迁移用法详解


Hbase修复工具Hbck


HDFS的快照


Hadoop3数据容错技术(纠删码)


Hadoop 核心 - HDFS 分布式文件系统详解


大数据组件重点学习这几个


YARN调度器(Scheduler)详解


二、Hbase


Hbase修复工具Hbck


Hbase构建二级索引的一些解决方案


Hbase集群挂掉的一次惊险经历


面试必问 | HBase最新面试总结


深入理解HBase Memstore


Hbase统计表的行数的3种方法


Hbase修复工具Hbck与Hbck2,异常定位和修复


三、Flink


彻底搞清Flink中的Window


Flink之Watermark详解


Flink状态管理与状态一致性


Flink实时计算topN热榜


Flink计算pv和uv的通用方法


Flink的处理背压原理及问题


基于Flink+ClickHouse打造轻量级点击流实时数仓


Flink 是如何统一批流引擎的


flink sql 知其所以然(二)| 自定义 redis 数据维表(附源码)


四、Spark


Spark开发常用参数(最全)


Spark性能优化指南——基础篇


Spark性能优化指南——高级篇


Spark调优 | 不可避免的 Join 优化


SparkStreaming项目实战,实时计算pv和uv


Spark调优 | Spark OOM问题常见解决方式


Spark SQL知识点与实战


干货|Spark优化之高性能Range Join


五、数据仓库


数仓架构发展史


数仓建模方法论


数仓建模分层理论


数仓建模—宽表的设计


数仓建模—指标体系


一文搞懂ETL和ELT的区别


数据湖知识点


技术选型 | OLAP大数据技术哪家强?


数仓相关面试题


从 0 到 1 学习 Presto,这一篇就够了!


元数据管理在数据仓库的实践应用


做中台2年多了,中台到底是什么呢?万字长文来聊一聊中台


六、Hive


Hive表的基本操作(必会)


Hive中的集合数据类型


Hive动态分区详解


Hive 中的四种排序详解,再也不会混淆用法了。


Hive窗口函数row number的用法, 你肯定都会吧!


Hive必会SQL语法explode 和 lateral view


Hive进阶—抽样的各种玩法


Hive整合Hbase


Impala一文详解及与hive简单对比


一文搞懂Hive的数据存储与压缩


彻底解决Hive小文件问题


Hive计算最大连续登陆天数


Hive实战UDF 外部依赖文件找不到的问题


Hive实战—时间滑动窗口计算


七、Kafka


2万文字,一文搞懂Kafka


面试官问: kafka 重试机制原理


八、Docker


5分钟安装docker教程


Docker 安装 wordpress,通过nginx反向代理,绑定域名,配置https


九、数据库


大数据中使用Redis计算UV的4种方法


十、程序人生


工作三年的一些感悟

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
6月前
|
数据采集 搜索推荐 算法
Java 大视界 -- Java 大数据在智能教育学习社区用户互动分析与社区活跃度提升中的应用(274)
本文系统阐述 Java 大数据技术在智能教育学习社区中的深度应用,涵盖数据采集架构、核心分析算法、活跃度提升策略及前沿技术探索,为教育数字化转型提供完整技术解决方案。
|
分布式计算 大数据 Java
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
209 5
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
161 3
|
存储 分布式计算 API
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
580 0
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
266 0
|
SQL 数据采集 分布式计算
【赵渝强老师】基于大数据组件的平台架构
本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层:数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中,大数据平台层为核心,负责数据的存储和计算,支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型,应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。
1130 3
【赵渝强老师】基于大数据组件的平台架构
|
数据采集 数据可视化 大数据
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
这篇文章介绍了如何使用Python中的matplotlib和numpy库来创建箱线图,以检测和处理数据集中的异常值。
372 1
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
|
分布式计算 大数据 Hadoop
大数据学习
【10月更文挑战第2天】大数据学习
463 16
|
SQL 存储 分布式计算
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
262 9
|
存储 SQL 分布式计算
大数据学习
【10月更文挑战第15天】
330 1