大数据组件太多,侧重多学习这几个吧

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 大数据技术派,分享优质文章,技术资料,包括但不限于主流的大数据技术:Hadoop、Kafka、Hbase、Flink、Spark等。

大数据技术派



大数据技术派,分享优质文章,技术资料,包括但不限于主流的大数据技术:Hadoop、Kafka、Hbase、Flink、Spark等。


资料


整理的一些资料,后面也会一直更新,一直维护,Git也会一直维护更新。

微信图片_20220426134720.png


大数据技术


干货,主流大数据技术总结


学习建议,大数据组件那么多,可以重点学习这几个。


大数据SQL中的Join【谓词下推】讲解


一、Hadoop


Hadoop 数据迁移用法详解


Hbase修复工具Hbck


HDFS的快照


Hadoop3数据容错技术(纠删码)


Hadoop 核心 - HDFS 分布式文件系统详解


大数据组件重点学习这几个


YARN调度器(Scheduler)详解


二、Hbase


Hbase修复工具Hbck


Hbase构建二级索引的一些解决方案


Hbase集群挂掉的一次惊险经历


面试必问 | HBase最新面试总结


深入理解HBase Memstore


Hbase统计表的行数的3种方法


Hbase修复工具Hbck与Hbck2,异常定位和修复


三、Flink


彻底搞清Flink中的Window


Flink之Watermark详解


Flink状态管理与状态一致性


Flink实时计算topN热榜


Flink计算pv和uv的通用方法


Flink的处理背压原理及问题


基于Flink+ClickHouse打造轻量级点击流实时数仓


Flink 是如何统一批流引擎的


flink sql 知其所以然(二)| 自定义 redis 数据维表(附源码)


四、Spark


Spark开发常用参数(最全)


Spark性能优化指南——基础篇


Spark性能优化指南——高级篇


Spark调优 | 不可避免的 Join 优化


SparkStreaming项目实战,实时计算pv和uv


Spark调优 | Spark OOM问题常见解决方式


Spark SQL知识点与实战


干货|Spark优化之高性能Range Join


五、数据仓库


数仓架构发展史


数仓建模方法论


数仓建模分层理论


数仓建模—宽表的设计


数仓建模—指标体系


一文搞懂ETL和ELT的区别


数据湖知识点


技术选型 | OLAP大数据技术哪家强?


数仓相关面试题


从 0 到 1 学习 Presto,这一篇就够了!


元数据管理在数据仓库的实践应用


做中台2年多了,中台到底是什么呢?万字长文来聊一聊中台


六、Hive


Hive表的基本操作(必会)


Hive中的集合数据类型


Hive动态分区详解


Hive 中的四种排序详解,再也不会混淆用法了。


Hive窗口函数row number的用法, 你肯定都会吧!


Hive必会SQL语法explode 和 lateral view


Hive进阶—抽样的各种玩法


Hive整合Hbase


Impala一文详解及与hive简单对比


一文搞懂Hive的数据存储与压缩


彻底解决Hive小文件问题


Hive计算最大连续登陆天数


Hive实战UDF 外部依赖文件找不到的问题


Hive实战—时间滑动窗口计算


七、Kafka


2万文字,一文搞懂Kafka


面试官问: kafka 重试机制原理


八、Docker


5分钟安装docker教程


Docker 安装 wordpress,通过nginx反向代理,绑定域名,配置https


九、数据库


大数据中使用Redis计算UV的4种方法


十、程序人生


工作三年的一些感悟

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
分布式计算 大数据 Java
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
51 5
|
2月前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
51 3
|
2月前
|
存储 分布式计算 API
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
85 0
|
2月前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
63 0
|
19天前
|
SQL 数据采集 分布式计算
【赵渝强老师】基于大数据组件的平台架构
本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层:数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中,大数据平台层为核心,负责数据的存储和计算,支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型,应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。
【赵渝强老师】基于大数据组件的平台架构
|
2月前
|
数据采集 数据可视化 大数据
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
这篇文章介绍了如何使用Python中的matplotlib和numpy库来创建箱线图,以检测和处理数据集中的异常值。
49 1
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
|
2月前
|
存储 SQL 分布式计算
大数据学习
【10月更文挑战第15天】
44 1
|
19天前
|
SQL 分布式计算 大数据
【赵渝强老师】大数据生态圈中的组件
本文介绍了大数据体系架构中的主要组件,包括Hadoop、Spark和Flink生态圈中的数据存储、计算和分析组件。数据存储组件包括HDFS、HBase、Hive和Kafka;计算组件包括MapReduce、Spark Core、Flink DataSet、Spark Streaming和Flink DataStream;分析组件包括Hive、Spark SQL和Flink SQL。文中还提供了相关组件的详细介绍和视频讲解。
|
2月前
|
SQL 存储 分布式计算
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
31 9
|
2月前
|
分布式计算 大数据 Hadoop
大数据学习
【10月更文挑战第2天】大数据学习
117 16