刚入职场的菜鸟,这些大数据知识点,你必须掌握了!

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 刚入职场的菜鸟,这些大数据知识点,你必须掌握了!

正文


一、Hadoop入门


1、常用端口号


hadoop3.x


HDFS NameNode 内部通常端口:8020/9000/9820


HDFS NameNode 对用户的查询端口:9870


Yarn查看任务运行情况的:8088


历史服务器:19888


hadoop2.x


HDFS NameNode 内部通常端口:8020/9000


HDFS NameNode 对用户的查询端口:50070


Yarn查看任务运行情况的:8088


历史服务器:19888


2、常用的配置文件


3.x core-site.xml  hdfs-site.xml  yarn-site.xml  mapred-site.xml workers


2.x core-site.xml  hdfs-site.xml  yarn-site.xml  mapred-site.xml slaves


二、HDFS


1、HDFS文件块大小(面试重点)


硬盘读写速度


在企业中  一般128m(中小公司)   256m (大公司)


2、HDFS的Shell操作(开发重点)


3、HDFS的读写流程(面试重点)


三、Map Reduce


1、InputFormat


1)默认的是TextInputformat  kv  key偏移量,v :一行内容


2)处理小文件CombineTextInputFormat 把多个文件合并到一起统一切片


2、Mapper


setup()初始化;  map()用户的业务逻辑; clearup() 关闭资源;


3、分区


默认分区HashPartitioner ,默认按照key的hash值%numreducetask个数


自定义分区


4、排序


1)部分排序  每个输出的文件内部有序。


2)全排序:  一个reduce ,对所有数据大排序。


3)二次排序:  自定义排序范畴, 实现 writableCompare接口, 重写compareTo方法


5、Combiner


前提:不影响最终的业务逻辑(求和 没问题   求平均值)        


提前聚合map  => 解决数据倾斜的一个方法


6、Reducer


用户的业务逻辑;


setup()初始化;


reduce()用户的业务逻辑;


clearup() 关闭资源;


7、OutputFormat


1)默认TextOutputFormat  按行输出到文件


2)自定义


四、Yarn


1、Yarn的工作机制(面试题)


2、Yarn的调度器


1)FIFO/容量/公平


2)apache 默认调度器  容量; CDH默认调度器 公平


3)公平/容量默认一个default ,需要创建多队列


4)中小企业:hive  spark flink  mr


5)中大企业:业务模块:登录/注册/购物车/营销


6)好处:解耦  降低风险  11.11  6.18  降级使用


7)每个调度器特点:

相同点:支持多队列,可以借资源,支持多用户


不同点:

容量调度器:优先满足先进来的任务执行;


公平调度器,在队列里面的任务公平享有队列资源


8)生产环境怎么选:

中小企业,对并发度要求不高,选择容量


中大企业,对并发度要求比较高,选择公平。


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
存储 缓存 负载均衡
【2022持续更新】大数据最全知识点整理-HBase篇
【2022持续更新】大数据最全知识点整理-HBase篇
1023 0
【2022持续更新】大数据最全知识点整理-HBase篇
|
11月前
|
大数据
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第14章大数据与数据科学篇
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第14章大数据与数据科学篇
107 0
|
存储 数据采集 SQL
知识点!典型的工业企业大数据分析平台解决方案(含数据治理)
当前,工业企业产生的数据与日俱增,如何利用大数据为企业产生驱动力、竞争力成为工业企业面临的重要问题。
知识点!典型的工业企业大数据分析平台解决方案(含数据治理)
|
SQL 数据采集 存储
大数据知识点总结
数据仓库:英文Data WareHouse,数据仓库是面向主题,为分析数据而设计的,是一个各种数据(包括历史数据和当前数据)的中心存储系统,主要服务于商业智能(也就是BI)和企业决策管理。
371 0
大数据知识点总结
|
存储 缓存 算法
【2022持续更新】大数据最全知识点整理-Java篇
【2022持续更新】大数据最全知识点整理-Java篇
138 0
【2022持续更新】大数据最全知识点整理-Java篇
|
消息中间件 存储 负载均衡
【2022持续更新】大数据最全知识点整理-Kafka篇
【2022持续更新】大数据最全知识点整理-Kafka篇
295 0
【2022持续更新】大数据最全知识点整理-Kafka篇
|
消息中间件 缓存 分布式计算
大数据面试需要掌握的知识点
大数据常见考察知识点
141 0
|
存储 SQL NoSQL
一篇文章搞定一个大数据组件:kudu知识点全集
一篇文章搞定一个大数据组件:kudu知识点全集
一篇文章搞定一个大数据组件:kudu知识点全集
|
机器学习/深度学习 分布式计算 数据可视化
大数据入门知识点
大数据入门知识点
114 0
|
存储 分布式计算 监控
好程序员大数据纪实:HBase知识点集中总结
好程序员大数据纪实: HBase知识点集中总结, HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。    与 FUJITSU Cliq等商用大数据产品不同,HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中
119 0