刚入职场的菜鸟，这些大数据知识点，你必须掌握了！

2022-05-24 130

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

简介： 刚入职场的菜鸟，这些大数据知识点，你必须掌握了！

正文

一、Hadoop入门

1、常用端口号

hadoop3.x

HDFS NameNode 内部通常端口：8020/9000/9820

HDFS NameNode 对用户的查询端口：9870

Yarn查看任务运行情况的：8088

历史服务器：19888

hadoop2.x

HDFS NameNode 内部通常端口：8020/9000

HDFS NameNode 对用户的查询端口：50070

Yarn查看任务运行情况的：8088

历史服务器：19888

2、常用的配置文件

3.x core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml workers

2.x core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml slaves

二、HDFS

1、HDFS文件块大小（面试重点）

硬盘读写速度

在企业中一般128m（中小公司） 256m （大公司）

2、HDFS的Shell操作（开发重点）

3、HDFS的读写流程（面试重点）

三、Map Reduce

1、InputFormat

1）默认的是TextInputformat kv key偏移量，v :一行内容

2）处理小文件CombineTextInputFormat 把多个文件合并到一起统一切片

2、Mapper

setup()初始化； map()用户的业务逻辑； clearup() 关闭资源；

3、分区

默认分区HashPartitioner ，默认按照key的hash值%numreducetask个数

自定义分区

4、排序

1）部分排序每个输出的文件内部有序。

2）全排序：一个reduce ,对所有数据大排序。

3）二次排序：自定义排序范畴，实现 writableCompare接口，重写compareTo方法

5、Combiner

前提：不影响最终的业务逻辑（求和没问题求平均值）

提前聚合map => 解决数据倾斜的一个方法

6、Reducer

用户的业务逻辑；

setup()初始化；

reduce()用户的业务逻辑；

clearup() 关闭资源；

7、OutputFormat

1）默认TextOutputFormat 按行输出到文件

2）自定义

四、Yarn

1、Yarn的工作机制（面试题）

2、Yarn的调度器

1）FIFO/容量/公平

2）apache 默认调度器容量； CDH默认调度器公平

3）公平/容量默认一个default ，需要创建多队列

4）中小企业：hive spark flink mr

5）中大企业：业务模块：登录/注册/购物车/营销

6）好处：解耦降低风险 11.11 6.18 降级使用

7）每个调度器特点：

相同点：支持多队列，可以借资源，支持多用户

不同点：

容量调度器：优先满足先进来的任务执行；

公平调度器，在队列里面的任务公平享有队列资源

8）生产环境怎么选：

中小企业，对并发度要求不高，选择容量

中大企业，对并发度要求比较高，选择公平。

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

刚入职场的菜鸟，这些大数据知识点，你必须掌握了！

正文