开发者社区> 技术mix呢> 正文

Hadoop项目实战-用户行为分析之应用概述(一)

简介:
+关注继续查看

1.概述

  本课程的视频教程地址:《Hadoop 回顾

  好的,下面就开始本篇教程的内容分享,本篇教程我为大家介绍我们要做一个什么样的Hadoop项目,并且对Hadoop项目的基本特点和其中的难点做有针对性的剖析,完成项目环境的基本配置,以及项目工程和Hadoop插件的相关准备等工作。

  本课程主要包含以下课时,其内容如下图所示:

  本节为大家分享的是第一节——《Hadoop 回顾》,下面开始今天的分享内容。

2.内容

  从这节开始,我们将进入到Hadoop项目的实战学习,本节课程为大家介绍的主要知识点有一下内容,如下图所示:

  首先,我们来看看本节的Hadoop的业务知识点,业务场景如下:

  假设现在有以下场景,用户每天都会对某网站进行点击,这些点击都会记录到日志中,然后分析用户在网站的使用习惯。

  其内容包含如下内容,如下图所示:

  接着,是Hadoop的应用场景,其内容包含如下内容,如下图所示:

  通过阅读上图,下面我给大家解释以下这个图中所设计的含义:

  1.Hadoop的核心之一,就是它的离线计算模型MapReduce。

  • 在数据统计中,统计网站的PV、UV
  • 大规模Web信息搜索
  • 一些复杂的算法

  MapReduce都能非常友好的实现。

  2.海量数据的离线分析
在MapReduce框架下,很难处理实时计算,作业都以日志分析这样的离线作业为主。

  3.静态数据源
Hadoop要保证分析与计算的数据源是静态的,不能是实时的流水数据。这也是Hadoop自身设计特点决定了数据源必须是静态的。

  在了解了Hadoop的应用场景和业务场景之后,下面我们来看看用户行为分析平台的搭建需要注意哪些事项,注意事项包含以下内容,如下图所示:
 

  1.平台的高可用性  

  如图所示,这是一个高可用平台的简要说明图,在Hadoop2.x版本后,Hadoop提出了HA方案。HA方案的出现,解决了第一代的单点问题,在图中,我们可以看出,在Client请求服务时,若NameNode Active(NNA)节点宕机,整个集群依然是可用的,NameNode Standby(简称NNS)节点会立马切换自己的状态,由Standby切换为Active,并对外提供服务。保证集群的高可用性。

  注:下面是集群的启动演示,可以参考视频的启动步骤:《Hadoop 回顾
2.在对NameNode Active节点和NameNode Standby节点配置时
hdfs-site.xml和core-site.xml两个文件中HDFS的NameService要保持一致;
在配置HA的实现时,Hadoop官方提供了两种NameNode HA的实现方式,分别是QJM和NFS,同学们可自选一种实现。
3.在配置YARN的相关配置文件
yarn-site.xml文件,有一个属性需要特别注意,它就是yarn.resourcemanager.ha.id这个属性。假设,我们在NNA节点上配置的是value值是rm1,那么在NNS节点上我们得将value换成rm2。

  4.在集群启动时,需注意按照以下顺序
第一步:由于我们选择的是QJM方案,需要使用到zookeeper,所以在各个DataNode节点上启动zookeeper服务
第二步:在其中一台NameNode节点(这里我预选取的是NameNode Active节点)启动journalnode服务,该服务用于共享存储,同步节点信息。
第三步:若是首次启动,需要在其中一台NameNode Active节点上格式HDFS
第四步:接着我们同样一台NameNode Active节点格式化zkfc,它对应的类是DFSZKFailoverController
第五步:在NameNode Active节点启动hdfs服务和yarn服务
第六步:同步NameNode Active节点的元数据

 3.结束语

  这就是本节的主要内容,主要就对Hadoop做一个回顾学习,对后续学习Hadoop项目实战做一个准备工作。

  如果本教程能帮助到您,希望您能点击进去观看一下,谢谢您的支持!

  转载请注明出处,谢谢合作!

   本课程的视频教程地址:《Hadoop 回顾

联系方式: 
邮箱:smartloli.org@gmail.com 
Twitter:https://twitter.com/smartloli 
QQ群(Hadoop - 交流社区1):424769183 
温馨提示:请大家加群的时候写上加群理由(姓名+公司/学校),方便管理员审核,谢谢! 

热爱生活,享受编程,与君共勉!



本文转自哥不是小萝莉博客园博客,原文链接:http://www.cnblogs.com/smartloli/,如需转载请自行联系原作者

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
MySQL与Hadoop数据同步方案:Sqoop与Flume的应用探究【上进小菜猪大数据系列】
MySQL与Hadoop数据同步方案:Sqoop与Flume的应用探究【上进小菜猪大数据系列】
50 0
【读书笔记】大数据原理与应用:大数据处理架构Hadoop
【读书笔记】大数据原理与应用:大数据处理架构Hadoop
59 0
CentOS 6.X Hadoop 2.7 分布式集群环境搭建 -- 适用于四川信息职业技术学院“Hadoop应用基础教程”课程
CentOS 6.X Hadoop 2.7 分布式集群环境搭建 -- 适用于四川信息职业技术学院“Hadoop应用基础教程”课程
128 0
BigData之Hadoop:Hadoop的简介、深入理解、下载、案例应用之详细攻略
BigData之Hadoop:Hadoop的简介、深入理解、下载、案例应用之详细攻略
91 0
BigData:大数据开发的简介、核心知识(linux基础+Java/Python编程语言+Hadoop{HDFS、HBase、Hive}+Docker)、经典场景应用之详细攻略
BigData:大数据开发的简介、核心知识(linux基础+Java/Python编程语言+Hadoop{HDFS、HBase、Hive}+Docker)、经典场景应用之详细攻略
188 0
BigData:大数据开发的简介、核心知识(linux基础+Java/Python编程语言+Hadoop{HDFS、HBase、Hive}+Docker)、经典场景应用之详细攻略
BigData:大数据开发的简介、核心知识(linux基础+Java/Python编程语言+Hadoop{HDFS、HBase、Hive}+Docker)、经典场景应用之详细攻略
160 0
BigData之Hadoop:Hadoop的简介、深入理解、下载、案例应用之详细攻略(二)
BigData之Hadoop:Hadoop的简介、深入理解、下载、案例应用之详细攻略
217 0
BigData之Hadoop:Hadoop的简介、深入理解、下载、案例应用之详细攻略(一)
BigData之Hadoop:Hadoop的简介、深入理解、下载、案例应用之详细攻略
77 0
湖北Hadoop,基于大数据的医疗行业发展,解析大数据技术在医疗领域的应用及使用方法
健康医疗大数据作为国家重要的基础性战略资源,也受到了政企、医院等行业相关人员的高度重视。如何让医疗行业及领域去便捷管理和使用海量的大数据?
1305 0
迁移传统应用到Kubernetes步骤详解 – 以Hadoop YARN为例
前言 本文已归档到 kubernetes-handbook 【第三章用户指南】的【在Kubernetes中开发部署应用】小节中,一切更新以 GitHub 为准。 本文档不是说明如何在 kubernetes 中开发和部署应用程序,如果您想要直接开发应用程序在 kubernetes 中运行可以参考 适用于kubernetes的应用开发部署流程。
1411 0
+关注
技术mix呢
文章
问答
视频
文章排行榜
最热
最新
相关电子书
更多
CIO 指南:如何在SAP软件架构中使用Hadoop
立即下载
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
相关实验场景
更多