大数据物流项目中CM的安装与运用

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 使用CM安装CDH集群时,针对每个框架(比如,HDFS、MAPREDUCE、YARN等)创建用户,不可以被用于登录操作系统。以框架名称创建用户,所有用户名为框架名称。

大数据服务器之CM安装架构及目录


针对整个物流项目来说,1台虚拟机安装部署大数据环境:基于CM6.2.1安装CDH6.2.1。


关于CM功能及CM安装,不再过多赘述,项目还是要注重于业务及数据和实现。


9227a89f0ad9f9baf194cca1c05cf0c5.png


提供虚拟机【node2.itcast.cn】解压后,导入VMWare 软件中,启动虚拟机即可(选择我已移动该虚拟机)


  • 1)、启动之前,设置node2.itcast.cn内存:4GB或者6GB或者8GB即可


  • 2)、第一次启动虚拟机时,很慢很慢很慢,由于启动所有服务(CM安装CDH服务),时间5分钟以上

。浏览器登录http://node2.itcast.cn:7180/cmf/,admin/admin

。将所有服务关闭:各个框架服务和CMS服务,而且CMS服务永远给关闭


  • 3)、测试时,需要什么服务,启动什么服务,不要全部启动(耗内存,耗性能,没有任何意义)


e621f3ee2c87f5e8eb7d4e2923c29d11.png


架构原理:CM如何安装CDH框架,原理架构是什么?????


  • 1)、CM安装CDH集群时,架构属于主从分布式架构(Master/Slaves)


。主节点(老大):CMS(ClouderaManagerServer),在一台机器上运行


。从节点(小弟):安装服务(Cloudera Agent),所有大数据集群机器


此时大数据集群机器,被CM管理,监控到基本信息(磁盘IO、网络IO和CPU与内存使用等等)


1e1755c576921dfeb9a94f7a1bd00d9f.png


  • 2)、Cloudera 将所有大数据框架放在某个目录,打成包:parcel


。首先parcel包,存储在CMServer主机的目录:/opt/cloudera/parcel-repo


cbd573c5046589e3833570d1ef5b5763.png

4ac7637f2e08b21a33c57e13981ae2a6.png


  • 3)、CMServer服务,将parcel包,分发给所有大数据集群机器:Cloudera Agent


。当所有集群机器下载parcel包以后,解压:/opt/cloudera/parcels


8049b66a88f08586a14271ddac9bd42e.png


。每个框架安装目录:/opt/cloudera/parcels/CDH/lib/框架名称


a2128ed8746b7a5d4afa411aaf51fc4d.png


。进入Kafka软件安装目录:/opt/cloudera/parcels/CDH/lib/kafka


c82004b0b6ac14db4bf1b518eb144247.png


下图表示使用CM安装CDH架构原理图,多多理解。


77bcd3847d554c800aa9700da0e730fe.png


大数据服务器之CDH框架安装细节


当使用CM安装CDH集群以后,可以通过CM界面UI,管理整个集群服务和查看监控运行状态。


第一、框架用户,实际项目中按照大数据各个框架时,不建议使用root用户,创建普通用户。


使用CM安装CDH集群时,针对每个框架(比如,HDFS、MAPREDUCE、YARN等)创建用户,不可以被用于登录操作系统。以框架名称创建用户,所有用户名为框架名称。


  1. 第一点:linux系统:/etc/passwd


c624e4990c80a8183adf83fb86ff4ec1.png


2.第二点:启动服务,所使使用用户


fa9e0cb2199e456cd3cd9abc1346efbd.png


  • 第二、服务配置


使用CM安装CDH组件时,配置分为2类:


401da3b36954a8a4096a607da8ef003d.png


  1. 第一类、服务端Server配置,启动服务Server时加载配置文件


存储在数据库中,物流项目中配置的是MySQL数据库:scm


8329adea52ab46cf4cd0507ce5289ed2.png


2.第二类、客户端Client配置,客户端连接服务时配置信息


。存储在配置文件,在系统目录:/etc/xx/conf,其中xx表示框架名称


。以Kafka框架为例:


0a53c4c698f74fb2805e97d80e4cae38.png


  • 第三、服务日志

使用CM安装CDH组件时,默认启动服务时,日志文件存储目录:/var/log/xx/


46fe80f775beb94da79a97b659817dd3.png


  • 第四、切换用户


由于每个框架都有自己用户,所以有时候对框架进行操作时,需要切换到框架用户,比如在HDFS文件系统上创建目录,使用hdfs用户,如下所示切换用户:


# root切换框架用户方式
sudo -u userName
# 举例说明:
[root@node2 ~]# sudo -u hdfs hdfs dfs -mkdir -p /datas
[root@node2 ~]# sudo -u hdfs hdfs dfs -ls


7d25dfc4a7eb40bd6e87d7cdd7a62304.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
18天前
|
数据采集 大数据
大数据实战项目之电商数仓(二)
大数据实战项目之电商数仓(二)
|
7天前
|
机器学习/深度学习 分布式计算 DataWorks
MaxCompute产品使用问题之有什么命令可以看到当前账号拥有哪些项目的什么权限
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
6天前
|
存储 SQL 分布式计算
MaxCompute产品使用问题之如何查看项目空间耗用的存储大小
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
7天前
|
机器学习/深度学习 分布式计算 DataWorks
MaxCompute产品使用问题之一个项目只能绑定一个dataworks工作空间吗
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
19天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI操作报错合集之在ODPS的xxx_dev项目空间调用easyrec训练,需要访问yyy项目空间的OSS,出现报错,是什么导致的
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
23天前
|
SQL 分布式计算 DataWorks
MaxCompute的项目
MaxCompute的项目
15 1
|
7天前
|
存储 分布式计算 大数据
MaxCompute产品使用问题之购买包年包月资源可以让同一个地域下的两个项目共用吗
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
18天前
|
分布式计算 Hadoop 大数据
【大数据】Hadoop下载安装及伪分布式集群搭建教程
【大数据】Hadoop下载安装及伪分布式集群搭建教程
57 0
|
18天前
|
分布式计算 数据可视化 大数据
基于spark的医疗大数据可视化大屏项目
基于spark的医疗大数据可视化大屏项目
|
18天前
|
消息中间件 分布式计算 Hadoop
大数据实战项目之电商数仓(一)
大数据实战项目之电商数仓(一)