大数据实战平台环境搭建(上)

简介: 大数据实战平台环境搭建(上)

一、创建 Hadoop 用户

1、创建 Hadoop 用户,输入最开始的密码

图1:创建 Hadoop 用户

打开Ubuntu终端Terminal运行sudo useradd -m hadoop -s /bin/bash用于创建用户,系统需要等待我们输入密码(注意的是Ubuntu终端输入密码是不会显示的)。输入完密码后重新弹出nuyoah@nuyoah-VirtualBox:-$这个才算创建成功。

2、设置Hadoop账户密码

图2:设置Hadoop账户密码

在Ubuntu终端输入sudo passwd hadoop为Hadoop账号设置账号密码,通过输入和确认密码完成对于Hadoop账号密码的设置。

3、赋权

图3:为Hadoop用户赋权

在Ubuntu终端输入sudo adduser hadoop sudo为Hadoop用户赋权

二、更新apt和安装Vim编辑器

1、切换Hadoop用户,并输入密码

图4:切换Hadoop用户,并输入密码

在Ubuntu终端输入su hadoop切换成hadoop用户。

(必须切换到hadoop用户,不然后面会有问题。)

2、更新 apt

图5:更新apt

首先要确认已经切换到了hadoop用户,接着在终端输入sudo apt-get update使得hadoop用户更新apt,为接下来下载vim做准备。

3、安装 vim 编辑器

图6:安装vim编译器

在终端输入sudo apt-get install vim下载vim编译器。(vim编译器的作用:创建、维护或修改文本文件,维护Linux系统中的各种配置文件。)

当出现Do you want to continue?的时候需要我们输入y进行确认。(这里大小写都可以。)

图7:vim编译器安装完成

三、安装 SSH 和配置 SSH 无密码登录

1、安装 SSH 服务端

图8:安装 SSH 服务端

在终端输入sudo apt-get install openssh-server安装openssh。(OpenSSH 是 SSH (Secure SHell) 协议的免费开源实现OpenSSH提供了服务端后台程序和客户端工具,用来加密远程控制和文件传输过程中的数据,并由此来代替原来的类似服务。)

当出现Do you want to continue?的时候需要我们输入y进行确认。(这里大小写都可以。)

图9: SSH 服务端安装完成

2、登录本机

图10:登录本机

在终端输入ssh localhost请求登录本机。注意这里的确认要填的是yes。

图11:输入hadoop用户密码

图12:成功登录本机

3、配置无密码登录

图13:退出openssh并进去ssh文件夹

在终端输入exit退出openssh,当出现Connection to localhost closed.表示成功退出openssh。接着在终端输入cd ~/.ssh/进入ssh文件夹内。

图14:生成密钥并保存

在终端输入ssh-keygen -t rsa生成密钥,接着要等相关指令出来后按enter回车键(一共三次)。完成后我们能看到密钥和公钥都保存在了/home/hadoop/.ssh/里面。

图15:查看/.ssh下的文件

在终端输入ll查看/.ssh下的所有文件,确保密钥和公钥都保存在了这里。

4、确认配置成功

图16:确认配置成功

在终端输入cat ./id_rsa.pub >> ./authorized_kays加入授权,接着输入ssh localhost测试无密码登录ssh,最后输入exit退出ssh。

四、安装 Java

1、拖拽安装包到 downloads

图17:将下载好的安装包拖拽到 Downloads

图18:成功拖拽安装包到 Downloads

2、Hadoop用户下进入Downloads文件夹

图19:查看Downloads文件夹位置

注意要在Hadoop用户下进入Downloads。(在Ubuntu终端输入su hadoop切换成hadoop用户。)

我这里是将安装包保存在nuyoah/Downloads下。(注意nuyoah是我最开始设置的用户名)通过终端输入ll查看downloads文件夹位置。

图20:进入Downloads文件夹

进入Downloads文件夹后,在终端输入ll确认Downloads文件夹有刚刚拖进来的安装包。

3、创建jvm文件夹

图21:创建jvm文件夹

在终端输入sudo mkdir /usr/lib/jvm创建jvm文件夹。(出现Permission denied错误表示要在指令前加“sudo”。)

4、将:JDK安装包复制到 jvm 文件夹下

图22:将:JDK安装包复制到 jvm 文件夹

在终端输入sudo cp jdk-8u211-linux-x64.gz /uer/lib/jvm复制JDK安装包到 jvm 文件夹,其中sudo是给权限,cp是复制,jdk-8u211-linux-x64.gz是要复制的文件名,/uer/lib/jvm是要复制到的路径。在终端输入cd /uer/lib/jvm以及ll到目标文件夹下查看是否完成复制。

5、解压

图23:解压jdk

在终端输入sudo tar -zxvf ./jdk-8u211-linux-x64.gz -C /uer/lib/jvm解压指令对jdk文件解压。(-zxvf :z代表gzip的压缩包;x代表解压;v代表显示过程信息;f代表后面接的是文件)

需要记住jdk1.8.0_211/这个文件夹,后面环境配置时需要。

图24:解压完成

图25:确认解压是否成功

在终端输入cd jdk1.8.0_211/进入该文件夹确认解压是否成功,如果该文件夹为空则前面某一步有问题导致解压不成功,反之则为解压成功。

6、配置环境变量

图26:进入环境变量配置

在终端输入cd …返回上一级文件夹,再输入vim ~/.bashrc进入环境变量配置。

图27:进入环境变量

进入环境变量,此时补课编辑,只可查看。需要按“i”进入 insert 模式。

图28:配置环境变量

图29:按 ESC 保存,然后 shift+:wq

按 ESC 保存,然后 shift+:wq退出环境配置。

图30:确认jdk安装成功

在终端输入source ~/.bashrc激活刚刚配置的环境变量,接着在终端输入java -version查看java版本,确认jdk安装成功。

五、安装单机 Hadoop

1、确认文件及文件夹

图31:确认文件及文件夹

在终端进入Downloads文件夹确认hadoop的安装包在该文件夹内。

2、解压安装包到/usr/local下

图32:解压安装包到/usr/local

在终端输入sudo tar -zxvf hadoop-3.1.3.tar.gz -C /uer/local解压指令对hadoop文件解压。(-zxvf :z代表gzip的压缩包;x代表解压;v代表显示过程信息;f代表后面接的是文件)

图33:解压完成

Hadoop安装包解压完成,其中hadoop-3.1.3/是解压后的文件夹的名称。

3、修改目录名及目录权限

图34:修改目录名及目录权限

在终端输入cd /uer/local进入local文件夹,通过ll查看改文件夹内的文件。为了方便,通过输入sudo mv ./hadoop-3.1.3/ ./hadoop将文件夹hadoop-3.1.3的名字改成了hadoop。通过输入sudo chown -R hadoop ./hadoop修改权限。

4、查看版本信息

图35:查看版本信息

在终端输入cd hadoop/进入hadoop文件夹,再输入./bin/hadoop version查看版本信息。

5、测试

图36:复制文件到新建文件夹input内

在终端输入mkdir input新建文件夹input,接着输入cp ./etc/hadoop/.xml ./input(其中.xml代表所有的.xml文件),此行目的是将uer/local/hadoop/etc/hadoop下的所有的.xml文件复制到input文件夹内。

通过cd input进入input文件夹我们确认了复制成功。

图37:测试

在终端输入./bin/hadoop jar /usr/loacl/hadoop/share/hadoop/mapreduce/

hadoop-mapreduce-examples-3.1.3.jar grep ./input ./output 'dfs[a-z.]+'测试指令进行测试。

图38:测试完成

测试完成,在终端输入cat ./output/*查看输出数据。

六、Hadoop 伪分布式安装

1、修改配置文件(在etc/hadoop下)

图39:查看要修改的配置文件

通过终端cd etc/hadoop进入etc/hadoop查看要修改的配置文件。通过查看得知需要配置core-site.xml和hdfs-site.xml两个文件夹。

在终端输入vim core-site.xml使用vim编辑器配置。

图40:进入core-site.xml

图41:core-site.xml配置完成

2、配置

图42:配置hdfs-site.xml

在终端输入vim hdfs-site.xml使用vim编辑器配置。

图43:进入hdfs-site.xml

图44:hdfs-site.xml配置完成

3、初始化

图45:初始化

在终端输入cd /usr/local/hadoop回到/usr/local/hadoop文件夹,再输入bin/hdfs namenode -format进行初始化。

图46:初始化成功

大数据实战平台环境搭建(下)https://developer.aliyun.com/article/1507494?spm=a2c6h.13148508.setting.52.1b484f0eD2AqhJ

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5天前
|
Python
平台组成-仿真数据平台
平台里内建了一个数据产生平台
|
8天前
|
分布式计算 数据可视化 Hadoop
大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现
大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现
|
8天前
|
分布式计算 Java Hadoop
大数据实战——WordCount案例实践
大数据实战——WordCount案例实践
|
8天前
|
分布式计算 Hadoop Java
大数据实战平台环境搭建(下)
大数据实战平台环境搭建(下)
|
8天前
|
机器学习/深度学习 人工智能 大数据
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀
160 6
|
8天前
|
存储 机器学习/深度学习 数据采集
大数据处理与分析实战:技术深度剖析与案例分享
【5月更文挑战第2天】本文探讨了大数据处理与分析的关键环节,包括数据采集、预处理、存储、分析和可视化,并介绍了Hadoop、Spark和机器学习等核心技术。通过电商推荐系统和智慧城市交通管理的实战案例,展示了大数据在提高用户体验和解决实际问题上的效能。随着技术进步,大数据处理与分析将在更多领域发挥作用,推动社会进步。
|
8天前
|
分布式计算 大数据 BI
MaxCompute产品使用合集之MaxCompute项目的数据是否可以被接入到阿里云的Quick BI中
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8天前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之怎样可以将大数据计算MaxCompute表的数据可以导出为本地文件
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8天前
|
分布式计算 DataWorks 关系型数据库
MaxCompute产品使用合集之可以使用什么方法将MySQL的数据实时同步到MaxCompute
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8天前
|
分布式计算 DataWorks 数据库
DataWorks操作报错合集之DataWorks使用数据集成整库全增量同步oceanbase数据到odps的时候,遇到报错,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
27 0

热门文章

最新文章