大数据实战平台环境搭建(上)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据实战平台环境搭建(上)

一、创建 Hadoop 用户

1、创建 Hadoop 用户,输入最开始的密码

图1:创建 Hadoop 用户

打开Ubuntu终端Terminal运行sudo useradd -m hadoop -s /bin/bash用于创建用户,系统需要等待我们输入密码(注意的是Ubuntu终端输入密码是不会显示的)。输入完密码后重新弹出nuyoah@nuyoah-VirtualBox:-$这个才算创建成功。

2、设置Hadoop账户密码

图2:设置Hadoop账户密码

在Ubuntu终端输入sudo passwd hadoop为Hadoop账号设置账号密码,通过输入和确认密码完成对于Hadoop账号密码的设置。

3、赋权

图3:为Hadoop用户赋权

在Ubuntu终端输入sudo adduser hadoop sudo为Hadoop用户赋权

二、更新apt和安装Vim编辑器

1、切换Hadoop用户,并输入密码

图4:切换Hadoop用户,并输入密码

在Ubuntu终端输入su hadoop切换成hadoop用户。

(必须切换到hadoop用户,不然后面会有问题。)

2、更新 apt

图5:更新apt

首先要确认已经切换到了hadoop用户,接着在终端输入sudo apt-get update使得hadoop用户更新apt,为接下来下载vim做准备。

3、安装 vim 编辑器

图6:安装vim编译器

在终端输入sudo apt-get install vim下载vim编译器。(vim编译器的作用:创建、维护或修改文本文件,维护Linux系统中的各种配置文件。)

当出现Do you want to continue?的时候需要我们输入y进行确认。(这里大小写都可以。)

图7:vim编译器安装完成

三、安装 SSH 和配置 SSH 无密码登录

1、安装 SSH 服务端

图8:安装 SSH 服务端

在终端输入sudo apt-get install openssh-server安装openssh。(OpenSSH 是 SSH (Secure SHell) 协议的免费开源实现OpenSSH提供了服务端后台程序和客户端工具,用来加密远程控制和文件传输过程中的数据,并由此来代替原来的类似服务。)

当出现Do you want to continue?的时候需要我们输入y进行确认。(这里大小写都可以。)

图9: SSH 服务端安装完成

2、登录本机

图10:登录本机

在终端输入ssh localhost请求登录本机。注意这里的确认要填的是yes。

图11:输入hadoop用户密码

图12:成功登录本机

3、配置无密码登录

图13:退出openssh并进去ssh文件夹

在终端输入exit退出openssh,当出现Connection to localhost closed.表示成功退出openssh。接着在终端输入cd ~/.ssh/进入ssh文件夹内。

图14:生成密钥并保存

在终端输入ssh-keygen -t rsa生成密钥,接着要等相关指令出来后按enter回车键(一共三次)。完成后我们能看到密钥和公钥都保存在了/home/hadoop/.ssh/里面。

图15:查看/.ssh下的文件

在终端输入ll查看/.ssh下的所有文件,确保密钥和公钥都保存在了这里。

4、确认配置成功

图16:确认配置成功

在终端输入cat ./id_rsa.pub >> ./authorized_kays加入授权,接着输入ssh localhost测试无密码登录ssh,最后输入exit退出ssh。

四、安装 Java

1、拖拽安装包到 downloads

图17:将下载好的安装包拖拽到 Downloads

图18:成功拖拽安装包到 Downloads

2、Hadoop用户下进入Downloads文件夹

图19:查看Downloads文件夹位置

注意要在Hadoop用户下进入Downloads。(在Ubuntu终端输入su hadoop切换成hadoop用户。)

我这里是将安装包保存在nuyoah/Downloads下。(注意nuyoah是我最开始设置的用户名)通过终端输入ll查看downloads文件夹位置。

图20:进入Downloads文件夹

进入Downloads文件夹后,在终端输入ll确认Downloads文件夹有刚刚拖进来的安装包。

3、创建jvm文件夹

图21:创建jvm文件夹

在终端输入sudo mkdir /usr/lib/jvm创建jvm文件夹。(出现Permission denied错误表示要在指令前加“sudo”。)

4、将:JDK安装包复制到 jvm 文件夹下

图22:将:JDK安装包复制到 jvm 文件夹

在终端输入sudo cp jdk-8u211-linux-x64.gz /uer/lib/jvm复制JDK安装包到 jvm 文件夹,其中sudo是给权限,cp是复制,jdk-8u211-linux-x64.gz是要复制的文件名,/uer/lib/jvm是要复制到的路径。在终端输入cd /uer/lib/jvm以及ll到目标文件夹下查看是否完成复制。

5、解压

图23:解压jdk

在终端输入sudo tar -zxvf ./jdk-8u211-linux-x64.gz -C /uer/lib/jvm解压指令对jdk文件解压。(-zxvf :z代表gzip的压缩包;x代表解压;v代表显示过程信息;f代表后面接的是文件)

需要记住jdk1.8.0_211/这个文件夹,后面环境配置时需要。

图24:解压完成

图25:确认解压是否成功

在终端输入cd jdk1.8.0_211/进入该文件夹确认解压是否成功,如果该文件夹为空则前面某一步有问题导致解压不成功,反之则为解压成功。

6、配置环境变量

图26:进入环境变量配置

在终端输入cd …返回上一级文件夹,再输入vim ~/.bashrc进入环境变量配置。

图27:进入环境变量

进入环境变量,此时补课编辑,只可查看。需要按“i”进入 insert 模式。

图28:配置环境变量

图29:按 ESC 保存,然后 shift+:wq

按 ESC 保存,然后 shift+:wq退出环境配置。

图30:确认jdk安装成功

在终端输入source ~/.bashrc激活刚刚配置的环境变量,接着在终端输入java -version查看java版本,确认jdk安装成功。

五、安装单机 Hadoop

1、确认文件及文件夹

图31:确认文件及文件夹

在终端进入Downloads文件夹确认hadoop的安装包在该文件夹内。

2、解压安装包到/usr/local下

图32:解压安装包到/usr/local

在终端输入sudo tar -zxvf hadoop-3.1.3.tar.gz -C /uer/local解压指令对hadoop文件解压。(-zxvf :z代表gzip的压缩包;x代表解压;v代表显示过程信息;f代表后面接的是文件)

图33:解压完成

Hadoop安装包解压完成,其中hadoop-3.1.3/是解压后的文件夹的名称。

3、修改目录名及目录权限

图34:修改目录名及目录权限

在终端输入cd /uer/local进入local文件夹,通过ll查看改文件夹内的文件。为了方便,通过输入sudo mv ./hadoop-3.1.3/ ./hadoop将文件夹hadoop-3.1.3的名字改成了hadoop。通过输入sudo chown -R hadoop ./hadoop修改权限。

4、查看版本信息

图35:查看版本信息

在终端输入cd hadoop/进入hadoop文件夹,再输入./bin/hadoop version查看版本信息。

5、测试

图36:复制文件到新建文件夹input内

在终端输入mkdir input新建文件夹input,接着输入cp ./etc/hadoop/.xml ./input(其中.xml代表所有的.xml文件),此行目的是将uer/local/hadoop/etc/hadoop下的所有的.xml文件复制到input文件夹内。

通过cd input进入input文件夹我们确认了复制成功。

图37:测试

在终端输入./bin/hadoop jar /usr/loacl/hadoop/share/hadoop/mapreduce/

hadoop-mapreduce-examples-3.1.3.jar grep ./input ./output 'dfs[a-z.]+'测试指令进行测试。

图38:测试完成

测试完成,在终端输入cat ./output/*查看输出数据。

六、Hadoop 伪分布式安装

1、修改配置文件(在etc/hadoop下)

图39:查看要修改的配置文件

通过终端cd etc/hadoop进入etc/hadoop查看要修改的配置文件。通过查看得知需要配置core-site.xml和hdfs-site.xml两个文件夹。

在终端输入vim core-site.xml使用vim编辑器配置。

图40:进入core-site.xml

图41:core-site.xml配置完成

2、配置

图42:配置hdfs-site.xml

在终端输入vim hdfs-site.xml使用vim编辑器配置。

图43:进入hdfs-site.xml

图44:hdfs-site.xml配置完成

3、初始化

图45:初始化

在终端输入cd /usr/local/hadoop回到/usr/local/hadoop文件夹,再输入bin/hdfs namenode -format进行初始化。

图46:初始化成功

大数据实战平台环境搭建(下)https://developer.aliyun.com/article/1507494?spm=a2c6h.13148508.setting.52.1b484f0eD2AqhJ

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
134 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
2月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
157 1
|
1月前
|
SQL 数据采集 分布式计算
【赵渝强老师】基于大数据组件的平台架构
本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层:数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中,大数据平台层为核心,负责数据的存储和计算,支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型,应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。
171 3
【赵渝强老师】基于大数据组件的平台架构
|
2月前
|
机器学习/深度学习 监控 搜索推荐
电商平台如何精准抓住你的心?揭秘大数据背后的神秘推荐系统!
【10月更文挑战第12天】在信息爆炸时代,数据驱动决策成为企业优化决策的关键方法。本文以某大型电商平台的商品推荐系统为例,介绍其通过收集用户行为数据,经过预处理、特征工程、模型选择与训练、评估优化及部署监控等步骤,实现个性化商品推荐,提升用户体验和销售额的过程。
96 1
|
1月前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
2月前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
49 3
|
2月前
|
分布式计算 资源调度 Hadoop
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece
92 4
|
2月前
|
Oracle 大数据 数据挖掘
企业内训|大数据产品运营实战培训-某电信运营商大数据产品研发中心
本课程是TsingtaoAI专为某电信运营商的大数据产品研发中心的产品支撑组设计,旨在深入探讨大数据在电信运营商领域的应用与运营策略。通过密集的培训,从数据的本质与价值出发,系统解析大数据工具和技术的最新进展,深入剖析行业内外的实践案例。课程涵盖如何理解和评估数据、如何有效运用大数据技术、以及如何在不同业务场景中实现数据的价值转化。
61 0
|
4月前
|
数据采集 人工智能 安全
AI大数据处理与分析实战--体育问卷分析
本文是关于使用AI进行大数据处理与分析的实战案例,详细记录了对深圳市义务教育阶段学校“每天一节体育课”网络问卷的分析过程,包括数据概览、交互Prompt、代码处理、年级和学校维度的深入分析,以及通过AI工具辅助得出的分析结果和结论。
|
4月前
|
大数据 API 数据处理
揭秘!Flink如何从默默无闻到大数据界的璀璨明星?起源、设计理念与实战秘籍大公开!
【8月更文挑战第24天】Apache Flink是一款源自Stratosphere项目的开源流处理框架,由柏林理工大学等机构于2010至2014年间开发,并于2014年捐赠给Apache软件基金会。Flink设计之初即聚焦于提供统一的数据处理模型,支持事件时间处理、精确一次状态一致性等特性,实现了流批一体化处理。其核心优势包括高吞吐量、低延迟及强大的容错机制。
81 1