大数据Hadoop运行环境,依赖于Java JDK,核心的大数据框架基于Java开发的,目前互联网公司、电商、医疗、银行、医院等都有大数据应用,开源Hadoop生态统治了大数据领域,基本没有对手。企业要做大数据,基本最成熟的开源大数据平台就是Hadoop体系。今天基于Linux Ubuntu 16.04安装最新的Hadoop。大数据Hadoop最新版3.2.0实战安装与测试Linux Ubuntu 16.04,并运行文本分析的例子。
1、安装Java JDK 1.8 环境,确保Hadoop运行。
可以选择安装Oracle JDK或者Open JDK。目前企业开发建议使用Open JDK。
如果是付费用户,愿意安装Oracle JDK也行。
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java9-installer
sudo apt-get install oracle-java10-installer
sudo apt-get install oracle-java11-installer
但是使用开源版本是最安全的,不会有授权收费问题。
sudo add-apt-repository ppa:webupd8team/java
sudo apt update
sudo apt install oracle-java8-set-default
java --version查看安装设置,成功安装Open JDK8
2、下载Hadoop安装包,这里选择清华大学镜像服务器wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.2.0/hadoop-3.2.0.tar.gz
输入命令下载最新的安装包,等待,因为国外服务器下载速度太慢,需要几个小时。
3、解压安装包 tar xzf hadoop-3.2.0.tar.gz
4、创建Hadoop账号
$ adduser hadoop
$ usermod -aG hadoop hadoop
$ chown hadoop:root -R /usr/local/hadoop
$ chmod g+rwx -R /usr/local/hadoop
5、创建SSH 密钥文件
ssh-keygen -t rsa
6、测试SSH登陆 ssh localhost
7、格式化namenode。 HDFS命令来格式化Namenode。
hadoop namenode -format
8、启动HDFS和Yarn资源管理器
start-dfs.sh和start-yarn.sh,执行命令后,输入JPS查看运行的进城。
9、查看Hadoop版本
以上配置完成,可以运行hadoop version命令查看版本信息:
10、HDFS版本
11、查看Hadoop集群管理页面
Http://localhost:8088
12、测试Hadoop,最蛋疼的过程。
使用txt文件作为测试输入数据,执行命令 :
./bin/hadoop jar ./share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-3.2.0-sources.jar org.apache.hadoop.examples.WordCount input output
大数据分析输出统计文本的结果信息
阿里巴巴Java群超过3300人
直播地址:Java技术进阶群
进群方式:钉钉扫码入群
阿里巴巴MongoDB群