大数据Hadoop最新版实战Linux Ubuntu 16.04安装与运行测试例子

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据Hadoop运行环境,依赖于Java JDK,核心的大数据框架基于Java开发的,目前互联网公司、电商、医疗、银行、医院等都有大数据应用,开源Hadoop生态统治了大数据领域,基本没有对手。大数据Hadoop最新版3.2.0实战安装与测试Linux Ubuntu 16.04,并运行文本分析的例子。

大数据Hadoop运行环境,依赖于Java JDK,核心的大数据框架基于Java开发的,目前互联网公司、电商、医疗、银行、医院等都有大数据应用,开源Hadoop生态统治了大数据领域,基本没有对手。企业要做大数据,基本最成熟的开源大数据平台就是Hadoop体系。今天基于Linux Ubuntu 16.04安装最新的Hadoop。大数据Hadoop最新版3.2.0实战安装与测试Linux Ubuntu 16.04,并运行文本分析的例子。

1、安装Java JDK 1.8 环境,确保Hadoop运行。
可以选择安装Oracle JDK或者Open JDK。目前企业开发建议使用Open JDK。
如果是付费用户,愿意安装Oracle JDK也行。

sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java9-installer
sudo apt-get install oracle-java10-installer
sudo apt-get install oracle-java11-installer

但是使用开源版本是最安全的,不会有授权收费问题。

sudo add-apt-repository ppa:webupd8team/java
sudo apt update
sudo apt install oracle-java8-set-default

java --version查看安装设置,成功安装Open JDK8
image

2、下载Hadoop安装包,这里选择清华大学镜像服务器
wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.2.0/hadoop-3.2.0.tar.gz
输入命令下载最新的安装包,等待,因为国外服务器下载速度太慢,需要几个小时。
image

3、解压安装包 tar xzf hadoop-3.2.0.tar.gz

image
4、创建Hadoop账号

$ adduser hadoop
$ usermod -aG hadoop hadoop
$ chown hadoop:root -R /usr/local/hadoop
$ chmod g+rwx -R /usr/local/hadoop

5、创建SSH 密钥文件

ssh-keygen -t rsa

image
6、测试SSH登陆 ssh localhost
image
7、格式化namenode。 HDFS命令来格式化Namenode。
hadoop namenode -format
image
8、启动HDFS和Yarn资源管理器
start-dfs.sh和start-yarn.sh,执行命令后,输入JPS查看运行的进城。
image
9、查看Hadoop版本
以上配置完成,可以运行hadoop version命令查看版本信息:
image
10、HDFS版本
image
11、查看Hadoop集群管理页面
Http://localhost:8088
image
12、测试Hadoop,最蛋疼的过程。
使用txt文件作为测试输入数据,执行命令 :

./bin/hadoop jar ./share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-3.2.0-sources.jar org.apache.hadoop.examples.WordCount input output

大数据分析输出统计文本的结果信息
image
阿里巴巴Java群超过3300人
直播地址:Java技术进阶群
进群方式:钉钉扫码入群
image
阿里巴巴MongoDB群
image

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
18天前
|
Ubuntu Linux 测试技术
Linux系统之Ubuntu安装cockpit管理工具
【10月更文挑战第13天】Linux系统之Ubuntu安装cockpit管理工具
65 4
Linux系统之Ubuntu安装cockpit管理工具
|
23天前
|
自然语言处理 机器人 Python
ChatGPT使用学习:ChatPaper安装到测试详细教程(一文包会)
ChatPaper是一个基于文本生成技术的智能研究论文工具,能够根据用户输入进行智能回复和互动。它支持快速下载、阅读论文,并通过分析论文的关键信息帮助用户判断是否需要深入了解。用户可以通过命令行或网页界面操作,进行论文搜索、下载、总结等。
39 1
ChatGPT使用学习:ChatPaper安装到测试详细教程(一文包会)
|
2天前
|
安全 Linux 虚拟化
|
23天前
|
Ubuntu Linux 编译器
Linux/Ubuntu下使用VS Code配置C/C++项目环境调用OpenCV
通过以上步骤,您已经成功在Ubuntu系统下的VS Code中配置了C/C++项目环境,并能够调用OpenCV库进行开发。请确保每一步都按照您的系统实际情况进行适当调整。
198 3
|
1月前
|
前端开发 JavaScript 应用服务中间件
linux安装nginx和前端部署vue项目(实际测试react项目也可以)
本文是一篇详细的教程,介绍了如何在Linux系统上安装和配置nginx,以及如何将打包好的前端项目(如Vue或React)上传和部署到服务器上,包括了常见的错误处理方法。
116 0
linux安装nginx和前端部署vue项目(实际测试react项目也可以)
|
2月前
|
Linux
kickstart自动安装系统 --DHCP 配置及测试
PXE+Kickstart自动安装系统需配置DHCP服务器分配IP。dhcpd.conf示例:设置更新样式、忽略客户端更新、指定下一服务器及启动文件。定义子网、网关、掩码、动态地址池并预留特定MAC地址。重启xinetd、NFS、DHCP服务,确保新服务器与Kickstart服务器在同一网络,避免误装其他机器。注意隔离测试网络以防干扰生产环境。
77 18
|
18天前
|
测试技术 PHP 开发工具
php性能监测模块XHProf安装与测试
【10月更文挑战第13天】php性能监测模块XHProf安装与测试
16 0
|
2月前
|
安全 测试技术 Linux
CentOS7 安装vulhub漏洞测试环境
CentOS7 安装vulhub漏洞测试环境
|
2月前
|
Web App开发 Linux Python
linux上安装selenium环境及测试
该文章提供了在Linux CentOS上安装Selenium环境、Chrome浏览器及Chromedriver的详细步骤,并演示了如何以无头模式进行测试。
141 0