【小白视角】大数据基础实践(一)搭建Hadoop集群

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 【小白视角】大数据基础实践(一)搭建Hadoop集群

大数据实践第一篇,面向小白编程

搭建Hadoop集群

大数据实践第一篇,面向小白编程

Ubuntu的操作

1.下载文件

1.1下载ubuntu镜像文件

1.2 下载及安装VMware

1.3在VMware安装Ubuntu

1.4安装VMware Tools工具

2.安装必要配置

2.1换源

2.2 安装vim

2.3 安装net-tools

2.4 安装jdk1.8

2.4.1创建

2.4.2配置环境

2.5 open-server

3 配置静态IP

3.1设置

3.2 配置

3.3修改配置文件

3.3.1 interfaces文件

3.3.2 DNS服务文件

3.4 重启网卡

4 安装IDEA

5 配置ssh免密登陆

5.1确认ssh服务安装并启动

6 搭建Hadoop集群

6.1 克隆

6.2 使用xftp6

6.3 将私钥放入其他两台机子当中

Ubuntu的操作

1.下载文件

1.1下载ubuntu镜像文件

注:推荐使用16.04或是18.04版本


下载地址链接pub.mirrors.aliyun.com


进入下载页面,如下图,选择版本进入选择 ubuntu-X.X.X-desktop-amd64.iso 下载即可


image.png


1.2 下载及安装VMware

百度搜索随便安装即可,建议安装到磁盘比较大的地方,其他选择默认就可以了,网上找找破解码即可。


1.3在VMware安装Ubuntu

image.png



image.png

选择下载的iso文件


image.png


然后随便搞搞这个,密码最好简单一点,我是用root


image.png


虚拟机名字可以整成Hadoop,位置最好不要放C盘,放其他大一点的盘,


image.png


然后一直按下一步就行了


image.png


然后等待安装完就行了。


进去之后


image.png


image.png


image.png


继续就可了


选择城市


image.png


image.png


密码就随便搞搞吧


image.png


然后就可以了


image.png


1.4安装VMware Tools工具

点击虚拟机进行安装即可。然后重启一下就行了。


image.png


2.安装必要配置

2.1换源

我们先要换源


找到这个Software & Update


image.png


找到自己想要换的源头


image.png


即可

sudo apt-get install vim
sudo apt-get update

2.3 安装net-tools


image.png

2.4 安装jdk1.8

2.4.1创建

创建一个文件将jdk包放入


image.png


2.4.2配置环境

vim ~/.bashrc


image.png


像这样配置环境即可


image.png


退出并保存.bashrc文件,用source命令使之生效,能在任意目录下查看Java版本号、或执行java命令表示JDPK配置成功


2.5 open-server

sudo apt-get install openssh-server

1

3 配置静态IP

3.1设置

Vmware 菜单栏“虚拟机”→“设置”→“网络适配器”→“桥接模式”


image.png


3.2 配置

虚拟网络编辑器中设置虚拟网络连接到的外部网络 Vmware 菜单栏“编辑”→“虚拟网络编辑器”


image.png


image.png


3.3修改配置文件

3.3.1 interfaces文件

sudo vim /etc/network/interfaces


image.png

3.3.2 DNS服务文件

sudo vim /etc/systemd/resolved.conf

image.png


3.4 重启网卡

sudo /etc/init.d/networking restart


image.png


出现ok即可


测试ping百度,发现可以就行了。


image.png


查看ip是否被修改了。


image.png


4 安装IDEA

找到下载中心安装即可。


image.png


运行hello world可以,即可

image.png

5 配置ssh免密登陆

5.1确认ssh服务安装并启动


image.png

使用

dpkg –l | grep ssh
ps –e | grep ssh


确认ssh服务安装并启动


image.png


在用户根目录输入指令

ssh-keygen -t rsa

image.png

免密登陆所以直接回车就可以了


image.png


id_rsa为私钥,id_rsa.pub为公钥


创建一个authorized_keys文件用于存放远程免密登录机器的公钥,再将本机公钥追加到authorized_keys文件中,实现本机免密登录。最后赋予authorized_keys文件有效权限。


最后

ssh localhost

免密登陆成功。


image.png


6 搭建Hadoop集群

6.1 克隆


image.png


image.png

按照指示就可以完成克隆了。建议命名成Hadoop1,Hadoop2


然后按照要求再将其中地址更改,防止一样的造成冲突。


我是主机Hadoop 192.168.43.200


Hadoop-Clone1192.168.43.201


Hadoop-Clone2 192.168.43.202


image.png


6.2 使用xftp6

使用xftp6辅助,将每台机器的公钥文件id_rsa.pub分别复制到其他两台机器上。


image.png



image.png

另外克隆的两台机子的也要进行步骤5的ssh免密登陆的操作。


6.3 将私钥放入其他两台机子当中

image.png


image.png

image.png

6.4 测试 ssh 是否成功


注意ssh 后面跟着是你的主机 我的是031904102 所以ssh 031904102 ,031904102是我主节点的名字。


image.png


成功Hadoop集群便搭建成功了!


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
3月前
|
存储 数据采集 搜索推荐
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
本篇文章探讨了 Java 大数据在智慧文旅景区中的创新应用,重点分析了如何通过数据采集、情感分析与可视化等技术,挖掘游客情感需求,进而优化景区服务。文章结合实际案例,展示了 Java 在数据处理与智能推荐等方面的强大能力,为文旅行业的智慧化升级提供了可行路径。
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
|
3月前
|
数据采集 SQL 搜索推荐
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
OneData是阿里巴巴内部实现数据整合与管理的方法体系与工具,旨在解决指标混乱、数据孤岛等问题。通过规范定义、模型设计与工具平台三层架构,实现数据标准化与高效开发,提升数据质量与应用效率。
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
|
4月前
|
分布式计算 监控 大数据
大数据之路:阿里巴巴大数据实践——离线数据开发
该平台提供一站式大数据开发与治理服务,涵盖数据存储计算、任务调度、质量监控及安全管控。基于MaxCompute实现海量数据处理,结合D2与DataWorks进行任务开发与运维,通过SQLSCAN与DQC保障代码质量与数据准确性。任务调度系统支持定时、周期、手动运行等多种模式,确保高效稳定的数据生产流程。
大数据之路:阿里巴巴大数据实践——离线数据开发
|
3月前
|
存储 SQL 分布式计算
大数据之路:阿里巴巴大数据实践——元数据与计算管理
本内容系统讲解了大数据体系中的元数据管理与计算优化。元数据部分涵盖技术、业务与管理元数据的分类及平台工具,并介绍血缘捕获、智能推荐与冷热分级等技术创新。元数据应用于数据标签、门户管理与建模分析。计算管理方面,深入探讨资源调度失衡、数据倾斜、小文件及长尾任务等问题,提出HBO与CBO优化策略及任务治理方案,全面提升资源利用率与任务执行效率。
|
1月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
|
3月前
|
存储 监控 大数据
大数据之路:阿里巴巴大数据实践——事实表设计
事实表是数据仓库核心,用于记录可度量的业务事件,支持高性能查询与低成本存储。主要包含事务事实表(记录原子事件)、周期快照表(捕获状态)和累积快照表(追踪流程)。设计需遵循粒度统一、事实可加性、一致性等原则,提升扩展性与分析效率。
|
4月前
|
存储 搜索推荐 算法
Java 大视界 -- Java 大数据在智慧文旅旅游线路规划与游客流量均衡调控中的应用实践(196)
本实践案例深入探讨了Java大数据技术在智慧文旅中的创新应用,聚焦旅游线路规划与游客流量调控难题。通过整合多源数据、构建用户画像、开发个性化推荐算法及流量预测模型,实现了旅游线路的精准推荐与流量的科学调控。在某旅游城市的落地实践中,游客满意度显著提升,景区流量分布更加均衡,充分展现了Java大数据技术在推动文旅产业智能化升级中的核心价值与广阔前景。
|
存储 分布式计算 大数据
大数据之路:阿里巴巴大数据实践——大数据领域建模综述
数据建模解决数据冗余、资源浪费、一致性缺失及开发低效等核心问题,通过分层设计提升性能10~100倍,优化存储与计算成本,保障数据质量并提升开发效率。相比关系数据库,数据仓库采用维度建模与列式存储,支持高效分析。阿里巴巴采用Kimball模型与分层架构,实现OLAP场景下的高性能计算与实时离线一体化。
|
4月前
|
SQL 缓存 监控
大数据之路:阿里巴巴大数据实践——实时技术与数据服务
实时技术通过流式架构实现数据的实时采集、处理与存储,支持高并发、低延迟的数据服务。架构涵盖数据分层、多流关联,结合Flink、Kafka等技术实现高效流计算。数据服务提供统一接口,支持SQL查询、数据推送与定时任务,保障数据实时性与可靠性。
|
4月前
|
存储 Java 大数据
Java 大视界 —— 基于 Java 的大数据隐私保护在金融客户信息管理中的实践与挑战(178)
本文探讨了基于 Java 的大数据隐私保护技术在金融客户信息管理中的应用与挑战。随着金融行业数字化转型加速,客户信息的安全性愈发重要。文章详细分析了数据加密、脱敏、访问控制、区块链及联邦学习等关键技术,并结合实际案例展示了其在金融机构中的应用效果,为金融科技从业者提供了宝贵的实践经验与技术参考。