阿里云ECS服务器上安装大数据环境步骤教程

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 之前疫情在家,参加了阿里云的在家云实践,白嫖了半年的云服务器,感觉体验还不错。最近推出有阿里云活动,1vCPU,2G内存的主机一年只要94,忍不住又冲了一波,用来装个完整的大数据环境。大致顺序如下:

之前疫情在家,参加了阿里云的在家云实践,白嫖了半年的云服务器,感觉体验还不错。最近推出有阿里云活动,1vCPU,2G内存的主机一年只要94,忍不住又冲了一波,用来装个完整的大数据环境。大致顺序如下:


  1. 安装Java
  2. 安装Hadoop 3.1.3
  3. 安装Anaconda3
  4. 安装Scala 2.11.12
  5. 安装Spark 2.4.0
  6. 安装sbt 0.13.11
  7. 安装Kafka 0.10.2.0

主要参考林子雨老师的博客,剩下的HBase,Hive啥的,以后有时间再慢慢配置。这里记录一下安装过程中出现的问题。


1、查看Hadoop版本报错


Java环境变量已经配置完成后,安装Hadoop 3.1.3,查看版本时报错。


./bin/hadoop version ERROR: JAVA_HOME is not set and could not be found.

检查环境变量:


java -version java version "1.8.0_162" Java(TM) SE Runtime Environment (build 1.8.0_162-b12) Java HotSpot(TM) 64-Bit Server VM (build 25.162-b12, mixed mode) echo $JAVA_HOME /usr/lib/jvm/jdk1.8.0_162

都是正常的,但是Hadoop还是无法找到Java。查了一下还需要在../hadoop/etc/hadoop/hadoop-env.sh中声明Java的路径。


cd /usr/local/hadoop/etc/ vim hadoop-env.sh

在里面加上export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162,再次运行查看版本的命令就成功了。


./bin/hadoop version Hadoop 3.1.3 Source code repository https://gitbox.apache.org/repos/asf/hadoop.git -r ba631c436b806728f8ec2f54ab1e289526c90579 Compiled by ztang on 2019-09-12T02:47Z Compiled with protoc 2.5.0 From source with checksum ec785077c385118ac91aadde5ec9799 This command was run using /usr/local/hadoop/share/hadoop/common/hadoop-common-3.1.3.jar

2、启动Scala shell报错


安装完Scala,一启动就报错,淦!!!!!!!!!


./bin/scala Welcome to Scala 2.11.12 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_162). Type in expressions for evaluation. Or try :help. [ERROR] Failed to construct terminal; falling back to unsupported java.lang.NumberFormatException: For input string: "0x100" at java.lang.NumberFormatException.forInputString(NumberFormatException.java:65) at java.lang.Integer.parseInt(Integer.java:580) at java.lang.Integer.valueOf(Integer.java:766) at jline.internal.InfoCmp.parseInfoCmp(InfoCmp.java:59) at jline.UnixTerminal.parseInfoCmp(UnixTerminal.java:242) at jline.UnixTerminal.<init>(UnixTerminal.java:65) at jline.UnixTerminal.<init>(UnixTerminal.java:50) at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method) at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62) at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45) at java.lang.reflect.Constructor.newInstance(Constructor.java:423) at java.lang.Class.newInstance(Class.java:442) at jline.TerminalFactory.getFlavor(TerminalFactory.java:211) at jline.TerminalFactory.create(TerminalFactory.java:102) at jline.TerminalFactory.get(TerminalFactory.java:186) at jline.TerminalFactory.get(TerminalFactory.java:192) at jline.console.ConsoleReader.<init>(ConsoleReader.java:243) at jline.console.ConsoleReader.<init>(ConsoleReader.java:235) at jline.console.ConsoleReader.<init>(ConsoleReader.java:223) at scala.tools.nsc.interpreter.jline.JLineConsoleReader.<init>(JLineReader.scala:64) at scala.tools.nsc.interpreter.jline.InteractiveReader.<init>(JLineReader.scala:33) at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method) at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62) at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45) at java.lang.reflect.Constructor.newInstance(Constructor.java:423) at scala.tools.nsc.interpreter.ILoop$$anonfun$scala$tools$nsc$interpreter$ILoop$$instantiater$1$1.apply(ILoop.scala:858) at scala.tools.nsc.interpreter.ILoop$$anonfun$scala$tools$nsc$interpreter$ILoop$$instantiater$1$1.apply(ILoop.scala:855) at scala.tools.nsc.interpreter.ILoop.scala$tools$nsc$interpreter$ILoop$$mkReader$1(ILoop.scala:862) at scala.tools.nsc.interpreter.ILoop$$anonfun$22$$anonfun$apply$10.apply(ILoop.scala:873) at scala.tools.nsc.interpreter.ILoop$$anonfun$22$$anonfun$apply$10.apply(ILoop.scala:873) at scala.util.Try$.apply(Try.scala:192) at scala.tools.nsc.interpreter.ILoop$$anonfun$22.apply(ILoop.scala:873) at scala.tools.nsc.interpreter.ILoop$$anonfun$22.apply(ILoop.scala:873) at scala.collection.immutable.Stream.map(Stream.scala:418) at scala.tools.nsc.interpreter.ILoop.chooseReader(ILoop.scala:873) at scala.tools.nsc.interpreter.ILoop$$anonfun$process$1$$anonfun$newReader$1$1.apply(ILoop.scala:893) at scala.tools.nsc.interpreter.ILoop$$anonfun$process$1.newReader$1(ILoop.scala:893) at scala.tools.nsc.interpreter.ILoop$$anonfun$process$1.scala$tools$nsc$interpreter$ILoop$$anonfun$$preLoop$1(ILoop.scala:897) at scala.tools.nsc.interpreter.ILoop$$anonfun$process$1$$anonfun$startup$1$1.apply(ILoop.scala:964) at scala.tools.nsc.interpreter.ILoop$$anonfun$process$1.apply$mcZ$sp(ILoop.scala:990) at scala.tools.nsc.interpreter.ILoop$$anonfun$process$1.apply(ILoop.scala:891) at scala.tools.nsc.interpreter.ILoop$$anonfun$process$1.apply(ILoop.scala:891) at scala.reflect.internal.util.ScalaClassLoader$.savingContextLoader(ScalaClassLoader.scala:97) at scala.tools.nsc.interpreter.ILoop.process(ILoop.scala:891) at scala.tools.nsc.MainGenericRunner.runTarget$1(MainGenericRunner.scala:74) at scala.tools.nsc.MainGenericRunner.run$1(MainGenericRunner.scala:87) at scala.tools.nsc.MainGenericRunner.process(MainGenericRunner.scala:98) at scala.tools.nsc.MainGenericRunner$.main(MainGenericRunner.scala:103) at scala.tools.nsc.MainGenericRunner.main(MainGenericRunner.scala) scala>

但是好像不影响使用。修改.profile可以解决这个问题。


cd vim .profile # 添加export TERM=xterm-color source .profile

这样就解决了。但是不知道是为什么解决的,看了几个博客,都是这样那样再这样,就OK了。前几天刚安装了一遍Scala 2.11.12,那时候还好好的,这会儿就出问题了。


3、配置PYSPARK


pyspark的交互式环境本身不需要配置,执行以下命令就可以打开pyspark:


cd /usr/local/spark ./bin/pyspark

使用的Python版本是系统的默认Python版本,也就是你在终端中输入python打开的那一个(之前已经安装好了Anaconda3,此时用的就是Anaconda3自带的Python版本)。但是你在这个Python中却无法导入pyspark相关的包。


>>> from pyspark.sql import Row Traceback (most recent call last): File "<stdin>", line 1, in <module> ModuleNotFoundError: No module named 'pyspark'

需要配置环境变量,在~/.bashrc中添加以下的几行:


export HADOOP_HOME=/usr/local/hadoop export SPARK_HOME=/usr/local/spark export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip:$PYTHONPATH export PYSPARK_PYTHON=python export PATH=$HADOOP_HOME/bin:$SPARK_HOME/bin:$PATH

记得source一下让环境变量生效。这时候再去导入相关的包就不会报错了。上面那些其实也顺便配置了HadoopSpark的环境变量,理论上来说,如果你就只想用默认的Python版本跑pyspark,那只要加上PYTHONPATH的那一行就行了。


4、SBT换源


一开始用的是华为的源,而且似乎源也没给全,会报包下载失败的错误。想了一下我是在阿里云的服务器上,用阿里云的源大概快点?并没有


vim ~/.sbt/repositories

[repositories] aliyun-maven-repo: https://maven.aliyun.com/repository/public aliyun-nexus: https://maven.aliyun.com/nexus/content/groups/public/ typesafe: https://repo.typesafe.com/typesafe/ivy-releases/, [organization]/[module]/(scala_[scalaVersion]/)(sbt_[sbtVersion]/)[revision]/[type]s/artifact.[ext], bootOnly maven-central sonatype-oss-releases sonatype-oss-snapshots ivy-sbt-plugin: https://dl.bintray.com/sbt/sbt-plugin-releases/, [organization]/[module]/(scala_[scalaVersion]/)(sbt_[sbtVersion]/)[revision]/[type]s/artifact.[ext]


换了sbt的版本,改用sbt1.3.8,参考sbt无痛入门指南换源,速度快了很多。


5、Maven换源


参考将Maven源改为国内阿里云仓库


6、阿里云服务器安装HBase


这个有点坑,一开始完全想不到问题出在这里。打开HBase Shell,运行所有命令都会报错。


ERROR: KeeperErrorCode = NoNode for /hbase/master

说是找不到master,启动HBase之后执行jps是有HMaster的。最后检查了很久,发现HDFS中没有hbase文件夹,这时候才想起来配置hbase-site.xml的时候有个地方疏忽了。


<configuration> <property> <name>hbase.rootdir</name> <value>hdfs://xxx.xxx.xxx.xxx:9000/hbase</value> 此处要填写你的阿里云内网IP </property> <property> <name>hbase.cluster.distributed</name> <value>true</value> </property> <property> <name>hbase.unsafe.stream.capability.enforce</name> <value>false</value> </property> </configuration>

云服务器ECS地址:阿里云·云小站


相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情:&nbsp;https://www.aliyun.com/product/ecs
目录
相关文章
|
15天前
|
自然语言处理 监控 数据可视化
如何建设网站:使用阿里云的服务器网站建设5大步骤
企业用阿里云服务器建网站,无需复杂技术,按五步骤即可。先规划需求明确网站功能;再选入门级服务器并初始化;接着部署 PageAdmin CMS,可视化操作易上手;然后选模板填内容搭建网站;最后测试适配与稳定性,绑定域名备案后上线。PageAdmin 还方便后期维护调整。
210 10
|
22天前
|
弹性计算 网络协议 Linux
阿里云服务器ECS创建流程(新手详细图文教程)
本文图解阿里云ECS自定义购买全流程,涵盖付费模式、地域选择、实例规格、镜像、存储、网络、安全组及登录设置等关键步骤,助您快速掌握云服务器配置要点,适合专业用户参考操作。
91 7
|
25天前
|
弹性计算 网络安全 数据库
阿里云服务器购买全攻略:四种方式详解与步骤指引,一文读懂购买流程
阿里云服务器如何租用与购买呢?阿里云服务器有多种购买方式,比较常见的有自定义购买,快速购买,通过活动购买和通过云市场购买,不同的购买方式有不同的购买步骤及适用用户群体。本文将详细介绍阿里云服务器的四种购买途径,并提供图文并茂的操作指南,助您轻松完成云服务器的购买与配置选择。
|
1月前
|
弹性计算 安全 Linux
使用阿里云服务器安装Z-Blog博客网站流程,新手一键部署教程
本教程教你如何在阿里云99元服务器上,通过宝塔Linux面板一键部署Z-Blog博客。基于CentOS 7.9系统,从远程连接、安装宝塔面板、开放端口到部署Z-Blog全流程详解,操作简单,新手也能轻松搭建个人博客网站。
310 13
阿里云服务器多少钱一年学生价?学生免费领取教程
阿里云学生免费领云服务器教程:先领300元学生专享代金券,再用券支付云服务器订单,实现免费领取。亲测有效,快来试试!
|
2月前
|
弹性计算 安全 Linux
阿里云服务器ECS安装宝塔Linux面板、安装网站(新手图文教程)
本教程详解如何在阿里云服务器上安装宝塔Linux面板,涵盖ECS服务器手动安装步骤,包括系统准备、远程连接、安装命令执行、端口开放及LNMP环境部署,手把手引导用户快速搭建网站环境。
|
1月前
|
弹性计算 运维 安全
阿里云轻量应用服务器介绍及搭建个人博客教程参考
阿里云轻量应用服务器是面向单机应用的新一代计算服务,支持一键部署,提供域名、网站、安全、运维等一站式管理,降低云计算使用门槛。本文介绍其产品特性,并详解如何用该服务器搭建WordPress个人博客,适合入门用户和开发者快速上手。
|
1月前
|
存储 缓存 数据挖掘
阿里云目前最便宜云服务器介绍:38元、99元、199元性能,选购攻略参考
轻量应用服务器2核2G峰值200M带宽38元1年;云服务器经济型e实例2核2G3M带宽99元1年;云服务器通用算力型u1实例2核4G5M带宽199元1年。对于还未使用过阿里云服务器的用户来说,大家也不免有些疑虑,这些云服务器性能究竟如何?它们适用于哪些场景?能否满足自己的使用需求呢?接下来,本文将为您全方位介绍这几款云服务器,以供您了解及选择参考。
|
2月前
|
网络安全 云计算
如何设置阿里云轻量应用服务器镜像?
本文介绍了在阿里云轻量应用服务器上创建与配置镜像的详细步骤。镜像是一种特殊的文件系统映射,可用于快速克隆服务器配置。内容涵盖准备条件、登录控制台、创建实例、生成镜像、下载与设置镜像,以及如何使用镜像启动新实例。适合希望提升服务器部署效率的用户参考。
|
1月前
|
弹性计算 Devops Shell
用阿里云 DevOps Flow 实现 ECS 部署自动化:从准备到落地的完整指南
阿里云 DevOps Flow 是一款助力开发者实现自动化部署的高效工具,支持代码流水线构建、测试与部署至ECS实例,显著提升交付效率与稳定性。本文详解如何通过 Flow 自动部署 Bash 脚本至 ECS,涵盖环境准备、流水线搭建、源码接入、部署流程设计及结果验证,助你快速上手云上自动化运维。
155 0

热门文章

最新文章