基于云服务器的数仓搭建-服务器配置

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: 本文介绍了购置并配置三台云服务器的详细步骤。使用FinalShell连接服务器,并安装了必要的工具如epel-release、net-tools和vim。关闭防火墙后,在/opt目录下创建module和software文件夹,卸载默认JDK并修改主机名。添加环境变量路径/home/alpfree/bin,编写集群分发脚本xsync实现文件同步,配置无密登录,安装并分发JDK。参考资料来自海波老师的电商数仓课程。

购置三台云服务器,总支出353/年,华为云/百度云/ucloud的新用户优惠(阿里云的之前用掉了,现在买2c2g要900多)。

finalshell连接三台服务器,ssh,输入用户名和密码即可连接成功,服务器侧22端口打开

FinalShell SSH工具,服务器管理,远程桌面加速软件,支持Windows,macOS,Linux,版本4.5.12,更新日期2024.10.30 - FinalShell官网

epel-release、net-tool、vim安装--服务器都默认已安装

#检查有无安装,未安装会提示未安装
rpm -q epel-release
rpm -q net-tools
rpm -q vim-enhanced
# 安装命令
yum install -y epel-release
yum install -y net-tools
yum install -y vim

关闭防火墙及自启-

systemctl stop firewalld
systemctl disable firewalld.service

在/opt目录下创建module、software

mkdir /opt/module /opt/software

卸载虚拟机自带的JDK,没有安装忽略这个步骤--默认未装

# 检查有无安装。选其中一个即可,无安装时,第一个没有返回结果,第二个命令会报命令未发现
rpm -qa | grep -i java
java -version
# 卸载命令
rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps
#  rpm -qa:查询所安装的所有rpm软件包
#  grep -i:忽略大小写
#  xargs -n1:表示每次只传递一个参数
#  rpm -e –nodeps:强制卸载软件

修改主机名

# 查看主机名,执行一个即可
hostname
hostnamectl
cat /etc/hostname
# baidu instance-g3ujf8wq 
# 180.76.xx
# 修改主机名称
vim /etc/hostname
hadoop2
#非重启生效,执行下述命令
hostnamectl set - hostname hadoop2
# 重启,now换成+5为5分钟后
shutdown -r now
reboot
# 华为 hcss-ecs-3706
# 113.45.xx
hadoop1
# ucloud 原主机名:10-13-134-222
# 106.75.xx
hadoop3
# 映射ip和主机名,本地通信映射(将当前主机对应host修改为内部ip地址)
vim /etc/hosts
#汇总
113.45.xx hadoop1
180.76.xx hadoop2
106.75.xx hadoop3

添加环境变量路径:home/alpfree/bin

# echo $PATH 命令输出的是当前用户环境下的 PATH 环境变量值,当您尝试运行一个命令时,如果命令存在于上述任何一个目录中,那么这个命令就会被执行
echo $PATH
# 服务器上执行后返回: /usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin(最后一个目录其实不存在)
# 创建文件夹,并添加为环境变量 home/alpfree/bin
mkdir -p /home/alpfree/bin
# 编辑 .bashrc 或 .bash_profile,以 .bashrc 为例(隐藏文件默认看不到)
# 文件末尾添加以下内容 
export PATH=$PATH:/home/alpfree/bin
# 输入 : 进入命令行模式,输入 wq 然后按回车键,这代表写入(保存)并退出
# 重新加载配置文件,~代表当前用户的主目录
vim ~/.bashrc
source ~/.bashrc
# 查看 .bashrc 命令 
ls -a ~

编写集群分发脚本xsync

# 循环复制文件到所有节点的相同目录下
# rsync命令原始拷贝,将本地 /opt/module 目录同步到名为 hadoop103 的远程服务器的 /opt/ 目录下
rsync  -av     /opt/module       root@hadoop103:/opt/
# -av 
# -a:归档模式,表示递归同步且保持文件属性等信息。
# -v:详细模式,显示同步过程的详细信息。
# 源路径为 /opt/module,意味着将此目录下的所有内容作为同步的源。
# 目标路径 root@hadoop103:/opt/ 表示通过 SSH 连接到 hadoop103 服务器,以 root 用户身份,将文件同步至该服务器的 /opt/ 目录

在home/alpfree/bin创建xsync

vim xsync

#1. 判断参数个数
if [ $# -lt 1 ]
then
  echo Not Enough Arguement!
  exit;
fi
#2. 遍历集群所有机器
for host in hadoop1 hadoop2 hadoop3
do
  echo ====================  $host  ====================
  #3. 遍历所有目录,挨个发送
  for file in $@
  do
    #4 判断文件是否存在
    if [ -e $file ]
    then
      #5. 获取父目录
      pdir=$(cd -P $(dirname $file); pwd)
      #6. 获取当前文件的名称
      fname=$(basename $file)
      ssh $host "mkdir -p $pdir"
      rsync -av $pdir/$fname $host:$pdir
    else
      echo $file does not exists!
    fi
  done
done
# 创建完成后,赋予权限
chmod 777 xsync
# 验证,显示未找到命令,则未安装
xsync xsync
#检查和安装,验证
rpm -q rsync
sudo yum install rsync
rsync --version

无密登录配置

# 现机器hadoop1,配置的是NameNode,hadoop2配置的是ResourceManager,都要求对其他节点无密访问
# 生成公钥和私钥,然后敲(三个回车),就会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)
# 会在用户主目录下的.ssh文件夹中生成
ssh-keygen -t rsa
# 将h1公钥拷贝到要免密登录的目标机器上,其中要输入密码
ssh-copy-id hadoop1
ssh-copy-id hadoop2
ssh-copy-id hadoop3
# hadoop2生成公钥和私钥
ssh-keygen -t rsa
#将h2公钥拷贝到要免密登录的目标机器上
ssh-copy-id hadoop1
ssh-copy-id hadoop2
ssh-copy-id hadoop3

在h1上安装jdk

# 将jdk导入到/opt/software文件夹下面
finalshell
# 查看导入是否成功
ls /opt/software/
# 解压到/opt/module目录下, -C 将文件放置到指定的目录中
tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/
# 配置JDK环境变量,新建/etc/profile.d/my_env.sh文件,
# /etc/profile.d 目录主要用于存放系统环境变量和 shell 配置脚本
vim /etc/profile.d/my_env.sh
# 添加如下内容
#原文档错误 export JAVA_HOME=/opt/module/jdk-1.8.0
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin
# 让环境变量生效
source /etc/profile.d/my_env.sh
# 检查是否安装成功
java -version

分发jdk

# 分发JDK
xsync /opt/module/jdk1.8.0_212
# 分发环境变量配置文件
sudo /home/alpfree/bin/xsync /etc/profile.d/my_env.sh
# 分别在hadoop2、hadoop2上执行sourc
source /etc/profile.d/my_env.sh


参考资料

海波老师-电商数仓

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
16天前
|
存储 弹性计算 运维
阿里云服务器介绍:什么是ECS、使用场景及租用流程(图解)
阿里云服务器ECS是阿里云提供的虚拟化计算服务,用户可按需租赁使用,无需自建机房。它具备高可用、高安全、弹性伸缩、成本节约等优势,适用于网站搭建、数据应用、运维测试等多种场景。本文详解ECS组成、架构、使用方法及与传统服务器的区别。
167 3
|
23天前
|
存储 弹性计算 Linux
阿里云服务器从零到精通的购买指南,云服务器购买流程及注意事项参考
对于许多初次接触阿里云服务器的用户而言,如何选择云服务器配置以及在选购过程中有哪些注意事项,是新手用户比较关心的问题。本文为大家展示阿里云服务器选购的完整指南,涵盖了通过云服务器ECS产品页下单的详细步骤,以及通过阿里云的活动选购价格比较实惠的云服务器。重点是介绍每一步的注意事项,以供初次选购阿里云服务器的个人开发者和企业用户参考,尽量一次选购好,避免出现买错从新买的情况出现。
|
29天前
|
弹性计算
阿里云服务器租用费用:企业用配置推荐ECS u1性价比首选
阿里云企业专享服务器推荐ECS u1实例,2核4G配置,5M带宽,80G系统盘,年费199元,适合企业用户,续费同价。更多优惠配置可选,助力企业高效上云。
|
29天前
|
存储 弹性计算 安全
阿里云服务器购买价格:云服务器按量、包年包月收费标准与最新活动价格表参考
阿里云服务器按量、包年包月收费标准价格表参考,轻量应用云服务器2核2G38元1年起,经济型e实例2核2G3M带宽99元1年,通用算力型u1实例2核4G5M带宽199元1年。选择不同的实例规格,价格不一样,同时不同地域之间的云服务器价格也有所差异,下面是小编整理的阿里云服务器按量与包年包月收费标准和最新活动价格表,以供参考。
|
2月前
|
弹性计算
阿里云海外云服务器租赁价格:轻量+ECS云服务器,境外节点整理
阿里云推出2025年最新海外云服务器租赁方案,轻量应用服务器200M带宽,25元/月起,支持中国香港、新加坡、日本、美国等14个地域节点。配置从2核0.5G到4核16G可选,ESSD系统盘、BGP线路,适合多场景应用。ECS云服务器同样提供丰富配置选择,满足不同业务需求,详情请访问阿里云官网。
494 66
|
12天前
|
弹性计算 固态存储 JavaScript
阿里云4核8G服务器ECS配置大全以及参考价格整理
阿里云4核8G服务器ECS提供多种实例规格选择,如通用算力型u1、计算型c8i、经济型e等,价格从每月216元至879元不等。当前u1实例年付仅955元,支持3M带宽下约30人并发访问,适用于日均万级IP应用,系统盘为20GB-40GB ESSD Entry云盘,性能稳定,适合企业及开发者使用。
126 4
|
1月前
|
存储 弹性计算
阿里云服务器一小时收费价格,不同ECS是实例按量付费1小时费用整理
阿里云ECS云服务器按小时计费,价格根据实例类型和配置不同而异。例如经济型e实例2核2G配置0.094元/小时,通用算力型u1实例2核4G配置0.351元/小时,计算型c9i实例2核4G配置0.3873元/小时,4核8G配置0.7746元/小时。不同规格实例价格差异明显,具体以官网信息为准。
|
22天前
|
弹性计算 运维 网络安全
阿里云轻量应用服务器和ecs区别:适用人群、使用场景、性能差异及限制全方位对比
阿里云轻量应用服务器适用于个人开发者和中小企业,适合网站建设、小型应用等轻量场景,使用门槛低,自带应用镜像和可视化运维;而云服务器ECS面向企业级用户,支持高可用、高容灾和集群类应用,适用于专业级、复杂业务场景。两者在适用人群、业务场景、产品优势及使用限制等方面存在明显差异,用户可根据实际需求选择。
111 0
|
1月前
|
弹性计算 云计算
阿里云服务器ECS是什么?一张图看懂云服务器ECS全解析
阿里云云服务器ECS(Elastic Compute Service)是阿里云提供的高性能、稳定可靠、弹性扩展的基础设施即服务(IaaS)云计算服务。它免去传统IT硬件采购流程,让用户像使用水电一样便捷使用计算资源,实现即开即用与弹性伸缩。详细了解请访问阿里云官方页面。
|
2月前
|
存储 弹性计算 固态存储
阿里云服务器收费标准与最新活动价格一览,轻量应用服务器38元起,云服务器99元起
阿里云服务器最新价格参考,云服务器的收费标准主要包含CPU内存配置价格、云盘价格和带宽价格等,官方会不定期调整收费标准和活动价格,目前,共享型经济型e实例云服务器2核2G3M还是只要99元1年,独享型通用算力型u1实例云服务器2核4G5M企业用户购买只要199元1年,而轻量应用服务器的抢购价格已经到了38元1年,每天仅需0.1元。更多配置的云服务器的最新收费标准和活动价格表见下文。