基于云服务器的数仓搭建-服务器配置

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: 本文介绍了购置并配置三台云服务器的详细步骤。使用FinalShell连接服务器,并安装了必要的工具如epel-release、net-tools和vim。关闭防火墙后,在/opt目录下创建module和software文件夹,卸载默认JDK并修改主机名。添加环境变量路径/home/alpfree/bin,编写集群分发脚本xsync实现文件同步,配置无密登录,安装并分发JDK。参考资料来自海波老师的电商数仓课程。

购置三台云服务器,总支出353/年,华为云/百度云/ucloud的新用户优惠(阿里云的之前用掉了,现在买2c2g要900多)。

finalshell连接三台服务器,ssh,输入用户名和密码即可连接成功,服务器侧22端口打开

FinalShell SSH工具,服务器管理,远程桌面加速软件,支持Windows,macOS,Linux,版本4.5.12,更新日期2024.10.30 - FinalShell官网

epel-release、net-tool、vim安装--服务器都默认已安装

#检查有无安装,未安装会提示未安装
rpm -q epel-release
rpm -q net-tools
rpm -q vim-enhanced
# 安装命令
yum install -y epel-release
yum install -y net-tools
yum install -y vim

关闭防火墙及自启-

systemctl stop firewalld
systemctl disable firewalld.service

在/opt目录下创建module、software

mkdir /opt/module /opt/software

卸载虚拟机自带的JDK,没有安装忽略这个步骤--默认未装

# 检查有无安装。选其中一个即可,无安装时,第一个没有返回结果,第二个命令会报命令未发现
rpm -qa | grep -i java
java -version
# 卸载命令
rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps
#  rpm -qa:查询所安装的所有rpm软件包
#  grep -i:忽略大小写
#  xargs -n1:表示每次只传递一个参数
#  rpm -e –nodeps:强制卸载软件

修改主机名

# 查看主机名,执行一个即可
hostname
hostnamectl
cat /etc/hostname
# baidu instance-g3ujf8wq 
# 180.76.xx
# 修改主机名称
vim /etc/hostname
hadoop2
#非重启生效,执行下述命令
hostnamectl set - hostname hadoop2
# 重启,now换成+5为5分钟后
shutdown -r now
reboot
# 华为 hcss-ecs-3706
# 113.45.xx
hadoop1
# ucloud 原主机名:10-13-134-222
# 106.75.xx
hadoop3
# 映射ip和主机名,本地通信映射(将当前主机对应host修改为内部ip地址)
vim /etc/hosts
#汇总
113.45.xx hadoop1
180.76.xx hadoop2
106.75.xx hadoop3

添加环境变量路径:home/alpfree/bin

# echo $PATH 命令输出的是当前用户环境下的 PATH 环境变量值,当您尝试运行一个命令时,如果命令存在于上述任何一个目录中,那么这个命令就会被执行
echo $PATH
# 服务器上执行后返回: /usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin(最后一个目录其实不存在)
# 创建文件夹,并添加为环境变量 home/alpfree/bin
mkdir -p /home/alpfree/bin
# 编辑 .bashrc 或 .bash_profile,以 .bashrc 为例(隐藏文件默认看不到)
# 文件末尾添加以下内容 
export PATH=$PATH:/home/alpfree/bin
# 输入 : 进入命令行模式,输入 wq 然后按回车键,这代表写入(保存)并退出
# 重新加载配置文件,~代表当前用户的主目录
vim ~/.bashrc
source ~/.bashrc
# 查看 .bashrc 命令 
ls -a ~

编写集群分发脚本xsync

# 循环复制文件到所有节点的相同目录下
# rsync命令原始拷贝,将本地 /opt/module 目录同步到名为 hadoop103 的远程服务器的 /opt/ 目录下
rsync  -av     /opt/module       root@hadoop103:/opt/
# -av 
# -a:归档模式,表示递归同步且保持文件属性等信息。
# -v:详细模式,显示同步过程的详细信息。
# 源路径为 /opt/module,意味着将此目录下的所有内容作为同步的源。
# 目标路径 root@hadoop103:/opt/ 表示通过 SSH 连接到 hadoop103 服务器,以 root 用户身份,将文件同步至该服务器的 /opt/ 目录

在home/alpfree/bin创建xsync

vim xsync

#1. 判断参数个数
if [ $# -lt 1 ]
then
  echo Not Enough Arguement!
  exit;
fi
#2. 遍历集群所有机器
for host in hadoop1 hadoop2 hadoop3
do
  echo ====================  $host  ====================
  #3. 遍历所有目录,挨个发送
  for file in $@
  do
    #4 判断文件是否存在
    if [ -e $file ]
    then
      #5. 获取父目录
      pdir=$(cd -P $(dirname $file); pwd)
      #6. 获取当前文件的名称
      fname=$(basename $file)
      ssh $host "mkdir -p $pdir"
      rsync -av $pdir/$fname $host:$pdir
    else
      echo $file does not exists!
    fi
  done
done
# 创建完成后,赋予权限
chmod 777 xsync
# 验证,显示未找到命令,则未安装
xsync xsync
#检查和安装,验证
rpm -q rsync
sudo yum install rsync
rsync --version

无密登录配置

# 现机器hadoop1,配置的是NameNode,hadoop2配置的是ResourceManager,都要求对其他节点无密访问
# 生成公钥和私钥,然后敲(三个回车),就会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)
# 会在用户主目录下的.ssh文件夹中生成
ssh-keygen -t rsa
# 将h1公钥拷贝到要免密登录的目标机器上,其中要输入密码
ssh-copy-id hadoop1
ssh-copy-id hadoop2
ssh-copy-id hadoop3
# hadoop2生成公钥和私钥
ssh-keygen -t rsa
#将h2公钥拷贝到要免密登录的目标机器上
ssh-copy-id hadoop1
ssh-copy-id hadoop2
ssh-copy-id hadoop3

在h1上安装jdk

# 将jdk导入到/opt/software文件夹下面
finalshell
# 查看导入是否成功
ls /opt/software/
# 解压到/opt/module目录下, -C 将文件放置到指定的目录中
tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/
# 配置JDK环境变量,新建/etc/profile.d/my_env.sh文件,
# /etc/profile.d 目录主要用于存放系统环境变量和 shell 配置脚本
vim /etc/profile.d/my_env.sh
# 添加如下内容
#原文档错误 export JAVA_HOME=/opt/module/jdk-1.8.0
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin
# 让环境变量生效
source /etc/profile.d/my_env.sh
# 检查是否安装成功
java -version

分发jdk

# 分发JDK
xsync /opt/module/jdk1.8.0_212
# 分发环境变量配置文件
sudo /home/alpfree/bin/xsync /etc/profile.d/my_env.sh
# 分别在hadoop2、hadoop2上执行sourc
source /etc/profile.d/my_env.sh


参考资料

海波老师-电商数仓

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
4天前
|
存储 开发框架 安全
阿里云轻量应用服务器38元与云服务器99元和199元区别及选择参考
2025年,阿里云推出了多款价格比较实惠的轻量应用服务器和云服务器,这些产品以其卓越的性能和亲民的价格,吸引了众多个人开发者、小型网站以及中小企业的关注。本文将对这几款轻量应用服务器和云服务器进行详细对比和测评,分析其性能和适用场景,以供大家在选择时参考。
|
15天前
|
机器学习/深度学习 弹性计算 固态存储
2025年阿里云服务器租用价格参考:云服务器ECS最新收费标准及活动价格表
2025年,阿里云服务器ECS的租用价格再次迎来更新,1月22日12:00开始,阿里云又开启新一轮的降价政策,部分实例规格的云服务器收费标准有所变化,同时为了进一步降低了用户上云的成本,阿里云还会不定期推出各种活动。现在月付和年付租用阿里云服务器均有优惠了,本文为大家整理汇总了截止目前阿里云服务器最新的租用收费标准及活动价格表,以供了解与参考选择。
401 10
|
1月前
|
弹性计算 运维 安全
阿里云服务器ecs和轻量应用服务器的区别——如何选择比较好?
阿里云ECS与轻量应用服务器对比:ECS适合企业专业场景,功能强大、配置灵活;轻量应用服务器基于ECS简化而来,面向个人开发者,适用于低访问量网站或学习测试,操作简单、成本低。两者在适用人群、使用场景、计费方式、网络带宽等方面各有差异,用户可根据需求选择。如需简易管理与低成本,选轻量应用服务器;追求高性能与复杂业务支持,则云服务器ECS更优。
134 6
|
1月前
|
存储 弹性计算 缓存
阿里云服务器99元和199元与轻量应用服务器38元各自性能、适用场景与选择参考
2025年,阿里云推出了多款低价特惠云服务器,其中轻量应用云服务器2核2G 200M带宽 40G ESSD云盘38元1年,云服务器ECS 2核2G 3M带宽 40G ESSD Entry盘活动价99元1年,而2核4G 5M带宽 80G ESSD Entry盘则仅售199元1年。对于还未使用过阿里云轻量应用服务器和云服务器的用户来说,并不是很清楚他们各自有性能怎么样,主要使用场景有哪些,本文来做个简单介绍与对比,以供参考和选择。
|
1月前
|
弹性计算 固态存储 大数据
阿里云服务器租用费用价格表:2025最新轻量+ECS+GPU优惠1年、1个月和1小时报价单
阿里云服务器租用费用价格表涵盖2025年最新轻量应用服务器、ECS云服务器及GPU服务器优惠报价。轻量应用服务器2核2G配置,一年仅68元(秒杀38元),适合个人开发者;ECS云服务器提供多种规格,如2核2G经济型99元/年、2核4G企业专享199元/年。高性能实例如4核16G游戏服务器70元/月,8核32G为160元/月。GPU服务器方面,T4计算卡4核15G配置低至1878.4元/月。此外,阿里云支持按小时计费,灵活满足不同需求。续费优惠政策明确,长周期享更高折扣,具体以官方页面为准。
|
1月前
|
存储 弹性计算 安全
ECS与VPS技术角力:从算力成本到免备案雷区,企业服务器选型合规指南
在数字化浪潮中,服务器选择至关重要。ECS(云服务器)和VPS(虚拟专用服务器)是热门选项。ECS基于云计算,提供高可用性和弹性伸缩,适合大型项目;VPS通过分割物理服务器实现资源独立,成本较低,适合小型应用。两者在网络、存储及计算性能上各有优劣,需根据需求选择。国内并不存在合法的免备案服务器,建议严格遵守法规,确保网站合法运营。
76 3
|
1月前
|
弹性计算 运维 Cloud Native
阿里云虚拟主机、轻量应用服务器、云服务器、云·速成美站、云·原生建站区别及选择参考
在选择阿里云产品完整自己网站搭建的时候,面对云虚拟主机、轻量应用服务器、云服务器ECS、云·速成美站和云·原生建站等多种选择,很多用户不是很清楚他们之间的区别。每种产品都有其独特的优势和适用场景,如何根据自己的需求和技术背景选择最适合的建站产品,成为了用户关注的焦点。本文将详细比较阿里云这五种建站产品的优势和劣势,以及它们的适用人群,以供选择参考。
|
1月前
|
弹性计算 运维 Ubuntu
在阿里云ECS云服务器上安装、配置及高效使用Docker与Docker Compose
本文介绍了在阿里云ECS上使用Ubuntu系统安装和配置Docker及Docker Compose的详细步骤。通过这些工具,可以快速部署、弹性扩展和高效管理容器化应用,满足开发和运维需求。内容涵盖Docker的安装、镜像源配置、创建Web程序镜像以及使用Docker Compose部署WordPress等实际操作,并分享了使用体验,展示了阿里云实例的高性能和稳定性。
436 4
|
1月前
|
弹性计算 监控 安全
阿里云 ECS 服务器面板如何选择?
阿里云ECS服务器面板是管理云服务器的工具,如同手机的控制中心。它简化了复杂操作,提供一键建站、监控状态、安全管理等功能。常用面板有宝塔(适合个人和小团队)、Websoft9(阿里云官方合作,开机即用)和cPanel(适合企业级需求)。新手使用面板可避免技术坑、节省时间和成本。选择时,根据需求和使用习惯决定:深度用户选Websoft9,极客选宝塔,企业选cPanel。
128 1
|
1月前
|
存储 弹性计算 固态存储
阿里云服务器租用价格参考:云服务器各收费项目收费标准与活动价格
阿里云服务器收费项目有实例价格、预留实例券、专有宿主机、块存储价格、存储容量单位包、带宽价格和快照服务价格,收费模式有包年包月和按量付费模式。本文为大家汇总了2025年阿里云服务器各个收费项目的最新收费标准与云服务器的最新活动价格,以供参考和了解。
下一篇
oss创建bucket