Linux 之大数据定制篇-Shell 编程

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: Linux 之大数据定制篇-Shell 编程

Linux 之大数据定制篇-Shell 编程

为什么要学习Shell 编程

  1. Linux 运维工程师在进行服务器集群管理时,需要编写Shell 程序来进行服务器管理。
  2. 对于JavaEE 和Python 程序员来说,工作的需要,你的老大会要求你编写一些Shell 脚本进行程序或者是服务器的维护,比如编写一个定时备份数据库的脚本。
  3. 对于大数据程序员来说,需要编写Shell 程序来管理集群

Shell 是什么

Shell 是一个命令行解释器,它为用户提供了一个向Linux 内核发送请求以便运行程序的界面系统级程序,用户可以用Shell 来启动、挂起、停止甚至是编写一些程序。

看一个示意图

Shell 脚本的执行方式

脚本格式要求

  1. 脚本以#!/bin/bash 开头
  2. 脚本需要有可执行权限

编写第一个Shell 脚本

需求说明:创建一个Shell 脚本,输出hello world!

  1. vim hello.sh
#!/bin/bash
echo "hello,world~"

脚本的常用执行方式

  1. 方式1(输入脚本的绝对路径或相对路径)

说明:首先要赋予helloworld.sh 脚本的+x 权限, 再执行脚本

比如./hello.sh 或者使用绝对路径/root/shcode/hello.sh

  1. 方式2(sh+脚本)

说明:不用赋予脚本+x 权限,直接执行即可。

比如sh hello.sh , 也可以使用绝对路径

Shell 的变量

Shell 变量介绍

  1. Linux Shell 中的变量分为,系统变量和用户自定义变量。
系统变量:$HOME、$PWD、$SHELL、$USER 等等,比如: echo $HOME 等等..
  1. 显示当前shell 中所有变量:set

shell 变量的定义

基本语法
  1. 定义变量:变量名=值
  2. 撤销变量:unset 变量
  3. 声明静态变量:readonly 变量,注意:不能unset
快速入门
  1. 案例1:定义变量A
  2. 案例2:撤销变量A
  3. 案例3:声明静态的变量B=2,不能unset
#!/bin/bash
#案例1:定义变量A
A=100
#输出变量需要加上$
echo A=$A
echo "A=$A"
#案例2:撤销变量A
unset A
echo "A=$A"
#案例3:声明静态的变量B=2,不能unset
readonly B=2
echo "B=$B"
#unset B

shell 变量的定义

定义变量的规则
  1. 变量名称可以由字母、数字和下划线组成,但是不能以数字开头。5A=200(×)
  2. 等号两侧不能有空格
  3. 变量名称一般习惯为大写, 这是一个规范,我们遵守即可

将命令的返回值赋给变量

A=`date`反引号,运行里面的命令,并把结果返回给变量A
  1. A=$(date) 等价于反引号

列如

C=`date`
D=$(date)
echo "C=$C"
echo "D=$D"


设置环境变量

基本语法

  1. export 变量名=变量值(功能描述:将shell 变量输出为环境变量/全局变量)
  2. source 配置文件(功能描述:让修改后的配置信息立即生效)
  3. echo $变量名(功能描述:查询环境变量的值)

快速入门

  1. 在/etc/profile 文件中定义TOMCAT_HOME 环境变量
  2. 查看环境变量TOMCAT_HOME 的值
  3. 在另外一个shell 程序中使用TOMCAT_HOME

**注意:**在输出TOMCAT_HOME 环境变量前,需要让其生效source /etc/profile

#将指令返回的结果赋给变量
:<<!
C=`date`
D=$(date)
echo "C=$C"
echo "D=$D"
!
#使用环境变量TOMCAT_HOME
echo "tomcat_home=$TOMCAT_HOME"
shell 脚本的多行注释
:<<!
 内容
!

位置参数变量

介绍

当我们执行一个shell 脚本时,如果希望获取到命令行的参数信息,就可以使用到位置参数变量比如: ./myshell.sh 100 200 , 这个就是一个执行shell 的命令行,可以在myshell 脚本中获取到参数信息

基本语法

$n (功能描述:n 为数字,$0 代表命令本身,$1-$9 代表第一到第九个参数,十以上的参数,十以上的参数需要用大括号包含,如${10})
$* (功能描述:这个变量代表命令行中所有的参数,$*把所有的参数看成一个整体)
$@(功能描述:这个变量也代表命令行中所有的参数,不过$@把每个参数区分对待)
$#(功能描述:这个变量代表命令行中所有参数的个数)


位置参数变量


案例:编写一个shell 脚本position.sh , 在脚本中获取到命令行的各个参数信息

预定义变量

基本介绍

就是shell 设计者事先已经定义好的变量,可以直接在shell 脚本中使用

基本语法

  1. $$ (功能描述:当前进程的进程号(PID))
  2. $! (功能描述:后台运行的最后一个进程的进程号(PID))
  3. $?(功能描述:最后一次执行的命令的返回状态。如果这个变量的值为0,证明上一个命令正确执行;如果这个变量的值为非0(具体是哪个数,由命令自己来决定),则证明上一个命令执行不正确了。)

应用实例

在一个shell 脚本中简单使用一下预定义变量

名字为preVar.sh

#!/bin/bash
echo "当前执行的进程id=$$"
#以后台的方式运行一个脚本,并获取他的进程号
/root/shcode/myshell.sh &
echo "最后一个后台方式运行的进程id=$!"
echo "执行的结果是=$?"

运算符

基本介绍

学习如何在shell 中进行各种运算操作。

基本语法

  1. “$((运算式))”或“
    $[运算式]”或者expr m + n //expression 表达式
  2. 注意expr 运算符间要有空格, 如果希望将expr 的结果赋给某个变量,使用``
  3. expr m - n
  4. expr *, /, % 乘,除,取余

应用实例

oper.sh

.案例1:计算(2+3)X4 的值

案例2:请求出命令行的两个参数[整数]的和20 50

#!/bin/bash
#案例1:计算(2+3)X4的值
#使用第一种方式
RES1=$(((2+3)*4))
echo "res1=$RES1"
#使用第二种方式, 推荐使用
RES2=$[(2+3)*4]
echo "res2=$RES2"
#使用第三种方式 expr
TEMP=`expr 2 + 3`
RES4=`expr $TEMP \* 4` 
echo "temp=$TEMP"
echo "res4=$RES4" 
#案例2:请求出命令行的两个参数[整数]的和 20 50
SUM=$[$1+$2]
echo "sum=$SUM"

条件判断

判断语句

基本语法

[ condition ](注意condition 前后要有空格)

#非空返回true,可使用$?验证(0 为true,>1 为false)

应用实例

[ wyx ] 返回true

[ ] 返回false

[ condition ] && echo OK || echo notok 条件满足,执行后面的语句

判断语句

常用判断条件
  1. = 字符串比较
  2. 两个整数的比较
    -lt 小于
    -le 小于等于little equal
    -eq 等于
    -gt 大于
    -ge 大于等于
    -ne 不等于
  3. 按照文件权限进行判断3
    -r 有读的权限
    -w 有写的权限
    -x 有执行的权限
  4. 按照文件类型进行判断
    -f 文件存在并且是一个常规的文件
    -e 文件存在
    -d 文件存在并是一个目录

应用实例

案例1:“ok"是否等于"ok”

判断语句:使用=

案例2:23 是否大于等于22

判断语句:使用-ge

案例3:/root/shcode/aaa.txt 目录中的文件是否存在

判断语句: 使用-f

#!/bin/bash
#案例1:"ok"是否等于"ok"
#判断语句:使用 =
if [ "ok" = "ok" ]
then
  echo "equal"
fi
#案例2:23是否大于等于22
#判断语句:使用 -ge
if [ 23 -ge 22 ]
then 
  echo "大于"
fi
#案例3:/root/shcode/aaa.txt 目录中的文件是否存在
#判断语句: 使用 -f 
if [ -f /root/shcode/aaa.txt ]
then 
  echo "存在"
fi
#看几个案例
if [ wyx ]
then 
  echo "hello,wyx"
fi

流程控制

if 判断

基本语法
if [ 条件判断式]
then
代码
fi

或者, 多分支

if [ 条件判断式]
then
代码
elif [条件判断式]
then
代码
fi

注意事项:[ 条件判断式],中括号和条件判断式之间必须有空格

应用实例

ifCase.sh

案例:请编写一个shell 程序,如果输入的参数,大于等于60,则输出"及格了",如果小于60,则输出"不及格"

#!/bin/bash
#案例:请编写一个shell程序,如果输入的参数,大于等于60,则输出 "及格了",如果小于60,则输出 "不及格"
if [ $1 -ge 60 ]
then 
  echo "及格了"
elif [ $1 -lt 60 ] 
then
  echo "不及格"
fi

case 语句

基本语法
case $变量名in
"值1")
如果变量的值等于值1,则执行程序1
;;
"值2")
如果变量的值等于值2,则执行程序2
;;
…省略其他分支…
*)
如果变量的值都不是以上的值,则执行此程序
;;
esac
应用实例

testCase.sh

案例1 :当命令行参数是1 时,输出"周一", 是2 时,就输出"周二", 其它情况输出"other"

#!/bin/bash
#案例1 :当命令行参数是 1 时,输出 "周一", 是2 时,就输出"周二", 其它情况输出  "other"
case $1 in
"1")
echo "周一"
;;
"2")
echo "周二"
;;
*)
echo "other..."
;;
esac

for 循环

基本语法1
for 变量in 值1 值2 值3…
do
程序/代码
done

应用实例testFor1.sh

案例1 :打印命令行输入的参数[这里可以看出 ∗ 和 * 和 @ 的区别]

#!/bin/bash
#案例1 :打印命令行输入的参数 [这里可以看出$* 和 $@ 的区别]
#注意 $* 是把输入的参数,当做一个整体,所以,只会输出一句
for i in "$*"
do 
  echo "num is $i"
done
#使用 $@来获取输入的参数,注意,这时是分别对待,所以有几个参数,就输出几句
echo "======================================"
for j in "$@"
do
  echo "num is $j"
done
基本语法2
for (( 初始值;循环控制条件;变量变化))
do
程序/代码
done
应用实例

testFor2.sh

案例1 :从1 加到100 的值输出显示

#!/bin/bash
#案例1 :从1加到100的值输出显示, 如何把 100做成一个变量
#定义一个变量 SUM
SUM=0
for(( i=1; i<=$1; i++))
do
#写上你的业务代码
  SUM=$[$SUM+$i]
done
echo "总和SUM=$SUM"

while 循环

基本语法1
while [ 条件判断式]
do
程序/代码
done
注意:while 和[有空格,条件判断式和[也有空格
应用实例

testWhile.sh

案例1 :从命令行输入一个数n,统计从1+…+ n 的值是多少?

#!/bin/bash
#案例1 :从命令行输入一个数n,统计从 1+..+ n 的值是多少?
SUM=0
i=0
while [ $i -le $1 ]
do
  SUM=$[$SUM+$i]
  #i自增
  i=$[$i+1]
done
echo "执行结果=$SUM"

read 读取控制台输入

基本语法

read(选项)(参数)

选项:

-p:指定读取值时的提示符;

-t:指定读取值时等待的时间(秒),如果没有在指定的时间内输入,就不再等待了。。

参数

变量:指定读取值的变量名

应用实例

testRead.sh

案例1:读取控制台输入一个NUM1 值

案例2:读取控制台输入一个NUM2 值,在10 秒内输入。

#!/bin/bash
#案例1:读取控制台输入一个NUM1 值
read -p "请输入一个数NUM1=" NUM1
echo "你输入的NUM1=$NUM1"
#案例2:读取控制台输入一个NUM2 值,在10 秒内输入。
read -t 10 -p "请输入一个数NUM2=" NUM2
echo "你输入的NUM2=$NUM2"

函数

函数介绍

shell 编程和其它编程语言一样,有系统函数,也可以自定义函数。系统函数中,我们这里就介绍两个。

系统函数

basename 基本语法

功能:返回完整路径最后/ 的部分,常用于获取文件名

basename [pathname] [suffix]

basename [string] [suffix] (功能描述:basename 命令会删掉所有的前缀包括最后一个(‘/’)字符,然后将字符串显示出来。

选项:

suffix 为后缀,如果suffix 被指定了,

basename 会将pathname 或string 中的suffix 去掉。

dirname 基本语法

功能:返回完整路径最后/ 的前面的部分,常用于返回路径部分

dirname 文件绝对路径(功能描述:从给定的包含绝对路径的文件名中去除文件名(非目录的部分),然后返回剩下的路径(目录的部分))

应用实例
  1. 案例1:请返回/home/aaa/test.txt 的"test.txt" 部分
basename /home/aaa/test.txt
  1. 案例1:请返回/home/aaa/test.txt 的/home/aaa
dirname /home/aaa/test.txt

自定义函数

基本语法
[ function ] funname[()]
{
Action;
[return int;]
}
调用直接写函数名:funname [值]
应用实例

案例1:计算输入两个参数的和(动态的获取), getSum

#!/bin/bash
#案例1:计算输入两个参数的和(动态的获取), getSum
#定义函数 getSum
function getSum() {
  SUM=$[$n1+$n2]
  echo "和是=$SUM"
}
#输入两个值
read -p "请输入一个数n1=" n1
read -p "请输入一个数n2=" n2
#调用自定义函数
getSum $n1 $n2

Shell 编程综合案例

需求分析

  1. 每天凌晨2:30 备份数据库hspedu 到/data/backup/db
  2. 备份开始和备份结束能够给出相应的提示信息
  3. 备份后的文件要求以备份时间为文件名,并打包成.tar.gz 的形式,比如:2021-03-12_230201.tar.gz
  4. 在备份的同时,检查是否有10 天前备份的数据库文件,如果有就将其删除。
  5. 画一个思路分析图

代码

#备份目录
BACKUP=/data/backup/db
#当前时间
DATETIME=$(date +%Y-%m-%d_%H%M%S)
echo $DATETIME
#数据库的地址
HOST=localhost
#数据库用户名
DB_USER=root
#数据库密码
DB_PW=#自己的密码
#备份的数据库名
DATABASE=hspedu
#创建备份目录, 如果不存在,就创建
[ ! -d "${BACKUP}/${DATETIME}" ] && mkdir -p "${BACKUP}/${DATETIME}"
#备份数据库
mysqldump -u${DB_USER} -p${DB_PW} --host=${HOST} -q -R --databases ${DATABASE} | gzip >
${BACKUP}/${DATETIME}/$DATETIME.sql.gz
#将文件处理成tar.gz
cd ${BACKUP}
tar -zcvf $DATETIME.tar.gz ${DATETIME}
#删除对应的备份目录
rm -rf ${BACKUP}/${DATETIME}
#删除10 天前的备份文件
find ${BACKUP} -atime +10 -name "*.tar.gz" -exec rm -rf {} \;
echo "备份数据库${DATABASE} 成功~"


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
目录
相关文章
|
3月前
|
Unix Shell Linux
LeetCode刷题 Shell编程四则 | 194. 转置文件 192. 统计词频 193. 有效电话号码 195. 第十行
本文提供了几个Linux shell脚本编程问题的解决方案,包括转置文件内容、统计词频、验证有效电话号码和提取文件的第十行,每个问题都给出了至少一种实现方法。
LeetCode刷题 Shell编程四则 | 194. 转置文件 192. 统计词频 193. 有效电话号码 195. 第十行
|
2月前
|
存储 缓存 分布式计算
大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍
大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍
44 4
|
3月前
|
Shell Linux
Linux shell编程学习笔记30:打造彩色的选项菜单
Linux shell编程学习笔记30:打造彩色的选项菜单
|
3天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
17 2
|
1月前
|
运维 监控 Shell
深入理解Linux系统下的Shell脚本编程
【10月更文挑战第24天】本文将深入浅出地介绍Linux系统中Shell脚本的基础知识和实用技巧,帮助读者从零开始学习编写Shell脚本。通过本文的学习,你将能够掌握Shell脚本的基本语法、变量使用、流程控制以及函数定义等核心概念,并学会如何将这些知识应用于实际问题解决中。文章还将展示几个实用的Shell脚本例子,以加深对知识点的理解和应用。无论你是运维人员还是软件开发者,这篇文章都将为你提供强大的Linux自动化工具。
|
2月前
|
存储 缓存 分布式计算
大数据-89 Spark 集群 RDD 编程-高阶 编写代码、RDD依赖关系、RDD持久化/缓存
大数据-89 Spark 集群 RDD 编程-高阶 编写代码、RDD依赖关系、RDD持久化/缓存
47 4
|
2月前
|
Shell
Shell编程(下)
Shell编程(下)
110 1
|
2月前
|
Shell Linux Windows
Shell编程(上)
Shell编程(上)
47 1
|
2月前
|
分布式计算 Java 大数据
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
42 0
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
|
2月前
|
Shell Linux 开发工具
下一篇
DataWorks