大数据技术之Shell(3)

2023-09-13 89

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 大数据技术之Shell(3)

10 Shell工具（重点）

10.1 cut

cut的工作就是“剪”，具体的说就是在文件中负责剪切数据用的。cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段输出。

1.基本用法

cut [选项参数] filename

说明：默认分隔符是制表符

2.选项参数说明

表1-55

3.案例实操

（0）数据准备

[oldlu@hadoop101 datas]$ touch cut.txt
[oldlu@hadoop101 datas]$ vim cut.txt
dong shen
guan zhen
wo  wo
lai  lai
le  le
（1）切割cut.txt第一列
[oldlu@hadoop101 datas]$ cut -d " " -f 1 cut.txt 
dong
guan
wo
lai
le
（2）切割cut.txt第二、三列
[oldlu@hadoop101 datas]$ cut -d " " -f 2,3 cut.txt 
shen
zhen
 wo
 lai
 le

（3）在cut.txt文件中切割出guan

[oldlu@hadoop101 datas]$ cat cut.txt | grep "guan" | cut -d " " -f 1
guan

（4）选取系统PATH变量值，第2个“：”开始后的所有路径：

[oldlu@hadoop101 datas]$ echo $PATH
/usr/lib64/qt-3.3/bin:/usr/local/bin:/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/sbin:/home/oldlu/bin
[oldlu@hadoop102 datas]$ echo $PATH | cut -d: -f 2-
/usr/local/bin:/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/sbin:/home/oldlu/bin

（5）切割ifconfig 后打印的IP地址

[oldlu@hadoop101 datas]$ ifconfig eth0 | grep "inet addr" | cut -d: -f 2 | cut -d" " -f1
192.168.1.102

10.2 sed

sed是一种流编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”，接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的

内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。文件内容并没有改变，除非你使用重定向存储输出。

1.基本用法

sed [选项参数] ‘command’ filename

2.选项参数说明

表1-56

3.命令功能描述

表1-57

4.案例实操

（0）数据准备

[oldlu@hadoop102 datas]$ touch sed.txt
[oldlu@hadoop102 datas]$ vim sed.txt
dong shen
guan zhen
wo  wo
lai  lai
le  le

（1）将“mei nv”这个单词插入到sed.txt第二行下，打印。

[oldlu@hadoop102 datas]$ sed '2a mei nv' sed.txt 
dong shen
guan zhen
mei nv
wo  wo
lai  lai
le  le
[oldlu@hadoop102 datas]$ cat sed.txt 
dong shen
guan zhen
wo  wo
lai  lai
le  le

注意：文件并没有改变

（2）删除sed.txt文件所有包含wo的行

[oldlu@hadoop102 datas]$ sed '/wo/d' sed.txt
dong shen
guan zhen
lai  lai
le  le

（3）将sed.txt文件中wo替换为ni

[oldlu@hadoop102 datas]$ sed 's/wo/ni/g' sed.txt 
dong shen
guan zhen
ni  ni
lai  lai
le  le

注意：‘g’表示global，全部替换

（4）将sed.txt文件中的第二行删除并将wo替换为ni

[oldlu@hadoop102 datas]$ sed -e '2d' -e 's/wo/ni/g' sed.txt 
dong shen
ni  ni
lai  lai
le  le

10.3 awk

一个强大的文本分析工具，把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行分析处理。

1.基本用法

awk [选项参数] ‘pattern1{action1} pattern2{action2}…’ filename

pattern：表示AWK在数据中查找的内容，就是匹配模式

action：在找到匹配内容时所执行的一系列命令

2.选项参数说明

表1-55

3.案例实操

（0）数据准备

[oldlu@hadoop102 datas]$ sudo cp /etc/passwd ./

（1）搜索passwd文件以root关键字开头的所有行，并输出该行的第7列。

[oldlu@hadoop102 datas]$ awk -F: '/^root/{print $7}' passwd 
/bin/bash

（2）搜索passwd文件以root关键字开头的所有行，并输出该行的第1列和第7列，

中间以“，”号分割。

[oldlu@hadoop102 datas]$ awk -F: '/^root/{print $1","$7}' passwd 
root,/bin/bash

注意：只有匹配了pattern的行才会执行action

（3）只显示/etc/passwd的第一列和第七列，以逗号分割，且在所有行前面添加列名user，shell在最后一行添加"dahaige，/bin/zuishuai"。

[oldlu@hadoop102 datas]$ awk -F : 'BEGIN{print "user, shell"} {print $1","$7} END{print "dahaige,/bin/zuishuai"}' passwd
user, shell
root,/bin/bash
bin,/sbin/nologin
。。。
oldlu,/bin/bash
dahaige,/bin/zuishuai

注意：BEGIN 在所有数据读取行之前执行；END 在所有数据执行之后执行。

（4）将passwd文件中的用户id增加数值1并输出

[oldlu@hadoop102 datas]$ awk -v i=1 -F: '{print $3+i}' passwd
1
2
3
4

4.awk的内置变量

5.案例实操

（1）统计passwd文件名，每行的行号，每行的列数

[oldlu@hadoop102 datas]$ awk -F: '{print "filename:"  FILENAME ", linenumber:" NR  ",columns:" NF}' passwd 
filename:passwd, linenumber:1,columns:7
filename:passwd, linenumber:2,columns:7
filename:passwd, linenumber:3,columns:7

  （2）切割IP\

[oldlu@hadoop102 datas]$ ifconfig eth0 | grep "inet addr" | awk -F: '{print $2}' | awk -F " " '{print $1}' 
192.168.1.102

  （3）查询sed.txt中空行所在的行号

[oldlu@hadoop102 datas]$ awk '/^$/{print NR}' sed.txt 
5

10.4 sort

sort命令是在Linux里非常有用，它将文件进行排序，并将排序结果标准输出。

1.基本语法

sort(选项)(参数)

表1-57

参数：指定待排序的文件列表

案例实操
（0）数据准备

   [oldlu@hadoop102 datas]$ touch sort.sh
   [oldlu@hadoop102 datas]$ vim sort.sh 
   bb:40:5.4
   bd:20:4.2
   xz:50:2.3
   cls:10:3.5
   ss:30:1.6

（1）按照“：”分割后的第三列倒序排序。

   [oldlu@hadoop102 datas]$ sort -t : -nrk 3  sort.sh 
   bb:40:5.4
   bd:20:4.2
   cls:10:3.5
   xz:50:2.3
   ss:30:1.6

11 企业真实面试题（重点）

11.1 京东

问题1：使用Linux命令查询file1中空行所在的行号

答案：

[oldlu@hadoop102 datas]$ awk '/^$/{print NR}' sed.txt 
5

问题2：有文件chengji.txt内容如下:

张三 40

李四 50

王五 60

使用Linux命令计算第二列的和并输出

[oldlu@hadoop102 datas]$ cat chengji.txt | awk -F " " '{sum+=$2} END{print sum}'
150

11.2 搜狐&和讯网

问题1：Shell脚本里如何检查一个文件是否存在？如果不存在该如何处理？

#!/bin/bash
if [ -f file.txt ]; then
   echo "文件存在!"
else
   echo "文件不存在!"
fi

11.3 新浪

问题1：用shell写一个脚本，对文本中无序的一列数字排序

[root@CentOS6-2 ~]# cat test.txt
[root@CentOS6-2 ~]# sort -n test.txt|awk '{a+=$0;print $0}END{print "SUM="a}'
SUM=55

11.4 金和网络

问题1：请用shell脚本写出查找当前文件夹（/home）下所有的文本文件内容中包含有字符”shen”的文件名称

[oldlu@hadoop102 datas]$ grep -r "shen" /home | cut -d ":" -f 1
/home/oldlu/datas/sed.txt
/home/oldlu/datas/cut.txt

12 常用时间操作

12.1 shell 获取当前时间、自定义格式

1）2019年 04月 24日星期五 21:26:35 CST （这里原格式输出当前的时间）

time=$(date)

echo $time1

2）20190424212635 （这里我们自定义数据格式**）

 \#!bin/bash
time=$(date "+%Y%m%d%H%M%S")
 echo $time2

解析：%Y 代表年即2019； %m 代表月即04； %d 代表日即24；

%H 代表小时即21； %M代表分钟即26； %S代表秒即35；

年，月，日，时，分，秒的英文意思：Year, month, day, hour, minute, second

3）2019-04-24 21:26:35

 \#!bin/bash
time=$(date "+%Y-%m-%d %H:%M:%S")
echo $time

相信大家看了三个例子，应该会获取的时间，并自定时间格式了。

4）2019.04.24

对了大家注意一下：date后面有一个空格，时间格式中（变量赋值）前后不要有空格

12.2 shell判断语句

if 判断语句格式

if 条件

then

Command

elif 条件

then

Command

else

Command

fi

fi #别忘了这个结尾

12.3 shell 判断条件

1）test 命令

\# if test 1 = 1 ; then echo 'ok'; fi
 ok
 \# test 1 = 1 && echo 'ok'
 ok
 = 等于 应用于：整型或字符串比较 如果在[] 中，只能是字符串
 &&  逻辑的 AND 的意思, -a 也是这个意思
 \# test 1 -eq 1 && echo 'ok'
 ok

-eq 等于应用于：整型比较

注意：所有字符与逻辑运算符直接用“空格”分开，不能连到一起。test 1=1就是错误的！

2）[ ] 表达式

 \# [ 1 -eq 1 ] && echo 'ok'
 ok
 \# [ 2 < 1 ] && echo 'ok'
 -bash: 2: No such file or directory
 \# [ 2 \< 1 ] && echo 'ok'
 \# [ 2 -gt 1 -a 3 -lt 4 ] && echo 'ok'
 ok
 \# [ 2 -gt 1 && 3 -lt 4 ] && echo 'ok'
 -bash: [: missing `]'

注意：在[ ] 表达式中，常见的>, <需要加转义字符，表示字符串大小比较，以acill码位置作为比较。

不直接支持<, >运算符，还有逻辑运算符|| , && 它需要用-a[and] –o[or]表示

参考：https://www.cnblogs.com/tony1314/p/8315666.html

12.4 代码

#获取当前时间，格式是时分，例如当前是上午8：50，hh=850
hh=`date '+%H%M'`
#早上7.30--7.45 执行自动做早餐的任务
if [ $hh -ge 730 -a $hh -le 745 ]
then
echo " Morning -- Automatic breakfast "
#中午11.52--12.15 执行做饭任务
elif [ $hh -ge 1152 -a $hh -le 1215 ]
then
echo " Lunch time -- Cook "
#下午17:23--17.40 执行自动浇花任务
elif [ $hh -ge 1723 -a $hh -le 1740 ]
then
echo "night -- Automatic watering"
#不适合适的时间，不做什么
else
echo "$hh Not within time "
fi

补充一下判断语句中含义的：

-eq 等于应用于：整型比较

-ne 不等于应用于：整型比较

-lt 小于应用于：整型比较

-gt 大于应用于：整型比较

-le 小于或等于应用于：整型比较

-ge 大于或等于应用于：整型比较

-a 双方都成立（and）逻辑表达式 –a 逻辑表达式

-o 单方成立（or）逻辑表达式 –o 逻辑表达式

-z 空字符串

-n 非空字符串

12.5 循环执行

while true;do
#获取当前时间，格式是时分，例如当前是上午8：50，hh=850
hh=`date '+%H%M'`
#早上7.30--7.45 执行自动做早餐的任务
if [ $hh -ge 730 -a $hh -le 745 ]
then
echo " Morning -- Automatic breakfast "
#中午11.52--12.15 执行做饭任务
elif [ $hh -ge 1152 -a $hh -le 1215 ]
then
echo " Lunch time -- Cook "
#下午17:23--17.40 执行自动浇花任务
elif [ $hh -ge 1723 -a $hh -le 1740 ]
then
echo "night -- Automatic watering"
#不适合适的时间，不做什么
else
echo "$hh Not within time "
fi
sleep 5 #休息5s
out_time=`date '+%Y-%m-%d-%H:%M'`  #格式：2019-04-24-21:26
echo "$out_time"
done

大数据技术之Shell(3)

10 Shell工具（重点）

10.1 cut

10.2 sed

10.3 awk

10.4 sort

11 企业真实面试题（重点）

11.1 京东

11.2 搜狐&和讯网

11.3 新浪

11.4 金和网络

12 常用时间操作

12.1 shell 获取当前时间、自定义格式

12.2 shell判断语句

12.3 shell 判断条件

12.4 代码

12.5 循环执行

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

大数据技术之Shell(3)

10 Shell工具（重点）

10.1 cut

10.2 sed

10.3 awk

10.4 sort

11 企业真实面试题（重点）

11.1 京东

11.2 搜狐&和讯网

11.3 新浪

11.4 金和网络

12 常用时间操作

12.1 shell 获取当前时间、自定义格式

12.2 shell判断语句

12.3 shell 判断条件

12.4 代码

12.5 循环执行

热门文章

最新文章

相关课程

相关电子书

相关实验场景