大数据技术之Shell(3)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据技术之Shell(3)

10 Shell工具(重点)

10.1 cut

cut的工作就是“剪”,具体的说就是在文件中负责剪切数据用的。cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段输出。

1.基本用法

cut [选项参数] filename

说明:默认分隔符是制表符

2.选项参数说明

表1-55

20210314101951518.png

3.案例实操

(0)数据准备

[oldlu@hadoop101 datas]$ touch cut.txt
[oldlu@hadoop101 datas]$ vim cut.txt
dong shen
guan zhen
wo  wo
lai  lai
le  le
(1)切割cut.txt第一列
[oldlu@hadoop101 datas]$ cut -d " " -f 1 cut.txt 
dong
guan
wo
lai
le
(2)切割cut.txt第二、三列
[oldlu@hadoop101 datas]$ cut -d " " -f 2,3 cut.txt 
shen
zhen
 wo
 lai
 le

20210316100950735.png

(3)在cut.txt文件中切割出guan

[oldlu@hadoop101 datas]$ cat cut.txt | grep "guan" | cut -d " " -f 1
guan

(4)选取系统PATH变量值,第2个“:”开始后的所有路径:

[oldlu@hadoop101 datas]$ echo $PATH
/usr/lib64/qt-3.3/bin:/usr/local/bin:/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/sbin:/home/oldlu/bin
[oldlu@hadoop102 datas]$ echo $PATH | cut -d: -f 2-
/usr/local/bin:/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/sbin:/home/oldlu/bin

(5)切割ifconfig 后打印的IP地址

[oldlu@hadoop101 datas]$ ifconfig eth0 | grep "inet addr" | cut -d: -f 2 | cut -d" " -f1
192.168.1.102

10.2 sed

sed是一种流编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”,接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的

内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有改变,除非你使用重定向存储输出。

1.基本用法

sed [选项参数] ‘command’ filename

2.选项参数说明

表1-56

20210314102025525.png3.命令功能描述

表1-57

20210314102109829.png

4.案例实操

(0)数据准备

[oldlu@hadoop102 datas]$ touch sed.txt
[oldlu@hadoop102 datas]$ vim sed.txt
dong shen
guan zhen
wo  wo
lai  lai
le  le

(1)将“mei nv”这个单词插入到sed.txt第二行下,打印。

[oldlu@hadoop102 datas]$ sed '2a mei nv' sed.txt 
dong shen
guan zhen
mei nv
wo  wo
lai  lai
le  le
[oldlu@hadoop102 datas]$ cat sed.txt 
dong shen
guan zhen
wo  wo
lai  lai
le  le

注意:文件并没有改变

(2)删除sed.txt文件所有包含wo的行

[oldlu@hadoop102 datas]$ sed '/wo/d' sed.txt
dong shen
guan zhen
lai  lai
le  le

(3)将sed.txt文件中wo替换为ni

[oldlu@hadoop102 datas]$ sed 's/wo/ni/g' sed.txt 
dong shen
guan zhen
ni  ni
lai  lai
le  le

注意:‘g’表示global,全部替换

(4)将sed.txt文件中的第二行删除并将wo替换为ni

[oldlu@hadoop102 datas]$ sed -e '2d' -e 's/wo/ni/g' sed.txt 
dong shen
ni  ni
lai  lai
le  le

10.3 awk

一个强大的文本分析工具,把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行分析处理。

1.基本用法

awk [选项参数] ‘pattern1{action1} pattern2{action2}…’ filename

pattern:表示AWK在数据中查找的内容,就是匹配模式

action:在找到匹配内容时所执行的一系列命令

2.选项参数说明

表1-55

20210314102153731.png

3.案例实操

(0)数据准备

[oldlu@hadoop102 datas]$ sudo cp /etc/passwd ./

(1)搜索passwd文件以root关键字开头的所有行,并输出该行的第7列。

[oldlu@hadoop102 datas]$ awk -F: '/^root/{print $7}' passwd 
/bin/bash

(2)搜索passwd文件以root关键字开头的所有行,并输出该行的第1列和第7列,

中间以“,”号分割。

[oldlu@hadoop102 datas]$ awk -F: '/^root/{print $1","$7}' passwd 
root,/bin/bash

注意:只有匹配了pattern的行才会执行action

(3)只显示/etc/passwd的第一列和第七列,以逗号分割,且在所有行前面添加列名user,shell在最后一行添加"dahaige,/bin/zuishuai"。

[oldlu@hadoop102 datas]$ awk -F : 'BEGIN{print "user, shell"} {print $1","$7} END{print "dahaige,/bin/zuishuai"}' passwd
user, shell
root,/bin/bash
bin,/sbin/nologin
。。。
oldlu,/bin/bash
dahaige,/bin/zuishuai

注意:BEGIN 在所有数据读取行之前执行;END 在所有数据执行之后执行。

(4)将passwd文件中的用户id增加数值1并输出

[oldlu@hadoop102 datas]$ awk -v i=1 -F: '{print $3+i}' passwd
1
2
3
4

4.awk的内置变量

20210314102220808.png

5.案例实操

(1)统计passwd文件名,每行的行号,每行的列数

[oldlu@hadoop102 datas]$ awk -F: '{print "filename:"  FILENAME ", linenumber:" NR  ",columns:" NF}' passwd 
filename:passwd, linenumber:1,columns:7
filename:passwd, linenumber:2,columns:7
filename:passwd, linenumber:3,columns:7
  (2)切割IP\
[oldlu@hadoop102 datas]$ ifconfig eth0 | grep "inet addr" | awk -F: '{print $2}' | awk -F " " '{print $1}' 
192.168.1.102
  (3)查询sed.txt中空行所在的行号
[oldlu@hadoop102 datas]$ awk '/^$/{print NR}' sed.txt 
5

10.4 sort

sort命令是在Linux里非常有用,它将文件进行排序,并将排序结果标准输出。

1.基本语法

sort(选项)(参数)

表1-57

20210314102304195.png

参数:指定待排序的文件列表

  1. 案例实操
    (0)数据准备
   [oldlu@hadoop102 datas]$ touch sort.sh
   [oldlu@hadoop102 datas]$ vim sort.sh 
   bb:40:5.4
   bd:20:4.2
   xz:50:2.3
   cls:10:3.5
   ss:30:1.6

(1)按照“:”分割后的第三列倒序排序。

   [oldlu@hadoop102 datas]$ sort -t : -nrk 3  sort.sh 
   bb:40:5.4
   bd:20:4.2
   cls:10:3.5
   xz:50:2.3
   ss:30:1.6

11 企业真实面试题(重点)

11.1 京东

问题1:使用Linux命令查询file1中空行所在的行号

答案:

[oldlu@hadoop102 datas]$ awk '/^$/{print NR}' sed.txt 
5

问题2:有文件chengji.txt内容如下:

张三 40

李四 50

王五 60

使用Linux命令计算第二列的和并输出

[oldlu@hadoop102 datas]$ cat chengji.txt | awk -F " " '{sum+=$2} END{print sum}'
150

11.2 搜狐&和讯网

问题1:Shell脚本里如何检查一个文件是否存在?如果不存在该如何处理?

#!/bin/bash
if [ -f file.txt ]; then
   echo "文件存在!"
else
   echo "文件不存在!"
fi

11.3 新浪

问题1:用shell写一个脚本,对文本中无序的一列数字排序

[root@CentOS6-2 ~]# cat test.txt
[root@CentOS6-2 ~]# sort -n test.txt|awk '{a+=$0;print $0}END{print "SUM="a}'
SUM=55

11.4 金和网络

问题1:请用shell脚本写出查找当前文件夹(/home)下所有的文本文件内容中包含有字符”shen”的文件名称

[oldlu@hadoop102 datas]$ grep -r "shen" /home | cut -d ":" -f 1
/home/oldlu/datas/sed.txt
/home/oldlu/datas/cut.txt

12 常用时间操作

12.1 shell 获取当前时间、自定义格式

1)2019年 04月 24日 星期五 21:26:35 CST (这里原格式输出当前的时间)

time=$(date)

echo $time1

2)20190424212635 (这里我们自定义数据格式**)

 \#!bin/bash
time=$(date "+%Y%m%d%H%M%S")
 echo $time2

解析:%Y 代表 年 即2019; %m 代表 月 即04; %d 代表 日 即24;

%H 代表 小时 即21; %M代表 分钟 即26; %S代表 秒 即35;

年,月,日,时,分,秒 的英文意思:Year, month, day, hour, minute, second

3)2019-04-24 21:26:35

 \#!bin/bash
time=$(date "+%Y-%m-%d %H:%M:%S")
echo $time

相信大家看了三个例子,应该会获取的时间,并自定时间格式了。

4)2019.04.24

对了大家注意一下:date后面有一个空格,时间格式中(变量赋值)前后不要有空格

12.2 shell判断语句

if 判断语句格式

if 条件

then

Command

elif 条件

then

Command

else

Command

fi

fi #别忘了这个结尾

12.3 shell 判断条件

1)test 命令

\# if test 1 = 1 ; then echo 'ok'; fi
 ok
 \# test 1 = 1 && echo 'ok'
 ok
 = 等于 应用于:整型或字符串比较 如果在[] 中,只能是字符串
 &&  逻辑的 AND 的意思, -a 也是这个意思
 \# test 1 -eq 1 && echo 'ok'
 ok

-eq 等于 应用于:整型比较

注意:所有字符 与逻辑运算符直接用“空格”分开,不能连到一起。test 1=1就是错误的!

2)[ ] 表达式

 \# [ 1 -eq 1 ] && echo 'ok'
 ok
 \# [ 2 < 1 ] && echo 'ok'
 -bash: 2: No such file or directory
 \# [ 2 \< 1 ] && echo 'ok'
 \# [ 2 -gt 1 -a 3 -lt 4 ] && echo 'ok'
 ok
 \# [ 2 -gt 1 && 3 -lt 4 ] && echo 'ok'
 -bash: [: missing `]'

注意:在[ ] 表达式中,常见的>, <需要加转义字符,表示字符串大小比较,以acill码 位置作为比较。

不直接支持<, >运算符,还有逻辑运算符|| , && 它需要用-a[and] –o[or]表示

参考:https://www.cnblogs.com/tony1314/p/8315666.html

12.4 代码

#获取当前时间,格式是时分,例如当前是上午8:50,hh=850
hh=`date '+%H%M'`
#早上7.30--7.45 执行自动做早餐的任务
if [ $hh -ge 730 -a $hh -le 745 ]
then
echo " Morning -- Automatic breakfast "
#中午11.52--12.15 执行做饭任务
elif [ $hh -ge 1152 -a $hh -le 1215 ]
then
echo " Lunch time -- Cook "
#下午17:23--17.40 执行自动浇花任务
elif [ $hh -ge 1723 -a $hh -le 1740 ]
then
echo "night -- Automatic watering"
#不适合适的时间,不做什么
else
echo "$hh Not within time "
fi

补充一下判断语句中含义的:

-eq 等于 应用于:整型比较

-ne 不等于 应用于:整型比较

-lt 小于 应用于:整型比较

-gt 大于 应用于:整型比较

-le 小于或等于 应用于:整型比较

-ge 大于或等于 应用于:整型比较

-a 双方都成立(and) 逻辑表达式 –a 逻辑表达式

-o 单方成立(or) 逻辑表达式 –o 逻辑表达式

-z 空字符串

-n 非空字符串

12.5 循环执行

while true;do
#获取当前时间,格式是时分,例如当前是上午8:50,hh=850
hh=`date '+%H%M'`
#早上7.30--7.45 执行自动做早餐的任务
if [ $hh -ge 730 -a $hh -le 745 ]
then
echo " Morning -- Automatic breakfast "
#中午11.52--12.15 执行做饭任务
elif [ $hh -ge 1152 -a $hh -le 1215 ]
then
echo " Lunch time -- Cook "
#下午17:23--17.40 执行自动浇花任务
elif [ $hh -ge 1723 -a $hh -le 1740 ]
then
echo "night -- Automatic watering"
#不适合适的时间,不做什么
else
echo "$hh Not within time "
fi
sleep 5 #休息5s
out_time=`date '+%Y-%m-%d-%H:%M'`  #格式:2019-04-24-21:26
echo "$out_time"
done


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
目录
相关文章
|
3月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
2月前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
155 2
|
3月前
|
存储 分布式计算 数据可视化
大数据常用技术与工具
【10月更文挑战第16天】
203 4
|
2月前
|
存储 分布式计算 NoSQL
【赵渝强老师】大数据技术的理论基础
本文介绍了大数据平台的核心思想,包括Google的三篇重要论文:Google文件系统(GFS)、MapReduce分布式计算模型和BigTable大表。这些论文奠定了大数据生态圈的技术基础,进而发展出了Hadoop、Spark和Flink等生态系统。文章详细解释了GFS的架构、MapReduce的计算过程以及BigTable的思想和HBase的实现。
115 0
|
3月前
|
存储 数据采集 监控
大数据技术:开启智能决策与创新服务的新纪元
【10月更文挑战第5天】大数据技术:开启智能决策与创新服务的新纪元
|
19天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
57 2
|
1月前
|
SQL 运维 大数据
轻量级的大数据处理技术
现代大数据应用架构中,数据中心作为核心,连接数据源与应用,承担着数据处理与服务的重要角色。然而,随着数据量的激增,数据中心面临运维复杂、体系封闭及应用间耦合性高等挑战。为缓解这些问题,一种轻量级的解决方案——esProc SPL应运而生。esProc SPL通过集成性、开放性、高性能、数据路由和敏捷性等特性,有效解决了现有架构的不足,实现了灵活高效的数据处理,特别适用于应用端的前置计算,降低了整体成本和复杂度。
|
2月前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
103 4
|
2月前
|
机器学习/深度学习 存储 大数据
云计算与大数据技术的融合应用
云计算与大数据技术的融合应用
|
2月前
|
SQL 存储 大数据
单机顶集群的大数据技术来了
大数据时代,分布式数仓如MPP成为热门技术,但其高昂的成本让人望而却步。对于多数任务,数据量并未达到PB级,单体数据库即可胜任。然而,由于SQL语法的局限性和计算任务的复杂性,分布式解决方案显得更为必要。esProc SPL作为一种开源轻量级计算引擎,通过高效的算法和存储机制,实现了单机性能超越集群的效果,为低成本、高效能的数据处理提供了新选择。