Spark修炼之道(基础篇)——Linux大数据开发基础:第九节:Shell编程入门(一)

简介: 本节主要内容shell编程简介变量定义常用特殊变量1. shell编程简介学习linux操作系统最让人着迷的事情莫过于shell脚本编程,这是因为如果要完成某些复杂的功能,单纯地通过GUI操作不可能达到,shell脚本可以直接与操作系统内核打交道,从而完成任意复杂的任务。shell有很多种,最常用的是Bash (Bourne Again Shell),它是L

本节主要内容

  1. shell编程简介
  2. 变量定义
  3. 常用特殊变量

1. shell编程简介

学习linux操作系统最让人着迷的事情莫过于shell脚本编程,这是因为如果要完成某些复杂的功能,单纯地通过GUI操作不可能达到,shell脚本可以直接与操作系统内核打交道,从而完成任意复杂的任务。shell有很多种,最常用的是Bash (Bourne Again Shell),它是Linux操作系统默认的shell环境。

在linux环境中,需要区分一下root用户与一般用户的命令行显示:

//root用户与一般用户显示有一些差异
//root用户命令行以#结尾
root@sparkmaster:~# su zhouzhihu
//一般用户命令行以$符号结尾
zhouzhihu@sparkmaster:/root$ exit
exit
root@sparkmaster:~# 

如下图:
这里写图片描述

现在让我们来编写第一个shell程序吧

root@sparkmaster:~/ShellLearning/chapter09# vi HelloWorld.sh 

这里写图片描述
就两行内容:

#!/bin/bash
echo "Hello Shell"

那完成后如果执行shell脚本程序呢?有两种方式,一种是通过sh命令,另外一种是自执行方式。下面给出了具体演示

//完成后直接利用sh命令执行
root@sparkmaster:~/ShellLearning/chapter09# sh HelloWorld.sh 
Hello Shell
//自执行(self execute)方式,由于没有给文件加执行权限,所以执行失败
root@sparkmaster:~/ShellLearning/chapter09# ./HelloWorld.sh
bash: ./HelloWorld.sh: Permission denied
root@sparkmaster:~/ShellLearning/chapter09# ls -l
total 4
-rw-r--r-- 1 root root 31 2015-09-30 06:29 HelloWorld.sh
//chmod给文件加执行权限
root@sparkmaster:~/ShellLearning/chapter09# chmod a+x HelloWorld.sh 
//再通过自执行方式
root@sparkmaster:~/ShellLearning/chapter09# ./HelloWorld.sh
Hello Shell
root@sparkmaster:~/ShellLearning/chapter09# 

前面提到,脚本第一行是#!/bin/bash,它的作用是提示该脚本的执行路径是/bin/bash,对自执行方式有用,自执行方式最终是通过/bin/bash HelloWorld.sh 执行脚本,而利用sh HelloWorld.sh命令执行脚本时,#!/bin/bash 不起作用。

HelloWorld.sh文件中的echo “Hello Shell”是一条语句,一般习惯于一行一条语句,如:

#!/bin/bash
echo "Hello Shell"
echo "Hello World"

如果要将上述语句放在一行,则需要用;隔开

echo "Hello Shell";echo "Hello World"

echo命令用于输出一行内容(包括行符),后面的输出内容除可以用”“双引号之外,也可以不加,也可以用单引号”例如:

root@sparkmaster:~/ShellLearning/chapter09# echo "Hello World"
Hello World
root@sparkmaster:~/ShellLearning/chapter09# echo Hello World
Hello World
root@sparkmaster:~/ShellLearning/chapter09# echo 'Hello World'
Hello World

这三种方式看上去似乎相同,但其实它们之间还是有差异的,具体如下:

//对于一些特殊字符,双引号可能不会正常输出
root@sparkmaster:~/ShellLearning/chapter09# echo "Hello World!"
bash: !": event not found

//不带引号的参数不会出现这种情况
root@sparkmaster:~/ShellLearning/chapter09# echo 'Hello World!'
Hello World!

//单引号也能正常输出
root@sparkmaster:~/ShellLearning/chapter09# echo Hello World!
Hello World!

//不带引号的参数使用如果带特殊字符,两条语句不能放在同一行
root@sparkmaster:~/ShellLearning/chapter09# echo Hello World!;echo Hello
bash: !: event not found

//不带引号,输出的是变量内容
root@sparkmaster:~/ShellLearning/chapter09# echo $JAVA_HOME
/hadoopLearning/jdk1.7.0_67
//双引号,输出的也是变量内容
root@sparkmaster:~/ShellLearning/chapter09# echo "$JAVA_HOME"
/hadoopLearning/jdk1.7.0_67
//单引号的话,内容原样输出,不会解析变量值
root@sparkmaster:~/ShellLearning/chapter09# echo '$JAVA_HOME'
$JAVA_HOME

2. 变量定义

前一小节提到$JAVA_HOME,这是配置的JAVA环境变量,这一小节我们将介绍如何进行变量定义,如何配置环境变量。同任何的编程语言一样,变量是用来存储可变数据的,即在程序运行过程中变量中的数据可能随时发生变化。shell脚本中的变量同其它脚本语言一样,在使用时不需要进行类型定义,不管是加引号还是不加引号定义变量,其类型都为String,例如:

//t1为String类型
root@sparkmaster:~/ShellLearning/chapter09# t1="123"
root@sparkmaster:~/ShellLearning/chapter09# $t1
123: command not found
root@sparkmaster:~/ShellLearning/chapter09# echo $t1
//t1为String类型
root@sparkmaster:~/ShellLearning/chapter09# t1=123
root@sparkmaster:~/ShellLearning/chapter09# echo $t1
123

上面的变量是我们自己定义的,它具有一定的局部性,例如:

root@sparkmaster:~/ShellLearning/chapter09# t1=123
//在当前进程中能够正常输出内容
root@sparkmaster:~/ShellLearning/chapter09# echo $t1
123
//开启一个子进程
root@sparkmaster:~/ShellLearning/chapter09# bash
//无内容输出
root@sparkmaster:~/ShellLearning/chapter09# echo $t1

//退出,返回原父进程
root@sparkmaster:~/ShellLearning/chapter09# exit
exit
//内容又能够正常输出
root@sparkmaster:~/ShellLearning/chapter09# echo $t1
123

从上面的代码可以看到,自定义变量具有只能在当前进程中使用,当开启子进程时,变量在子进程中不起作用,如果需要父进程中定义的变量在子进程中也能够使用,则需要将其设置为环境变量,环境变量使用export命令进行定义,代码如下:

//采用export命令将t1设置为环境变量
root@sparkmaster:~/ShellLearning/chapter09# export t1
root@sparkmaster:~/ShellLearning/chapter09# bash
//子进程中现在可能使用
root@sparkmaster:~/ShellLearning/chapter09# $t1
123: command not found
root@sparkmaster:~/ShellLearning/chapter09# echo $t1
123

不过,这样定义的环境变量,在命令行窗口关闭或系统重新启动时会丢失,如果需要在机器启动时环境变量就自动生效的话,可以将环境变量定义在~/.bashrc或/etc/profile文件中,其中~/.bashrc只对当前用户(例如当前用户是zhouzhihu,则只对本用户有效),如果想对所有用户都有效,则将其放置在/etc/profile文件中。
下图给出了java、scala语言等环境变量配置演示:
这里写图片描述

3. 常用特殊变量

在linux脚本编程中,有几个非常重要的特殊变量,说它特殊是因为它变量无需程序员自己定义,系统默认会帮我们进行初始化等相关操作,常用特殊变量如下:

$# 是传给脚本的参数个数
$0 是脚本本身的名字
$1 是传递给该shell脚本的第一个参数
$2 是传递给该shell脚本的第二个参数
$@ 是传给脚本的所有参数的列表
$* 是以一个单字符串显示所有向脚本传递的参数,与位置变量不同,参数可超过9$$ 是脚本运行的当前进程ID$? 是显示最后命令的退出状态,0表示没有错误,其他表示有错误

下面我们举例进行演示:

root@sparkmaster:~/ShellLearning/chapter09# vi SpecialVariable.sh

这里写图片描述
root@sparkmaster:~/ShellLearning/chapter09# ./SpecialVariable.sh 1 2 3 4
4
./SpecialVariable.sh
1
2
1 2 3 4
1 2 3 4
17138
0

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
存储 缓存 分布式计算
大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍
大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍
226 4
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何开发ODPS Spark任务
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
349 2
|
存储 缓存 分布式计算
大数据-89 Spark 集群 RDD 编程-高阶 编写代码、RDD依赖关系、RDD持久化/缓存
大数据-89 Spark 集群 RDD 编程-高阶 编写代码、RDD依赖关系、RDD持久化/缓存
229 4
|
分布式计算 Java 大数据
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
221 0
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
|
消息中间件 分布式计算 Java
Linux环境下 java程序提交spark任务到Yarn报错
Linux环境下 java程序提交spark任务到Yarn报错
330 5
|
存储 Ubuntu Shell
shell 用法入门
本文档详细介绍了Shell脚本的基础知识,包括基本写法、变量定义与使用、命令置换、环境变量、数组操作、算术运算、输入输出处理、控制语句及循环结构等内容。文档还提供了丰富的示例代码,帮助读者更好地理解和掌握Shell编程技巧。此外,还介绍了如何使用`if`语句进行条件判断、`case`语句进行模式匹配以及`while`、`for`循环等控制结构。最后,文档还涵盖了函数定义与调用的方法。适合初学者和有一定基础的开发者参考学习。
|
分布式计算 资源调度 Hadoop
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
|
Java Shell Linux
【Linux入门技巧】新员工必看:用Shell脚本轻松解析应用服务日志
关于如何使用Shell脚本来解析Linux系统中的应用服务日志,提供了脚本实现的详细步骤和技巧,以及一些Shell编程的技能扩展。
476 0
【Linux入门技巧】新员工必看:用Shell脚本轻松解析应用服务日志
|
SQL 分布式计算 大数据
大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化
大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化
215 0