Spark修炼之道(基础篇)——Linux大数据开发基础:第四节:Linux文件系统(二)

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 本节主要内容访问控制列表ACL链接压缩和归档文件其他日常管理实用程序1. 访问控制列表ACL在实际使用使用过程中,可能linux系统自身权限控制不能满足要求,还需要进一步细化,此时可以用ACL( Access Control List )进行,它主要提供 owner,group,others 的 read,write,execute 权限之外的细部权限配置

本节主要内容

  1. 访问控制列表ACL
  2. 链接
  3. 压缩和归档文件
  4. 其他日常管理实用程序

1. 访问控制列表ACL

在实际使用使用过程中,可能linux系统自身权限控制不能满足要求,还需要进一步细化,此时可以用ACL( Access Control List )进行,它主要提供 owner,group,others 的 read,write,execute 权限之外的细部权限配置。它可以针对单一使用者,单一文件或目录来进行 r,w,x 的权限规范,对于需要特殊权限的使用状况非常有帮助。
Ubuntu操作系统要使用ACL,需要手动去安装,安装方法如下:
使用apt-get install acl命令进行ACL的安装
这里写图片描述

(1)获取文件的acl

采用getfacl来获取文件的ACL详细信息,当文件不包含acl时,所显示的信息与ls -l命令相同

root@ubuntu:/home/xtwy# ls -l hello1.txt
-rw---x--x 1 xtwy xtwy 47 2015-08-22 23:43 hello1.txt

root@ubuntu:/home/xtwy# getfacl hello1.txt 
# file: hello1.txt
# owner: xtwy
# group: xtwy
user::rw-
group::--x
other::--x

(2)设置文件的acl

采用setfacl命令进行文件精细权限的设置,命令格式如下:

setfacl --modify-m) ugo:name:permissions file-list

其中ugo分别是u或g或o,分别对应设置用户、组及其他用户对文件的访问权限。name为用户或组名,如果是o则无需指定,permissions是为待设置的权限,file-list,使用例如下:

//下列命令给组xtwy添加读权限,给组root添加读写执行权限
//给o也添加读写、执行权限
root@ubuntu:/home/xtwy# setfacl -m g:xtwy:r,g:root:rwx,o::rwx hello1.txt
//显示acl信息
root@ubuntu:/home/xtwy# getfacl hello1.txt
# file: hello1.txt
# owner: xtwy
# group: xtwy
user::rw-
group::--x
group:root:rwx
group:xtwy:r--
mask::rwx
other::rwx
//ls -l显示的权限信息
root@ubuntu:/home/xtwy# ls -l hello1.txt
//文件权限部分多了个+号
-rw-rwxrwx+ 1 xtwy xtwy 47 2015-08-22 23:43 hello1.txt

(3)获取目录或文件的acl

root@ubuntu:/home/xtwy# mkdir acltest
root@ubuntu:/home/xtwy# ls -ld acltest/
drwxr-xr-x 2 root root 4096 2015-08-23 00:50 acltest/

//获取目录的acl,与文件操作一致
root@ubuntu:/home/xtwy# getfacl acltest/
# file: acltest/
# owner: root
# group: root
user::rwx
group::r-x
other::r-x

给目录添加acl

root@ubuntu:/home/xtwy# groupadd groupacl
//采用-d命令,这是与普通文件之间的区别
root@ubuntu:/home/xtwy# setfacl -d -m g:groupacl:r-x acltest/
root@ubuntu:/home/xtwy# getfacl acltest/
# file: acltest/
# owner: root
# group: root
user::rwx
group::r-x
other::r-x
default:user::rwx
default:group::r-x
default:group:groupacl:r-x
default:mask::r-x
default:other::r-x

//ls -ld 命令显示,目录权限多了个+号
root@ubuntu:/home/xtwy# ls -ld acltest/
drwxr-xr-x+ 2 root root 4096 2015-08-23 00:50 acltest/



//在设置好的acl目录中创建文件与没有设置acl的目录中创建文件,有以下区别

oot@ubuntu:/home/xtwy# echo "file acl in acltst" > test1.txt
root@ubuntu:/home/xtwy# ls -l test1.txt 
-rw-r--r-- 1 root root 19 2015-08-23 00:58 test1.txt
root@ubuntu:/home/xtwy# getfacl test1.txt 
# file: test1.txt
# owner: root
# group: root
user::rw-
group::r--
other::r--


root@ubuntu:/home/xtwy# cd acltest/
root@ubuntu:/home/xtwy/acltest# echo "file acl in acltst" > test1.txt
//权限后面也有+
root@ubuntu:/home/xtwy/acltest# ls -l test1.txt 
-rw-r--r--+ 1 root root 19 2015-08-23 00:59 test1.txt
//显示创建文件的acl信息
root@ubuntu:/home/xtwy/acltest# getfacl test1.txt 
# file: test1.txt
# owner: root
# group: root
user::rw-
group::r-x          #effective:r--
group:groupacl:r-x      #effective:r--
mask::r--
other::r--

上面的代码说明,如果在acl目录中没有指定文件的acl信息,则会使用目录对应默认acl。

2. 链接

(1) 硬链接

linux中的硬链接另一个文件的形式出现在文件结构中,如果硬链接与被链接文件在同一个目录中,则名字必须不一样,不在同一个目录的话,可以没有此要求

root@ubuntu:/home/xtwy/acltest# ls
test1.txt
//利用ln命令创建一个test1.txt文件的硬链接
root@ubuntu:/home/xtwy/acltest# ln test1.txt /home/xtwy/test1link
root@ubuntu:/home/xtwy/acltest# cd /home/xtwy/
root@ubuntu:/home/xtwy# ls
acltest  Documents         hello1.txt  Music     Templates  Videos
Desktop  Downloads         hello.txt   Pictures  test1link
dir      examples.desktop  literature  Public    test1.txt
//利用cat命令查看test1link文件的内容,它其实是链接到test1.txt文件
//然后显示相应内容
root@ubuntu:/home/xtwy# cat test1link
file acl in acltst

这里写图片描述

//创建完硬链接后,链接数+1
root@ubuntu:/home/xtwy/acltest# ls -l
total 4
-rw-r--r--+ 2 root root 19 2015-08-23 00:59 test1.txt
//再创建一个硬链接
root@ubuntu:/home/xtwy/acltest# ln test1.txt /home/xtwy/test1link2
//链接数+1
root@ubuntu:/home/xtwy/acltest# ls -l
total 4
-rw-r--r--+ 3 root root 19 2015-08-23 00:59 test1.txt

硬链接以文件形式存在,但它实质上指向的是同一个文件,只不过是创建了指向目标文件的指针,即ln命令不会创建文件的副本,即它与cp命令有着本质的区别,如下图所示:
这里写图片描述

(2) 软链接

linux操作系统除了支持硬链接之外,还支持符号链接(symbolic link)或软链接(soft link)。硬链接是直接指向文件的指针,它除了可以创建文件的符号链接之外,还可以创建目录的符号链接。先看几个例子:

//不能创建目录的硬链接
root@ubuntu:/home/xtwy# ln Music softlink_Music
ln: `Music': hard link not allowed for directory

//创建目录的符号链接
root@ubuntu:/home/xtwy# ln --symbolic Music softlink_Music
//链接数并没有增加,还是1
root@ubuntu:/home/xtwy# ls -l softlink_Music
lrwxrwxrwx 1 root root 5 2015-08-23 05:01 softlink_Music -> Music


//创建普通文件的符号链接
root@ubuntu:/home/xtwy# echo "soft link test" >> soft.txt
root@ubuntu:/home/xtwy# ln -s soft
softlink_Music/ soft.txt        
root@ubuntu:/home/xtwy# ln -s soft.txt softlink_txtfile
//通过下面的命令可以看到, 符号链接文件的大小为8
//它与原始文件大小不一样,其大小是目标文件路径名中的字符数
root@ubuntu:/home/xtwy# ls -l softlink_txtfile 
lrwxrwxrwx 1 root root 8 2015-08-23 05:02 softlink_txtfile -> soft.txt
root@ubuntu:/home/xtwy# cat softlink_txtfile 
soft link test

使用cd命令切换到目录的符号连接时,路径名中显示的是符号链接名称

root@ubuntu:/home/xtwy# cd softlink_Music
//路径名显示是符号链接
root@ubuntu:/home/xtwy/softlink_Music# ls
root@ubuntu:/home/xtwy/softlink_Music# cd ..
root@ubuntu:/home/xtwy# cd Music/
root@ubuntu:/home/xtwy/Music# touch music1.mp3
root@ubuntu:/home/xtwy/Music# ls
music1.mp3
root@ubuntu:/home/xtwy/Music# ls -l
total 0
-rw-r--r-- 1 root root 0 2015-08-23 05:28 music1.mp3
root@ubuntu:/home/xtwy/Music# cd ../softlink_Music
//目录内容与Music目录一致
root@ubuntu:/home/xtwy/softlink_Music# ls
music1.mp3
root@ubuntu:/home/xtwy/softlink_Music# 

符号链接可以指向一个不存在的文件,例如

//删除Music目录
root@ubuntu:/home/xtwy/softlink_Music# rm -r ../Music
//删除后内容为空
root@ubuntu:/home/xtwy/softlink_Music# ls 
root@ubuntu:/home/xtwy/softlink_Music# cd ..
//符号链接仍然存在
root@ubuntu:/home/xtwy# ls -l softlink_Music 
lrwxrwxrwx 1 root root 5 2015-08-23 05:01 softlink_Music -> Music

这里写图片描述

硬链接由于采用的是指针的方式,如果文件删除,它将一直指向已删除的文件,而软链接总是指向新创建的文件

//生成test文件
root@ubuntu:/home/xtwy/hard_symbolic_demo# echo "hard and soft link test" > test.txt
//生成硬链接
root@ubuntu:/home/xtwy/hard_symbolic_demo# ln test.txt hardlink_test.txt
root@ubuntu:/home/xtwy/hard_symbolic_demo# ls -l
total 8
-rw-r--r-- 2 root root 24 2015-08-23 05:45 hardlink_test.txt
-rw-r--r-- 2 root root 24 2015-08-23 05:45 test.txt
root@ubuntu:/home/xtwy/hard_symbolic_demo# cat hardlink_test.txt 
hard and soft link test
//创建符号链接
root@ubuntu:/home/xtwy/hard_symbolic_demo# ln -s test.txt softlink_test.txt
root@ubuntu:/home/xtwy/hard_symbolic_demo# ls -l
total 8
-rw-r--r-- 2 root root 24 2015-08-23 05:45 hardlink_test.txt
lrwxrwxrwx 1 root root  8 2015-08-23 05:46 softlink_test.txt -> test.txt
-rw-r--r-- 2 root root 24 2015-08-23 05:45 test.txt
root@ubuntu:/home/xtwy/hard_symbolic_demo# cat softlink_test.txt 
hard and soft link test
//删除test.txt文件
root@ubuntu:/home/xtwy/hard_symbolic_demo# rm test.txt
root@ubuntu:/home/xtwy/hard_symbolic_demo# ls -l
total 4
-rw-r--r-- 1 root root 24 2015-08-23 05:45 hardlink_test.txt
lrwxrwxrwx 1 root root  8 2015-08-23 05:46 softlink_test.txt -> test.txt
//hardlink_test.txt仍然指向删除的文件,只有当该链接也被删除的时候
//文件才被删除
root@ubuntu:/home/xtwy/hard_symbolic_demo# cat hardlink_test.txt 
hard and soft link test
//符号链接已经失效
root@ubuntu:/home/xtwy/hard_symbolic_demo# cat softlink_test.txt 
cat: softlink_test.txt: No such file or directory
root@ubuntu:/home/xtwy/hard_symbolic_demo# 

这里写图片描述

创建新的test.txt文件之后,符号链接指向新文件,硬链接仍然指向被删除的文件

root@ubuntu:/home/xtwy/hard_symbolic_demo# echo "new test file" > test.txt
root@ubuntu:/home/xtwy/hard_symbolic_demo# ls -l
total 8
-rw-r--r-- 1 root root 24 2015-08-23 05:45 hardlink_test.txt
lrwxrwxrwx 1 root root  8 2015-08-23 05:46 softlink_test.txt -> test.txt
-rw-r--r-- 1 root root 14 2015-08-23 05:50 test.txt
root@ubuntu:/home/xtwy/hard_symbolic_demo# cat hardlink_test.txt 
hard and soft link test
root@ubuntu:/home/xtwy/hard_symbolic_demo# cat softlink_test.txt 
new test file

这里写图片描述

删除符号链接或硬链接与删除其它文件是一样的,例如:

root@ubuntu:/home/xtwy/hard_symbolic_demo# rm hardlink_test.txt 
root@ubuntu:/home/xtwy/hard_symbolic_demo# ls -l
total 4
lrwxrwxrwx 1 root root  8 2015-08-23 05:46 softlink_test.txt -> test.txt
-rw-r--r-- 1 root root 14 2015-08-23 05:50 test.txt
root@ubuntu:/home/xtwy/hard_symbolic_demo# rm softlink_test.txt 
root@ubuntu:/home/xtwy/hard_symbolic_demo# ls -l
total 4
-rw-r--r-- 1 root root 14 2015-08-23 05:50 test.txt

3. 压缩和归档文件

如果文件较大的话,占用大量的磁盘空间或网络流量,常常会对文件进行压缩存储或网络传送,本节将介绍几种常用的文件压缩和归档方法

(1) bzip2压缩

root@ubuntu:/home/xtwy# mkdir compresse_demo
root@ubuntu:/home/xtwy# cd compresse_demo/
root@ubuntu:/home/xtwy/compresse_demo# cp /etc/profile .
root@ubuntu:/home/xtwy/compresse_demo# ls
profile
root@ubuntu:/home/xtwy/compresse_demo# ls -l
total 4
-rw-r--r-- 1 root root 497 2015-08-23 06:02 profile
root@ubuntu:/home/xtwy/compresse_demo# bizip profile 
bizip: command not found
root@ubuntu:/home/xtwy/compresse_demo# bzip2 -v profile 
  profile:  1.608:1,  4.974 bits/byte, 37.83% saved, 497 in, 309 out.
root@ubuntu:/home/xtwy/compresse_demo# ls -l
total 4
-rw-r--r-- 1 root root 309 2015-08-23 06:02 profile.bz2

这里写图片描述

(2) bz2文件解压缩

//bunzip2 解压缩
root@ubuntu:/home/xtwy/compresse_demo# bunzip2 profile.bz2 
root@ubuntu:/home/xtwy/compresse_demo# ls -l
total 4
-rw-r--r-- 1 root root 497 2015-08-23 06:02 profile


root@ubuntu:/home/xtwy/compresse_demo# bzip2 -v profile 
  profile:  1.608:1,  4.974 bits/byte, 37.83% saved, 497 in, 309 out.
//bzcat查看文件压缩文件内容,原文件不会改变
root@ubuntu:/home/xtwy/compresse_demo# bzcat profile.bz2 | tail -10
  else
    if [ "`id -u`" -eq 0 ]; then
      PS1='# '
    else
      PS1='$ '
    fi
  fi
fi

umask 022

(3) tar打包文件

采用tar -cvf命令进行目录或文件的打包, c表示create,v表示verbose,显示详细信息,f表示从一个文件进行读写,打包好的文件以tar作为扩展名结尾

root@ubuntu:/home/xtwy/compresse_demo# tar -cvf test.tar profile 
profile
root@ubuntu:/home/xtwy/compresse_demo# ls 
profile  test.tar

(4) tar解包文件

root@ubuntu:/home/xtwy/compresse_demo# rm profile 
//按表枨方式显示打包文件内容,t表示表格
root@ubuntu:/home/xtwy/compresse_demo# tar -tvf test.tar
-rw-r--r-- root/root       497 2015-08-23 06:02 profile
root@ubuntu:/home/xtwy/compresse_demo# ls
test.tar
//解包文件,使用-x(extract)
root@ubuntu:/home/xtwy/compresse_demo# tar -xvf test.tar 
profile

(5) gzip压缩与解压缩文件

//压缩文件,压缩后的文件以.gz结尾
root@ubuntu:/home/xtwy/compresse_demo# gzip profile 
root@ubuntu:/home/xtwy/compresse_demo# ls
profile.gz  test.tar
//解压缩文件
root@ubuntu:/home/xtwy/compresse_demo# gunzip profile.gz 
root@ubuntu:/home/xtwy/compresse_demo# ls
profile  test.tar

(6) tar.gz文件解压缩

在网络上传输的文件通常都是经过gzip压缩后,再由tar归档后的文件,如下图所示:
这里写图片描述
使用tar -zxvf命令进行解压缩

tar -zxvf hadoop-2.7.1.tar.gz

4. 其他日常管理实用程序

(1) whereis命令

在标准路径下搜索与名称相关的文件,whereis将所有搜索到的文件都显示

root@ubuntu:/home/xtwy/compresse_demo# whereis tar
tar: /bin/tar /usr/include/tar.h /usr/share/man/man1/tar.1.gz /usr/share/man/man5/tar.5.gz

(2) which命令

which在设定的搜索路径下进行目录搜索,只显示搜索到的第一个文件

root@ubuntu:/home/xtwy/compresse_demo# which tar
/bin/tar

(3) locate命令

locate命令用于在本地文件系统上进行文件搜索,下面的例子给出了与xtwy相关的所有系统文件,包括隐藏文件:

root@ubuntu:/home/xtwy/compresse_demo# locate xtwy

这里写图片描述

更多which whereis locate命令相关内容,在后期讲linux中的正则表达式时仍然会有所涉及,此时大家只要会简单使用前面讲述的三个命令即可。

添加公众微信号,可以了解更多最新Spark、Scala相关技术资讯
这里写图片描述

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
168 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
6天前
|
Ubuntu Linux 开发者
Ubuntu20.04搭建嵌入式linux网络加载内核、设备树和根文件系统
使用上述U-Boot命令配置并启动嵌入式设备。如果配置正确,设备将通过TFTP加载内核和设备树,并通过NFS挂载根文件系统。
36 15
|
11天前
|
Ubuntu Unix Linux
Linux网络文件系统NFS:配置与管理指南
NFS 是 Linux 系统中常用的网络文件系统协议,通过配置和管理 NFS,可以实现跨网络的文件共享。本文详细介绍了 NFS 的安装、配置、管理和常见问题的解决方法,希望对您的工作有所帮助。通过正确配置和优化 NFS,可以显著提高文件共享的效率和安全性。
84 7
|
11天前
|
存储 运维 监控
Linux--深入理与解linux文件系统与日志文件分析
深入理解 Linux 文件系统和日志文件分析,对于系统管理员和运维工程师来说至关重要。文件系统管理涉及到文件的组织、存储和检索,而日志文件则记录了系统和应用的运行状态,是排查故障和维护系统的重要依据。通过掌握文件系统和日志文件的管理和分析技能,可以有效提升系统的稳定性和安全性。
29 7
|
1月前
|
安全 Linux 数据安全/隐私保护
深入Linux操作系统:文件系统和权限管理
在数字世界的海洋中,操作系统是连接用户与硬件的桥梁,而Linux作为其中的佼佼者,其文件系统和权限管理则是这座桥梁上不可或缺的结构。本文将带你探索Linux的文件系统结构,理解文件权限的重要性,并通过实际案例揭示如何有效地管理和控制这些权限。我们将一起航行在Linux的命令行海洋中,解锁文件系统的奥秘,并学习如何保护你的数据免受不必要的访问。
|
2月前
|
存储 运维 监控
深入Linux基础:文件系统与进程管理详解
深入Linux基础:文件系统与进程管理详解
90 8
|
2月前
|
存储 Linux 文件存储
Linux文件系统
Linux文件系统 一切皆文件 在Linux中,“一切皆文件”的概念意味着系统中的所有资源,包括硬件设备、目录及进程等,均被视为文件。这种设计简化了操作和管理,具体包括: 普通文件:存储数据的常规文件。 目录文件:包含其他文件和子目录的文件。 进程文件:在/proc目录下代表系统中运行的进程。 设备文件:位于/dev目录,代表硬件设备。 网络字节流套接字文件:用于网络通信的数据流。 链接文件:指向另一个文件的符号链接或硬链接。 管道文件:用于进程间通信的文件。
57 7
|
2月前
|
SQL 机器学习/深度学习 分布式计算
Spark快速上手:揭秘大数据处理的高效秘密,让你轻松应对海量数据
【10月更文挑战第25天】本文全面介绍了大数据处理框架 Spark,涵盖其基本概念、安装配置、编程模型及实际应用。Spark 是一个高效的分布式计算平台,支持批处理、实时流处理、SQL 查询和机器学习等任务。通过详细的技术综述和示例代码,帮助读者快速掌握 Spark 的核心技能。
112 6
|
2月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
139 2
|
2月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
100 1