第十二章 Python文件操作

简介:

12.1 open()

open()函数作用是打开文件,返回一个文件对象。

用法格式:open(name[, mode[, buffering[,encoding]]]) -> file object

name 文件名

mode 模式,比如以只读方式打开

buffering 缓冲区

encoding 返回数据采用的什么编码,一般utf8或gbk

Mode

Description

r 只读,默认
w 只写,打开前清空文件内容
a 追加
a+ 读写,写到文件末尾
w+ 可读写,清空文件内容
r+ 可读写,能写到文件任何位置
rb 二进制模式读
wb 二进制模式写,清空文件内容

例如:打开一个文件

1
2
3
4
5
6
7
8
9
10
11
12
>>> f  =  open ( 'test.txt' 'r' )
>>> f.
f.__class__(         f.__new__(           f.encoding           f.readinto(
f.__delattr__(       f.__reduce__(        f.errors             f.readline(
f.__doc__            f.__reduce_ex__(     f.fileno(            f.readlines(
f.__enter__(         f.__repr__(          f.flush(             f.seek(
f.__exit__(          f.__setattr__(       f.isatty(            f.softspace
f.__format__(        f.__sizeof__(        f.mode               f.tell(
f.__getattribute__(  f.__str__(           f.name               f.truncate(
f.__hash__(          f.__subclasshook__(  f.newlines           f.write(
f.__init__(          f.close(             f. next (              f.writelines(
f.__iter__(          f.closed             f.read(              f.xreadlines(

open()函数打开文件返回一个文件对象,并赋予遍历f,f就拥有了这个文件对象的操作方法。

方法

描述

f.read([size]) 读取size字节,当未指定或给负值时,读取剩余所有的字节,作为字符串返回
f.readline([size]) 从文件中读取下一行,作为字符串返回。如果指定size则返回size字节
f.readlines([size]) 读取size字节,当未指定或给负值时,读取剩余所有的字节,作为列表返回
f.write(str) 写字符串到文件
f.writelines(seq) 写序列到文件,seq必须是一个可迭代对象,而且要是一个字符串序列
f.seek(offset[, whence=0]) 在文件中移动文件指针,从whence(0代表文件起始位置,默认。1代表当前位置。2代表文件末尾)偏移offset个字节
f.tell() 返回当前在文件中的位置
f.close()
关闭文件
f.flush 刷新缓冲区到磁盘

12.2 文件对象操作

写一个测试文件test.txt举例:

1
2
3
4
5
# cat test.txt
1.Python
2.Java
3.C + +
4.Ruby

12.2.1 read()读取所有内容

1
2
3
>>> f  =  open ( 'test.txt' 'r' )
>>> f.read()
'1.Python\n2.Java\n3.C++\n4.Ruby\n'

指定读取多少字节:

1
2
3
>>> f  =  open ( 'test.txt' 'r' )
>>> f.read( 9 )   # 获取指定字节
'1.Python\n'

12.2.2 readline()读取下一行内容

1
2
3
4
5
>>> f  =  open ( 'test.txt' 'r' )
>>> f.readline()
'1.Python\n'
>>> f.readline()
'2.Java\n'

12.2.3 readlines()读取所有内容返回一个列表

1
2
3
>>> f  =  open ( 'test.txt' 'r' )
>>> f.readlines()
[ '1.Python\n' '2.Java\n' '3.C++\n' '4.Ruby\n' ]

12.2.4 wirte()写入字符串到文件

1
2
3
4
5
6
7
8
9
>>> f  =  open ( 'test.txt' 'a' )   # 以追加方式打开文件
>>> f.write( "5.Shell\n" )   # 这一步并没有真正写到文件
>>> f.flush()   # 刷新到磁盘才写到文件
# cat test.txt
1.Python
2.Java
3.C + +
4.Ruby
5.Shell

12.2.5 wirtelines()写入一个序列字符串到文件

1
2
3
4
5
6
7
8
9
10
>>> f  =  open ( 'test.txt' 'a' )
>>> f.writelines([ 'a' , 'b' , 'c' ])
>>> f.flush()
# cat test.txt
1.Python
2.Java
3.C + +
4.Ruby
5.Shell
abc

12.2.6 seek()从指定位置读取

1
2
3
4
5
6
7
8
9
>>> f  =  open ( 'test.txt' 'r' )
>>> f.tell()
0
>>> f.seek( 9 )
>>> f.tell()
9
>>> f.seek( 5 , 1 )   # 1表示从当前位置开始
>>> f.tell()
14

12.2.7 tell()返回当前指针位置

1
2
3
4
5
6
7
8
9
10
11
12
>>> f  =  open ( 'test.txt' 'r' )
>>> f.tell()
0
>>> f.readline()
'1.Python\n'
>>> f.tell()   
9
>>> f.readline()
'2.Java\n'
>>> f.tell()   
16
>>> f.close()   # 使用完后关闭文件


博客地址:http://lizhenliang.blog.51cto.com

QQ群:323779636(Shell/Python运维开发群


12.3 文件对象增删改查

在shell中,我们要想对文件指定行插入内容、替换等情况,使用sed工具很容易就实现。在本章节讲的open()函数并没有直接类似与sed工具的方法,要想实现这样的操作,变通的处理能到达此效果,主要思路是先读取内容修改,再写会文件,以下举几个常用的情况 

12.3.1 在第一行增加一行

例如:在开头添加一个test字符串

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
#!/usr/bin/python
# -*- coding: utf-8 -*-
=  open ( 'test.txt' 'r' )
data  =  f.read()
data  =  "test\n"  +  data
=  open ( 'test.txt' 'w' )
f.write(data)
f.flush()
f.close()
 
# python test.py
# cat test.txt
test
1.Python
2.Java
3.C + +
4.Ruby

先将数据读出来,然后把要添加的test字符串拼接到原有的数据,然后在写入这个文件。

12.3.2 在指定行添加一行

例如:在第二行添加一个test字符串

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
#!/usr/bin/python
# -*- coding: utf-8 -*-
=  open ( 'test.txt' 'r' )
data_list  =  f.readlines()   # 经测试,此方法比下面迭代效率高
# data_list = []
# for line in f:
#     data_list.append(line)
data_list.insert( 1 'test\n' )
# data = ''.join(data)
=  open ( 'test.txt' 'w' )
# f.write(data)
f.writelines(data_list)  
f.flush()
f.close
 
# python test.py
# cat test.txt
1.Python
test
2.Java
3.C + +
4.Ruby

先将数据以列表存储,就可以根据下标插入到指定位置,也就是哪一行了。再通过join把列表拼接成字符串,最后写到文件。

12.3.3 在匹配行前一行或后一行添加test字符串

1
2
3
4
5
6
7
8
9
#!/usr/bin/python
# -*- coding: utf-8 -*-
=  open ( 'test.txt' 'r' )
data_list  =  f.readlines()
data_list.insert( 2 - 1 'test\n' )   # 在指定行减去一行就是上一行了,下一行插入同理
=  open ( 'test.txt' 'w' )
f.writelines(data_list)
f.flush()
f.close

12.3.4 删除指定行

例如:删除第三行,与在指定行添加同理

1
2
3
4
5
6
7
8
9
#!/usr/bin/python
# -*- coding: utf-8 -*-
=  open ( 'test.txt' 'r' )
data_list  =  f.readlines()
data_list.pop( 2 )
=  open ( 'test.txt' 'w' )
f.writelines(data_list)
f.flush()
f.close

例如:只保留第一行至第三行

1
2
3
4
5
6
7
8
#!/usr/bin/python
# -*- coding: utf-8 -*-
=  open ( 'test.txt' 'r' )
data_list  =  f.readlines()[ 0 : 2 ]   # 列表切片
=  open ( 'test.txt' 'w' )
f.write(data_list)
f.flush()
f.close

12.3.5 删除匹配行

例如:删除匹配Py字符的行

1
2
3
4
5
6
7
8
9
10
11
12
13
#!/usr/bin/python
# -*- coding: utf-8 -*-
=  open ( 'test.txt' 'r' )
data  =  f.readlines()
# data_list = []
# for line in data:
#     if line.find('Py') == -1:   # 如果当前行不包含Py字符,会返回-1,否则返回下标
#         data_list.append(line)
data_list  =  [line  for  line  in  data  if  line.find( 'Py' = =  - 1 ]  
=  open ( 'test.txt' 'w' )
f.writelines(data_list)
f.flush()
f.close

12.3.6 全局替换字符串

1
2
3
4
5
6
7
8
9
#!/usr/bin/python
# -*- coding: utf-8 -*-
=  open ( 'test.txt' 'r' )
data  =  f.read()
data.replace( 'old string' 'new string' )
=  open ( 'test.txt' 'w' )
f.write(data)
f.flush()
f.close

12.3.7 在指定行替换字符串

例如:将C++改为C#

1
2
3
4
5
6
7
8
9
10
11
12
13
14
#!/usr/bin/python
# -*- coding: utf-8 -*-
=  open ( 'test.txt' 'r' )
data  =  f.readlines()
data_list  =  []
for  line  in  data:
     if  data.index(line)  = =  2 :
         data_list.append(line.replace( '++' '#' ))
     else :
         data_list.append(line)
=  open ( 'test.txt' 'w' )
f.writelines(data_list)
f.flush()
f.close

12.3.8 处理大文件

在读取上G文件时,直接读取所有内容会导致内存占用过多,内存爆掉。要想提高处理效率,有以下两种方法:

方法1:open()打开文件返回的对象本身就是可迭代的,利用for循环迭代可提高处理性能

1
2
3
4
5
6
7
8
>>> f  =  open ( 'test.txt' )
>>>  for  line  in  f:
...    print  line    # 每行后面会有一个换行符\n,所以会打印出来换行符,可以使用line.strip('\n')去除
...
1.Python
2.Java
3.C + +
4.Ruby

方法2:每次只读取固定字节

1
2
3
4
5
6
#!/usr/bin/python
# -*- coding: utf-8 -*-
=  open ( 'test.txt' )
while  True :
     data  =  f.read( 1024 )   # 每次只读取1024字节
     if  not  data:  break

12.3.9 下载文件

1
2
3
4
5
6
7
8
9
10
11
方法 1
import  urllib
url  =  "http://nginx.org/download/nginx-1.10.1.tar.gz"
urllib.urlretrieve(url,  "nginx-1.10.1.tar.gz" )
 
方法 2
import  urllib2
url  =  "http://nginx.org/download/nginx-1.10.1.tar.gz"
=  urllib2.urlopen(url).read()
with  open ( "nginx-1.10.1.tar.gz" "wb" ) as data:
     data.write(f)

12.4 fileinput

fileinput模块是Python内建模块,用于遍历文件,可对多文件操作。

方法

描述

fileinput.input([files[, inplace[, backup[, mode[, openhook]]]]])

files:文件路径,多文件这样写['1.txt,'2.txt'']

inplace:是否将标准输出写到原文件,默认是0,不写

backup:备份文件扩展名,比如.bak

mode:读写模式,默认r,只读

openhook:

fileinput.isfirstline() 检查当前行是否是文件的第一行
fileinput.lineno() 返回当前已经读取行的数量
fileinput.fileno() 返回当前文件数量
fileinput.filelineno() 返回当前读取行的行号
fileinput.filename() 返回当前文件名

12.4.1 遍历文件内容

1
2
3
4
5
6
7
8
9
10
11
#!/usr/bin/python
# -*- coding: utf-8 -*-
import  fileinput
for  line  in  fileinput. input ( 'test.txt' ):
     print  line
     
# python test.py 
1.Python
2.Java
3.C + +
4.Ruby

12.4.2 返回当前读取行的行号

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
#!/usr/bin/python
# -*- coding: utf-8 -*-
import  fileinput
for  line  in  fileinput. input ( 'test.txt' ):
     print  fileinput.filelineno()
     print  line,   # 逗号忽略换行符
     
# python test.py
1
1.Python
2
2.Java
3
3.C + +
4
4.Ruby

12.4.3 全局替换字符,修改原文件

1
2
3
4
5
6
#!/usr/bin/python
# -*- coding: utf-8 -*-
import  fileinput
for  line  in  fileinput. input ( 'test.txt' , backup = '.bak' , inplace = 1 ):
     line  =  line.replace( '++' , '#' )
     print  line,

先把要操作的文件备份一个以.bak的后缀文件,inplace=1是将标准输出写到原文件,也就是这个脚本如果没有标准输出,就会以空数据写到原文件。

12.4.4 对多文件操作

1
2
3
4
5
6
7
8
9
10
11
12
13
14
#!/usr/bin/python
# -*- coding: utf-8 -*-
import  fileinput
for  line  in  fileinput. input ([ 'test.txt' 'test2.txt' ]):
     print  line,
12.4 . 5  实时读取文件新增内容,类似tail  - f
#!/usr/bin/python
# -*- coding: utf-8 -*-
with  open ( 'access.log' ) as f:
      f.seek( 0 , 2 )    # 每次打开文件都将文件指针移动到末尾
      while  True :  
          line  =  f.readline()
          if  line:
              print  line,

这个死循环会一直执行下面的操作。很消耗性能。

我们可以加个休眠,每秒读取一次:

1
2
3
4
5
6
7
8
9
10
11
#!/usr/bin/python
# -*- coding: utf-8 -*-
import  time
with  open ( 'access.log' ) as f:
      f.seek( 0 , 2 )
      while  True :
          line  =  f.readline()
          if  line:
              print  line,
          else :
              time.sleep( 1 )

12.5 shutil

shutil模块是Python内建模块,用于文件或目录拷贝,归档。

方法

描述

shutil.copyfile(src, dst) 复制文件
shutil.copytree(src, dst) 复制文件或目录
shutil.move(src, dst) 移动文件或目录
shutil.rmtree(path,ignore_errors=False, onerror=None) 递归删除目录。os.rmdir()不能删除有文件的目录,就可以用这个了
shutil.make_archive(base_name, format, root_dir=None, base_dir=None, verbose=0, dry_run=0, owner=None, group=None, logger=None)

Python2.7以后才有这个方法。

功能是创建zip或tar归档文件。

base_name:要创建归档文件名

format:归档文件格式,有zip、tar、bztar、gztar

root_dir:要压缩的目录

base_dir:?

用法:shutil.make_archive('wp','zip','/root/wordpress')   

12.6 with语句

在处理一些事务时,可能会出现异常和后续的清理工作,比如读取失败,关闭文件等。这就用到了异常处理语句try...except,如下:

1
2
3
4
5
6
7
#!/usr/bin/python
# -*- coding: utf-8 -*-
=  open ( 'test.txt' )
try :
     data  =  f.read()
finally :
     f.close()

Python对于这种情况提供了一种更简单的处理方式,with语句。处理一个文件时,先获取一个文件句柄,再从文件中读取数据,最后关闭文件句柄。如下:

1
2
3
4
#!/usr/bin/python
# -*- coding: utf-8 -*-
with  open ( 'test.txt' ) as f:
     data  =  f.read()

可见这种方式显得更简约,一些异常、清理工作都交给with处理了。



本文转自 李振良OK 51CTO博客,原文链接:http://blog.51cto.com/lizhenliang/1874018,如需转载请自行联系原作者
相关文章
|
2月前
|
存储 Python
Python文件操作(1)
【10月更文挑战第17天】
Python文件操作(1)
|
2月前
|
自然语言处理 数据处理 Python
python操作和解析ppt文件 | python小知识
本文将带你从零开始,了解PPT解析的工具、工作原理以及常用的基本操作,并提供具体的代码示例和必要的说明【10月更文挑战第4天】
412 60
|
2月前
|
数据采集 存储 Python
Python文件操作2
【10月更文挑战第18天】
Python文件操作2
|
2月前
|
安全 Linux 数据安全/隐私保护
python知识点100篇系列(15)-加密python源代码为pyd文件
【10月更文挑战第5天】为了保护Python源码不被查看,可将其编译成二进制文件(Windows下为.pyd,Linux下为.so)。以Python3.8为例,通过Cython工具,先写好Python代码并加入`# cython: language_level=3`指令,安装easycython库后,使用`easycython *.py`命令编译源文件,最终生成.pyd文件供直接导入使用。
python知识点100篇系列(15)-加密python源代码为pyd文件
|
1月前
|
开发者 Python
Python中__init__.py文件的作用
`__init__.py`文件在Python包管理中扮演着重要角色,通过标识目录为包、初始化包、控制导入行为、支持递归包结构以及定义包的命名空间,`__init__.py`文件为组织和管理Python代码提供了强大支持。理解并正确使用 `__init__.py`文件,可以帮助开发者更好地组织代码,提高代码的可维护性和可读性。
31 2
|
2月前
|
Linux 区块链 Python
Python实用记录(十三):python脚本打包exe文件并运行
这篇文章介绍了如何使用PyInstaller将Python脚本打包成可执行文件(exe),并提供了详细的步骤和注意事项。
71 1
Python实用记录(十三):python脚本打包exe文件并运行
|
21天前
|
中间件 Docker Python
【Azure Function】FTP上传了Python Function文件后,无法在门户页面加载函数的问题
通过FTP上传Python Function至Azure云后,出现函数列表无法加载的问题。经排查,发现是由于`requirements.txt`中的依赖包未被正确安装。解决方法为:在本地安装依赖包到`.python_packages/lib/site-packages`目录,再将该目录内容上传至云上的`wwwroot`目录,并重启应用。最终成功加载函数列表。
|
2月前
|
Java Python
> python知识点100篇系列(19)-使用python下载文件的几种方式
【10月更文挑战第7天】本文介绍了使用Python下载文件的五种方法,包括使用requests、wget、线程池、urllib3和asyncio模块。每种方法适用于不同的场景,如单文件下载、多文件并发下载等,提供了丰富的选择。
|
2月前
|
数据安全/隐私保护 流计算 开发者
python知识点100篇系列(18)-解析m3u8文件的下载视频
【10月更文挑战第6天】m3u8是苹果公司推出的一种视频播放标准,采用UTF-8编码,主要用于记录视频的网络地址。HLS(Http Live Streaming)是苹果公司提出的一种基于HTTP的流媒体传输协议,通过m3u8索引文件按序访问ts文件,实现音视频播放。本文介绍了如何通过浏览器找到m3u8文件,解析m3u8文件获取ts文件地址,下载ts文件并解密(如有必要),最后使用ffmpeg合并ts文件为mp4文件。
|
2月前
|
JSON 数据格式 Python
Python实用记录(十四):python统计某个单词在TXT/JSON文件中出现的次数
这篇文章介绍了一个Python脚本,用于统计TXT或JSON文件中特定单词的出现次数。它包含两个函数,分别处理文本和JSON文件,并通过命令行参数接收文件路径、目标单词和文件格式。文章还提供了代码逻辑的解释和示例用法。
50 0
Python实用记录(十四):python统计某个单词在TXT/JSON文件中出现的次数