python 文件操作新姿势 pathlib模块的详细使用

简介: 相比常用的 os.path而言,pathlib 对于目录路径的操作更简介也更贴近 Pythonic。但是它不单纯是为了简化操作,还有更大的用途。pathlib 是Python内置库,Python 文档给它的定义是:The pathlib module – object-oriented filesystem paths(面向对象的文件系统路径)。pathlib 提供表示文件系统路径的类,其语义适用于不同的操作系统。

相比常用的 os.path而言,pathlib 对于目录路径的操作更简介也更贴近 Pythonic。但是它不单纯是为了简化操作,还有更大的用途。

pathlib 是Python内置库,Python 文档给它的定义是:The pathlib module – object-oriented filesystem paths(面向对象的文件系统路径)。pathlib 提供表示文件系统路径的类,其语义适用于不同的操作系统。

20200813205955716.png

更多详细的内容可以参考官方文档:https://docs.python.org/3/library/pathlib.html#methods


一、pathlib模块下 Path 类的基本使用


frompathlibimportPathpath=r'D:\python\pycharm2020\program\pathlib模块的基本使用.py'p=Path(path)
print(p.name)       # 获取文件名print(p.stem)       # 获取文件名除后缀的部分print(p.suffix)     # 获取文件后缀print(p.parent)     # 相当于dirnameprint(p.parent.parent.parent)
print(p.parents)    # 返回一个iterable 包含所有父目录foriinp.parents:
print(i)
print(p.parts)      # 将路径通过分隔符分割成一个元组


运行结果如下:


pathlib模块的基本使用.pypathlib模块的基本使用.pyD:\python\pycharm2020\programD:\python<WindowsPath.parents>D:\python\pycharm2020\programD:\python\pycharm2020D:\pythonD:\
('D:\\', 'python', 'pycharm2020', 'program', 'pathlib模块的基本使用.py')


  • Path.cwd():Return a new path object representing the current directory
  • Path.home():Return a new path object representing the user’s home directory
  • Path.expanduser():Return a new path with expanded ~ and ~user constructs


frompathlibimportPathpath_1=Path.cwd()       # 获取当前文件路径path_2=Path.home()
p1=Path('~/pathlib模块的基本使用.py')
print(path_1)
print(path_2)
print(p1.expanduser())


运行结果如下:


D:\python\pycharm2020\programC:\Users\AdministratorC:\Users\Administrator\pathlib模块的基本使用.py


Path.stat():Return a os.stat_result object containing information about this path


frompathlibimportPathimportdatetimep=Path('pathlib模块的基本使用.py')
print(p.stat())            # 获取文件详细信息print(p.stat().st_size)    # 文件的字节大小print(p.stat().st_ctime)   # 文件创建时间print(p.stat().st_mtime)   # 上次修改文件的时间creat_time=datetime.datetime.fromtimestamp(p.stat().st_ctime)
st_mtime=datetime.datetime.fromtimestamp(p.stat().st_mtime)
print(f'该文件创建时间:{creat_time}')
print(f'上次修改该文件的时间:{st_mtime}')


运行结果如下:


os.stat_result(st_mode=33206, st_ino=3659174698076635, st_dev=3730828260, st_nlink=1, st_uid=0, st_gid=0, st_size=543, st_atime=1597366826, st_mtime=1597366826, st_ctime=1597320585)
5431597320585.76574751597366826.9711637该文件创建时间:2020-08-1320:09:45.765748上次修改该文件的时间:2020-08-1409:00:26.971164


从不同.stat().st_属性 返回的时间戳表示自1970年1月1日以来的秒数,可以用datetime.fromtimestamp将时间戳转换为有用的时间格式。


frompathlibimportPathp1=Path('pathlib模块的基本使用.py')          # 文件p2=Path(r'D:\python\pycharm2020\program')   # 文件夹 absolute_path=p1.resolve()
print(absolute_path)
print(Path('.').exists())
print(p1.exists(), p2.exists())
print(p1.is_file(), p2.is_file())
print(p1.is_dir(), p2.is_dir())
print(Path('/python').exists())
print(Path('non_existent_file').exists())


运行结果如下:


D:\python\pycharm2020\program\pathlib模块的基本使用.pyTrueTrueTrueTrueFalseFalseTrueTrueFalse


  • Path.iterdir():When the path points to a directory,yield path objects of the directory contents


frompathlibimportPathp=Path('/python')
forchildinp.iterdir():
print(child)


运行结果如下:


\python\Anaconda\python\EVCapture\python\Evernote_6.21.3.2048.exe\python\Notepad++\python\pycharm-community-2020.1.3.exe\python\pycharm2020\python\pyecharts-assets-master\python\pyecharts-gallery-master\python\Sublimetext3


  • Path.glob(pattern):Glob the given relative pattern in the directory represented by this path, yielding all matching files (of any kind),The “**” pattern means “this directory and all subdirectories, recursively”. In other words, it enables recursive globbing.


  • Note:Using the “**” pattern in large directory trees may consume an inordinate amount of time


递归遍历该目录下所有文件,获取所有符合pattern的文件,返回一个generator。


获取该文件目录下所有.py文件


frompathlibimportPathpath=r'D:\python\pycharm2020\program'p=Path(path)
file_name=p.glob('**/*.py')
print(type(file_name))   # <class 'generator'>foriinfile_name:
print(i)


获取该文件目录下所有.jpg图片


frompathlibimportPathpath=r'D:\python\pycharm2020\program'p=Path(path)
file_name=p.glob('**/*.jpg')
print(type(file_name))   # <class 'generator'>foriinfile_name:
print(i)


获取给定目录下所有.txt文件、.jpg图片和.py文件


frompathlibimportPathdefget_files(patterns, path):
all_files= []
p=Path(path)
foriteminpatterns:
file_name=p.rglob(f'**/*{item}')
all_files.extend(file_name)
returnall_filespath=input('>>>请输入文件路径:')
results=get_files(['.txt', '.jpg', '.py'], path)
print(results)
forfileinresults:
print(file)


Path.mkdir(mode=0o777, parents=False, exist_ok=False)


  • Create a new directory at this given path. If mode is given, it is combined with the process’ umask value to determine the file mode and access flags. If the path already exists, FileExistsError is raised.
  • If parents is true, any missing parents of this path are created as needed; they are created with the default permissions without taking mode into account (mimicking the POSIX mkdir -p command).
  • If parents is false (the default), a missing parent raises FileNotFoundError.
  • If exist_ok is false (the default), FileExistsError is raised if the target directory already exists.
  • If exist_ok is true, FileExistsError exceptions will be ignored (same behavior as the POSIX mkdir -p command), but only if the last path component is not an existing non-directory file.


Changed in version 3.5: The exist_ok parameter was added.

Path.rmdir():Remove this directory. The directory must be empty.


frompathlibimportPathp=Path(r'D:\python\pycharm2020\program\test')
p.mkdir()
p.rmdir()


frompathlibimportPathp=Path(r'D:\python\test1\test2\test3')
p.mkdir(parents=True)  # If parents is true, any missing parents of this path are created as neededp.rmdir()    # 删除的是test3文件夹


frompathlibimportPathp=Path(r'D:\python\test1\test2\test3')
p.mkdir(exist_ok=True)


  • Path.unlink(missing_ok=False):Remove this file or symbolic link. If the path points to a directory, use Path.rmdir() instead. If missing_ok is false (the default), FileNotFoundError is raised if the path does not exist. If missing_ok is true, FileNotFoundError exceptions will be ignored. Changed in version 3.8:The missing_ok parameter was added.
  • Path.rename(target):Rename this file or directory to the given target, and return a new Path instance pointing to target. On Unix, if target exists and is a file, it will be replaced silently if the user has permission. target can be either a string or another path object.
  • Path.open(mode=‘r’, buffering=-1, encoding=None, errors=None, newline=None):Open the file pointed to by the path, like the built-in open() function does.


frompathlibimportPathp=Path('foo.txt')
p.open(mode='w').write('some text')
target=Path('new_foo.txt')
p.rename(target)
content=target.open(mode='r').read()
print(content)
target.unlink()


二、与os模块用法的对比



pathlib2.png


三、实战案例


对于多层文件夹的读取,用os模块只能一层一层读取出文件,要写多个for循环,效率不高,这时我们可以用 Path.glob(**/*) 大法,下面以一个实际案例来体验它的强大。


用于测试的文件夹如下:


pathlib3.gif


md文件中数据如下:


pathlib4.png


需要实现将该目录下所有 md 文件的数据提取出来,并进行清洗,然后写入 csv 文件中。

# -*- coding: UTF-8 -*-"""@File    :pathlib读取多层目录数据.py@Author  :叶庭云@CSDN    :https://yetingyun.blog.csdn.net/"""frompathlibimportPathimportreimportpandasaspd# 传入路径p=Path(r'.\微博热搜数据\热搜数据/')
# 得到该文件目录下所有 .md文件file_list=list(p.glob('**/*.md'))
print(f'读取md文件数量:{len(file_list)}')
foriteminfile_list:
print(item)
# 每天有两条热搜汇总  11点  23点  会有重合数据  去重filelist=list(filter(lambdax: str(x).find('23点') >=0, file_list))
sum_list= []
i=0forfileinfilelist:
# 遍历出每一个md文件   读取数据withfile.open(encoding='utf-8') asf:
lines=f.readlines()
lines= [i.strip() foriinlines]   # 去除空字符data=list(filter(None, lines))     # 去除掉列表中的空子串data=data[1:101]
con=data[::2]     # 热搜内容rank=data[1::2]   # 热度date=re.findall('年(.+)2', str(file)) *len(con)
forminrange(len(con)):
con[m] =con[m].split('、')[-1]   # 字符串操作forninrange(len(rank)):
rank[n] =re.findall(r'\d+', rank[n])[0]
con_dic= {'日期': date, '热搜内容': con, '热度': rank}
df=pd.DataFrame(con_dic)
ifi==0:
df.to_csv('weibo1.csv', mode='a+', index=False, header=True)
else:
df.to_csv('weibo1.csv', mode='a+', index=False, header=False)
# 每个md文件中有50条数据i+=50print('共{}条数据写入csv'.format(i))


运行效果如下:

20201104222951120.gif

pathlib6.gif

成功将该目录下所有 md 文件的数据提取出来,并进行清洗,然后写入了 csv 文件中。

目录
相关文章
|
4天前
|
Python
在Python中,可以使用内置的`re`模块来处理正则表达式
在Python中,可以使用内置的`re`模块来处理正则表达式
12 5
|
14天前
|
Java 程序员 开发者
Python的gc模块
Python的gc模块
|
17天前
|
数据采集 Web App开发 JavaScript
python-selenium模块详解!!!
Selenium 是一个强大的自动化测试工具,支持 Python 调用浏览器进行网页抓取。本文介绍了 Selenium 的安装、基本使用、元素定位、高级操作等内容。主要内容包括:发送请求、加载网页、元素定位、处理 Cookie、无头浏览器设置、页面等待、窗口和 iframe 切换等。通过示例代码帮助读者快速掌握 Selenium 的核心功能。
58 5
|
17天前
|
Python
SciPy 教程 之 SciPy 模块列表 13
SciPy教程之SciPy模块列表13:单位类型。常量模块包含多种单位,如公制、二进制(字节)、质量、角度、时间、长度、压强、体积、速度、温度、能量、功率和力学单位。示例代码展示了如何使用`constants`模块获取零摄氏度对应的开尔文值(273.15)和华氏度与摄氏度的转换系数(0.5556)。
16 1
|
18天前
|
XML 前端开发 数据格式
超级详细的python中bs4模块详解
Beautiful Soup 是一个用于从网页中抓取数据的 Python 库,提供了简单易用的函数来处理导航、搜索和修改分析树。支持多种解析器,如 Python 标准库中的 HTML 解析器和更强大的 lxml 解析器。通过简单的代码即可实现复杂的数据抓取任务。本文介绍了 Beautiful Soup 的安装、基本使用、对象类型、文档树遍历和搜索方法,以及 CSS 选择器的使用。
48 1
|
15天前
|
Python
SciPy 教程 之 SciPy 模块列表 16
SciPy教程之SciPy模块列表16 - 单位类型。常量模块包含多种单位,如公制、质量、角度、时间、长度、压强、体积、速度、温度、能量、功率和力学单位。示例代码展示了力学单位的使用,如牛顿、磅力和千克力等。
14 0
|
16天前
|
JavaScript Python
SciPy 教程 之 SciPy 模块列表 15
SciPy 教程之 SciPy 模块列表 15 - 功率单位。常量模块包含多种单位,如公制、质量、时间等。功率单位中,1 瓦特定义为 1 焦耳/秒,表示每秒转换或耗散的能量速率。示例代码展示了如何使用 `constants` 模块获取马力值(745.6998715822701)。
13 0
|
16天前
|
JavaScript Python
SciPy 教程 之 SciPy 模块列表 15
SciPy教程之SciPy模块列表15:单位类型。常量模块包含多种单位,如公制、质量、角度、时间、长度、压强、体积、速度、温度、能量、功率和力学单位。功率单位以瓦特(W)表示,1W=1J/s。示例代码展示了如何使用`constants`模块获取马力(hp)的值,结果为745.6998715822701。
15 0
|
17天前
|
Python
SciPy 教程 之 SciPy 模块列表 13
SciPy 教程之 SciPy 模块列表 13 - 单位类型。常量模块包含多种单位:公制、二进制(字节)、质量、角度、时间、长度、压强、体积、速度、温度、能量、功率和力学单位。示例:`constants.zero_Celsius` 返回 273.15 开尔文,`constants.degree_Fahrenheit` 返回 0.5555555555555556。
12 0
|
18天前
|
Python
SciPy 教程 之 SciPy 模块列表 11
SciPy教程之SciPy模块列表11:单位类型。常量模块包含公制单位、质量单位、角度换算、时间单位、长度单位、压强单位、体积单位、速度单位、温度单位、能量单位、功率单位、力学单位等。体积单位示例展示了不同体积单位的换算,如升、加仑、流体盎司、桶等。
14 0