关于“Python”的核心知识点整理大全23

简介: 关于“Python”的核心知识点整理大全23

第10 章

文件和异常

10.1 从文件中读取数据

文本文件可存储的数据量多得难以置信:天气数据、交通数据、社会经济数据、文学作品等。 每当需要分析或修改存储在文件中的信息时,读取文件都很有用,对数据分析应用程序来说尤其 如此。例如,你可以编写一个这样的程序:读取一个文本文件的内容,重新设置这些数据的格式 并将其写入文件,让浏览器能够显示这些内容。 要使用文本文件中的信息,首先需要将信息读取到内存中。为此,你可以一次性读取文件的 全部内容,也可以以每次一行的方式逐步读取。

10.1.1 读取整个文件

要读取文件,需要一个包含几行文本的文件。下面首先来创建一个文件,它包含精确到小数 点后30位的圆周率值,且在小数点后每10位处都换行:

pi_digits.txt
3.1415926535
 8979323846
 2643383279

要动手尝试后续示例,可在编辑器中输入这些数据行,再将文件保存为pi_digits.txt,也可从 本书的配套网站(https://www.nostarch.com/pythoncrashcourse/)下载该文件。然后,将该文件保 存到本章程序所在的目录中。 下面的程序打开并读取这个文件,再将其内容显示到屏幕上:

file_reader.py

with open('pi_digits.txt') as file_object:
 contents = file_object.read()
 print(contents) 

在这个程序中,第1行代码做了大量的工作。我们先来看看函数open()。要以任何方式使用 文件——哪怕仅仅是打印其内容,都得先打开文件,这样才能访问它。函数open()接受一个参数: 要打开的文件的名称。Python在当前执行的文件所在的目录中查找指定的文件。在这个示例中, 当前运行的是file_reader.py,因此Python在file_reader.py所在的目录中查找pi_digits.txt。函数open() 返回一个表示文件的对象。在这里,open('pi_digits.txt')返回一个表示文件pi_digits.txt的对 象;Python将这个对象存储在我们将在后面使用的变量中。

关键字with在不再需要访问文件后将其关闭。在这个程序中,注意到我们调用了open(),但 没有调用close();你也可以调用open()和close()来打开和关闭文件,但这样做时,如果程序存 在bug,导致close()语句未执行,文件将不会关闭。这看似微不足道,但未妥善地关闭文件可能 会导致数据丢失或受损。如果在程序中过早地调用close(),你会发现需要使用文件时它已关闭 (无法访问),这会导致更多的错误。并非在任何情况下都能轻松确定关闭文件的恰当时机,但通 过使用前面所示的结构,可让Python去确定:你只管打开文件,并在需要时使用它,Python自会 在合适的时候自动将其关闭。

有了表示pi_digits.txt的文件对象后,我们使用方法read()(前述程序的第2行)读取这个文 件的全部内容,并将其作为一个长长的字符串存储在变量contents中。这样,通过打印contents 的值,就可将这个文本文件的全部内容显示出来:

3.1415926535
 8979323846
 2643383279

相比于原始文件,该输出唯一不同的地方是末尾多了一个空行。为何会多出这个空行呢?因 为read()到达文件末尾时返回一个空字符串,而将这个空字符串显示出来时就是一个空行。要删 除多出来的空行,可在print语句中使用rstrip():

with open('pi_digits.txt') as file_object:
 contents = file_object.read()
 print(contents.rstrip())

本书前面说过,Python方法rstrip()删除(剥除)字符串末尾的空白。现在,输出与原始文 件的内容完全相同:

3.1415926535
 8979323846
 2643383279 

10.1.2 文件路径

当你将类似pi_digits.txt这样的简单文件名传递给函数open()时,Python将在当前执行的文件 (即.py程序文件)所在的目录中查找文件。

根据你组织文件的方式,有时可能要打开不在程序文件所属目录中的文件。例如,你可能将 程序文件存储在了文件夹python_work中,而在文件夹python_work中,有一个名为text_files的文 件夹,用于存储程序文件操作的文本文件。虽然文件夹text_files包含在文件夹python_work中,但 仅向open()传递位于该文件夹中的文件的名称也不可行,因为Python只在文件夹python_work中查 找,而不会在其子文件夹text_files中查找。要让Python打开不与程序文件位于同一个目录中的文 件,需要提供文件路径,它让Python到系统的特定位置去查找。

由于文件夹text_files位于文件夹python_work中,因此可使用相对文件路径来打开该文件夹中 的文件。相对文件路径让Python到指定的位置去查找,而该位置是相对于当前运行的程序所在目 录的。在Linux和OS X中,你可以这样编写代码:

with open('text_files/filename.txt') as file_object:

这行代码让Python到文件夹python_work下的文件夹text_files中去查找指定的.txt文件。在 Windows系统中,在文件路径中使用反斜杠(\)而不是斜杠(/):

with open('text_files\filename.txt') as file_object: 

你还可以将文件在计算机中的准确位置告诉Python,这样就不用关心当前运行的程序存储在 什么地方了。这称为绝对文件路径。在相对路径行不通时,可使用绝对路径。例如,如果text_files 并不在文件夹python_work中,而在文件夹other_files中,则向open()传递路径'text_files/ filename.txt'行不通,因为Python只在文件夹python_work中查找该位置。为明确地指出你希望 Python到哪里去查找,你需要提供完整的路径。 绝对路径通常比相对路径更长,因此将其存储在一个变量中,再将该变量传递给open()会有 所帮助。在Linux和OS X中,绝对路径类似于下面这样:

file_path = '/home/ehmatthes/other_files/text_files/filename.txt'
with open(file_path) as file_object:

而在Windows系统中,它们类似于下面这样:

1. file_path = 'C:\Users\ehmatthes\other_files\text_files\filename.txt'
2. with open(file_path) as file_object:

通过使用绝对路径,可读取系统任何地方的文件。就目前而言,最简单的做法是,要么将数 据文件存储在程序文件所在的目录,要么将其存储在程序文件所在目录下的一个文件夹(如 text_files)中。


注意 Windows系统有时能够正确地解读文件路径中的斜杠。如果你使用的是Windows系统,且 结果不符合预期,请确保在文件路径中使用的是反斜杠。


10.1.3 逐行读取

读取文件时,常常需要检查其中的每一行:你可能要在文件中查找特定的信息,或者要以 某种方式修改文件中的文本。例如,你可能要遍历一个包含天气数据的文件,并使用天气描述 中包含字样sunny的行。在新闻报道中,你可能会查找包含标签的行,并按特定的格 式设置它。 要以每次一行的方式检查文件,可对文件对象使用for循环:

file_reader.py

1 filename = 'pi_digits.txt'
2 with open(filename) as file_object:
3 for line in file_object:
 print(line) 

在1处,我们将要读取的文件的名称存储在变量filename中,这是使用文件时一种常见的做 法。由于变量filename表示的并非实际文件——它只是一个让Python知道到哪里去查找文件的字 符串,因此可轻松地将'pi_digits.txt'替换为你要使用的另一个文件的名称。调用open()后,将 一个表示文件及其内容的对象存储到了变量file_object中(见2)。这里也使用了关键字with, 让Python负责妥善地打开和关闭文件。为查看文件的内容,我们通过对文件对象执行循环来遍历 文件中的每一行(见3)。 我们打印每一行时,发现空白行更多了:

3.1415926535
 8979323846 
 2643383279

为何会出现这些空白行呢?因为在这个文件中,每行的末尾都有一个看不见的换行符,而 print语句也会加上一个换行符,因此每行末尾都有两个换行符:一个来自文件,另一个来自print 语句。要消除这些多余的空白行,可在print语句中使用rstrip():

filename = 'pi_digits.txt'
with open(filename) as file_object:
 for line in file_object:
 print(line.rstrip()) 

现在,输出又与文件内容完全相同了:

3.1415926535
 8979323846
 2643383279

10.1.4 创建一个包含文件各行内容的列表

使用关键字with时,open()返回的文件对象只在with代码块内可用。如果要在with代码块外 访问文件的内容,可在with代码块内将文件的各行存储在一个列表中,并在with代码块外使用该 列表:你可以立即处理文件的各个部分,也可推迟到程序后面再处理。

下面的示例在with代码块中将文件pi_digits.txt的各行存储在一个列表中,再在with代码块外 打印它们:

filename = 'pi_digits.txt'
with open(filename) as file_object:
1 lines = file_object.readlines()
2 for line in lines:
 print(line.rstrip())

1处的方法readlines()从文件中读取每一行,并将其存储在一个列表中;接下来,该列表被 存储到变量lines中;在with代码块外,我们依然可以使用这个变量。在处,我们使用一个简单 的for循环来打印lines中的各行。由于列表lines的每个元素都对应于文件中的一行,因此输出 与文件内容完全一致。

10.1.5 使用文件的内容

将文件读取到内存中后,就可以以任何方式使用这些数据了。下面以简单的方式使用圆周率 的值。首先,我们将创建一个字符串,它包含文件中存储的所有数字,且没有任何空格:

pi_string.py
filename = 'pi_digits.txt'
with open(filename) as file_object:
 lines = file_object.readlines()
1 pi_string = ''
2 for line in lines:
 pi_string += line.rstrip()
3 print(pi_string)
print(len(pi_string)) 

就像前一个示例一样,我们首先打开文件,并将其中的所有行都存储在一个列表中。在1处, 我们创建了一个变量——pi_string,用于存储圆周率的值。接下来,我们使用一个循环将各行 都加入pi_string,并删除每行末尾的换行符(见2)。在3处,我们打印这个字符串及其长度:

3.1415926535 8979323846 2643383279
36

在变量pi_string存储的字符串中,包含原来位于每行左边的空格,为删除这些空格,可使 用strip()而不是rstrip():

filename = 'pi_30_digits.txt'
with open(filename) as file_object:
 lines = file_object.readlines()
pi_string = ''
for line in lines:
 pi_string += line.strip()
print(pi_string)
print(len(pi_string)) 

这样,我们就获得了一个这样的字符串:它包含精确到30位小数的圆周率值。这个字符串长 32字符,因为它还包含整数部分的3和小数点:

3.141592653589793238462643383279
32 

注意 读取文本文件时,Python将其中的所有文本都解读为字符串。如果你读取的是数字,并 要将其作为数值使用,就必须使用函数int()将其转换为整数,或使用函数float()将其转 换为浮点数

目录
相关文章
|
1月前
|
测试技术 API Python
【10月更文挑战第1天】python知识点100篇系列(13)-几种方法让你的电脑一直在工作
【10月更文挑战第1天】 本文介绍了如何通过Python自动操作鼠标或键盘使电脑保持活跃状态,避免自动息屏。提供了三种方法:1) 使用PyAutoGUI,通过安装pip工具并执行`pip install pyautogui`安装,利用`moveRel()`方法定时移动鼠标;2) 使用Pymouse,通过`pip install pyuserinput`安装,采用`move()`方法移动鼠标绝对位置;3) 使用PyKeyboard,同样需安装pyuserinput,模拟键盘操作。文中推荐使用PyAutoGUI,因其功能丰富且文档详尽。
|
3月前
|
Python
python知识点
【8月更文挑战第27天】python知识点
3398 2
|
22天前
|
缓存 Java 索引
[Python]知识点
本文主要介绍了Python的一些高级知识点和使用细节,包括pip的使用、内置函数、列表、元组、字典、集合、变量、Lambda表达式、面向对象编程、异常处理、模块及标准库等。文章适合有一定Python基础的读者,重点在于深入理解和掌握Python的高级特性。文中还提供了大量示例代码,帮助读者更好地理解和应用这些知识点。
24 1
[Python]知识点
WK
|
3月前
|
存储 机器学习/深度学习 JSON
Python入门知识点
Python入门覆盖历史、设计理念、变量、数据类型、控制结构等。了解Python的发展,掌握动态类型的灵活性,熟悉整数、浮点数、字符串等数据类型。学会if/else、for/while循环构建逻辑流程,使用def定义函数,lambda快速创建匿名函数。通过类实现面向对象编程,利用模块和包组织代码。掌握try-except处理异常,open()进行文件操作。利用标准库和第三方库增强功能,理解集合、字典、列表推导式的应用,深入魔法方法、递归、装饰器等高级特性,以及上下文管理器和字符串、列表、元组的操作技巧。
WK
34 0
|
1月前
|
安全 Linux 数据安全/隐私保护
python知识点100篇系列(15)-加密python源代码为pyd文件
【10月更文挑战第5天】为了保护Python源码不被查看,可将其编译成二进制文件(Windows下为.pyd,Linux下为.so)。以Python3.8为例,通过Cython工具,先写好Python代码并加入`# cython: language_level=3`指令,安装easycython库后,使用`easycython *.py`命令编译源文件,最终生成.pyd文件供直接导入使用。
python知识点100篇系列(15)-加密python源代码为pyd文件
|
1月前
|
网络协议 数据库连接 Python
python知识点100篇系列(17)-替换requests的python库httpx
【10月更文挑战第4天】Requests 是基于 Python 开发的 HTTP 库,使用简单,功能强大。然而,随着 Python 3.6 的发布,出现了 Requests 的替代品 —— httpx。httpx 继承了 Requests 的所有特性,并增加了对异步请求的支持,支持 HTTP/1.1 和 HTTP/2,能够发送同步和异步请求,适用于 WSGI 和 ASGI 应用。安装使用 httpx 需要 Python 3.6 及以上版本,异步请求则需要 Python 3.8 及以上。httpx 提供了 Client 和 AsyncClient,分别用于优化同步和异步请求的性能。
python知识点100篇系列(17)-替换requests的python库httpx
|
1月前
|
调度 Python
python知识点100篇系列(20)-python协程与异步编程asyncio
【10月更文挑战第8天】协程(Coroutine)是一种用户态内的上下文切换技术,通过单线程实现代码块间的切换执行。Python中实现协程的方法包括yield、asyncio模块及async/await关键字。其中,async/await结合asyncio模块可更便捷地编写和管理协程,支持异步IO操作,提高程序并发性能。协程函数、协程对象、Task对象等是其核心概念。
|
1月前
|
Python Windows
python知识点100篇系列(24)- 简单强大的日志记录器loguru
【10月更文挑战第11天】Loguru 是一个功能强大的日志记录库,支持日志滚动、压缩、定时删除、高亮和告警等功能。安装简单,使用方便,可通过 `pip install loguru` 快速安装。支持将日志输出到终端或文件,并提供丰富的配置选项,如按时间或大小滚动日志、压缩日志文件等。还支持与邮件通知模块结合,实现邮件告警功能。
python知识点100篇系列(24)- 简单强大的日志记录器loguru
|
1月前
|
自然语言处理 Python Windows
python知识点100篇系列(23)- 使用stylecloud生成词云
【10月更文挑战第10天】`stylecloud` 是 `wordcloud` 的优化版,支持使用 Font Awesome 图标自定义词云形状,操作更简便。本文介绍如何安装 `jieba` 和 `stylecloud` 库,并使用它们生成中文词云。通过 `jieba` 进行分词,再利用 `stylecloud` 的 `gen_stylecloud` 方法生成具有特定形状和颜色的词云图像。
python知识点100篇系列(23)- 使用stylecloud生成词云
|
1月前
|
Java Python
> python知识点100篇系列(19)-使用python下载文件的几种方式
【10月更文挑战第7天】本文介绍了使用Python下载文件的五种方法,包括使用requests、wget、线程池、urllib3和asyncio模块。每种方法适用于不同的场景,如单文件下载、多文件并发下载等,提供了丰富的选择。
下一篇
无影云桌面