【Python 基础教程 21】Python3 文件操作全面指南：从入门到精通的综合教程-阿里云开发者社区

1. 引言

1.1 文件系统基础

在计算机中，文件系统 (File System) 是一个非常重要的概念。简单来说，文件系统是一个用于控制数据存储和检索的方法，是操作系统用来明确存储设备或分区上的文件的方式和位置，以及存储数据和检索数据的方法。

Python和C/C++对文件系统的处理有许多相似之处，但也有一些重要的区别。在C/C++中，使用标准库中的文件操作函数，如fopen, fclose, fread, fwrite等进行文件的读写。而在Python中，提供了更简洁、更高级的文件操作接口。

在Python中，我们可以使用open函数来打开一个文件，并返回一个文件对象。与C/C++中需要考虑文件的打开模式（读、写、追加等）不同，Python中的open函数默认的模式就是读取文本文件，这使得Python在处理文件时更加方便。

比如，我们可以使用下面的代码来打开并读取一个文件的内容：

# 打开文件并读取内容
with open('myfile.txt', 'r') as f:
    content = f.read()

在这个例子中，'myfile.txt’是文件的名字，'r’是表示我们要以读的模式打开这个文件。with关键字用于处理上下文环境，在这个上下文结束后，Python会自动关闭这个文件，我们无需手动关闭。

C/C++的文件操作相对复杂，例如对于读取文件内容，我们需要先打开文件，检查错误，读取内容，然后关闭文件。如：

FILE *fp = fopen("myfile.txt", "r");
if(fp == NULL) {
    printf("Error opening file\n");
    return -1;
}
char ch;
while( ( ch = fgetc(fp) ) != EOF )
    printf("%c",ch);
fclose(fp);

我们可以看到，Python的文件操作更简单，易用。

在英语口语中，我们通常会这样描述这个过程：“I am going to open a file in read mode and then read its content.” (我将以读模式打开一个文件，然后读取其内容。)

现在让我们更深入地探讨Python的文件操作。

1.2 Python对文件操作的一般流程

文件在Python中被处理为一个对象，这意味着Python中每个文件都被分配给一个唯一的对象，可以用于访问文件的内容。Python对文件的操作一般分为以下步骤：

打开文件 - 使用Python内置的open函数来打开一个文件。这个函数会返回一个文件对象。
语法：

file_object = open(file_name [, access_mode][, buffering])

在英语中我们可以这样描述：“Firstly, I use the open function to get a file object.” (首先，我使用open函数来获取一个文件对象。)
读写操作 - 文件对象提供了一系列的方法，用于读写文件。
读文件的方法有：read(), readline(), readlines()
写文件的方法有：write(), writelines()
例如：

# 读取文件
with open('myfile.txt', 'r') as f:
    content = f.read()
# 写入文件
with open('myfile.txt', 'w') as f:
    f.write('Hello, world!')

英文表述：“Next, I can read or write the file by using the methods of the file object.” (接下来，我可以通过使用文件对象的方法来读取或写入文件。)
关闭文件 - 读写完文件后，我们需要关闭文件，释放系统资源。
例如：

file_object.close()

英文表述：“Finally, I need to close the file after reading or writing.” (最后，读取或写入文件后，我需要关闭文件。)

需要注意的是，Python中的with语句可以自动关闭文件，这使得文件的读写操作更加安全和方便。我们建议在可能的情况下使用with语句来处理文件。

以上就是Python中对文件操作的一般流程。接下来，我们将会详细介绍Python对文件的各种操作。

2. Python文件的基本操作

2.1 文件的创建和打开

Python中的文件创建和打开相对简单，我们使用内置函数open()即可完成这两个任务。这与C/C++在创建和打开文件时使用的函数有所不同。

在C++中，我们需要通过创建一个fstream或者ofstream或者ifstream对象来打开或创建一个文件，而在Python中，我们只需要一个函数调用。

在Python中，我们使用open()函数进行文件的创建和打开。这个函数的基本形式是 open(filename, mode)，其中 filename 是包含文件名的字符串，mode 是定义文件打开模式的字符串。

例如:

f = open('my_file.txt', 'w')

在上述代码中，我们使用’w’模式打开一个名为’my_file.txt’的文件。如果该文件不存在，Python会创建它。如果该文件已经存在，Python会覆盖其内容。

在日常口语交流中，我们会用英语描述这个操作，例如：“Let’s open the file ‘my_file.txt’ in write mode by calling the ‘open’ function with ‘w’ as the mode.” (让我们通过调用’open’函数并以’w’作为模式来以写入模式打开名为’my_file.txt’的文件。)

这里，主语是我们（“we”），谓语动词是"open"，直接宾语是"the file ‘my_file.txt’"，而介词短语"in write mode"和"by calling the ‘open’ function with ‘w’ as the mode"都是用来修饰谓语动词的。

这与C++中的文件打开方式存在明显的差异。在C++中，我们可能会这样打开一个文件：

std::ofstream file("my_file.txt");

其中，std::ofstream是C++中的一个类，用于创建一个向文件写入的输出流。如果文件不存在，C++会创建它。如果文件已经存在，C++会覆盖其内容。

在日常口语交流中，我们会用英语描述这个操作，例如：“We create an ofstream object named ‘file’ for the file ‘my_file.txt’.” (我们为’my_file.txt’文件创建一个名为’file’的ofstream对象。)

对比Python和C++的文件创建和打开方式，我们可以发现Python的方式更为简洁。在Python中，我们不需要像在C++中那样创建一个对象，我们只需要调用一个函数即可。

接下来的表格展示了Python和C++在打开文件方面的一些差异：

	Python	C++
函数/方法	`open()`	`std::fstream`
需要创建对象	否	是
打开不存在的文件会	创建新文件	创建新文件

在下面的代码示例中，我们将

演示如何在Python中创建和打开一个文件，并写入一些内容。然后，我们将展示如何在C++中实现同样的功能。这将有助于我们更好地理解Python和C++在文件操作上的区别。

Python版本：

# 创建并打开文件
f = open('test.txt', 'w')
# 写入一些内容
f.write('Hello, world!')
# 关闭文件
f.close()

C++版本：

#include <fstream>
// 创建并打开文件
std::ofstream f("test.txt");
// 写入一些内容
f << "Hello, world!";
// 关闭文件
f.close();

在这两个示例中，Python版本的代码更为简洁，更易于理解。而C++版本的代码虽然也相对直观，但需要处理更多的细节，如包含必要的头文件，使用特定的类等。这也展现了Python作为一种动态脚本语言的特点，其语法简洁，易于学习和使用，特别适合初学者。

2.2 文件的读取

在Python中，我们使用read(), readline()或readlines()方法来读取文件的内容。与C++相比，Python的文件读取方法提供了更为简洁和直观的操作。

例如，要读取一个文件的全部内容，我们可以在Python中这样操作：

f = open('test.txt', 'r')
content = f.read()
f.close()

在此代码中，我们首先使用open()函数打开了文件，然后调用read()方法读取了文件的全部内容，并将读取到的内容赋值给变量content。最后，我们使用close()方法关闭了文件。

用英语口语描述这个过程，我们可能会说：“We open the file ‘test.txt’ in read mode, read the entire content of the file using the ‘read’ method, and then close the file.”（我们以读取模式打开’test.txt’文件，使用’read’方法读取了文件的全部内容，然后关闭了文件。）

与此同时，C++提供了更为底层的文件读取操作。在C++中，我们通常会使用循环和>>运算符或getline()函数来逐行或逐个字符读取文件。例如：

#include <fstream>
#include <string>
std::ifstream f("test.txt");
std::string line;
while (std::getline(f, line)) {
    // process each line
}
f.close();

在这段代码中，我们首先创建了一个ifstream对象来打开文件，然后在循环中使用getline()函数逐行读取文件的内容。需要注意的是，在C++中，我们需要显式处理每一行的内容，而在Python中，我们可以一次性读取文件的全部内容。

下表总结了Python和C++在读取文件方面的主要差异：

	Python	C++
函数/方法	`read()`, `readline()`, `readlines()`	`>>`运算符， `getline()`
需要处理每一行/字符	否	是

接下来，我们将通过一个完整的代码示例来比较Python和C++读取文件内容的方式：

Python版本：

# 打开文件
f = open('test.txt', 'r')
# 逐行读取文件
for line in f:
    print(line)
# 关闭文件
f.close()

C++版本：

#include <fstream>
#include <string>
#include <iostream>
// 打开文件
std::ifstream f("test.txt");
std::string line;
// 逐行读取文件
while (std::getline(f, line)) {
    std::cout << line << std::endl;
}
// 关闭文件
f.close();

在这两个示例中，Python版本的代码更为简洁，而C++版本的代码需要显式地处理每一行的内容。这也反映了Python和C++在设计理念上的不同：Python强调代码的简洁性和可读性，而C++则提供了更多的底层控制，允许程序员进行更精细的操作。

2.3 文件的写入

Python中的文件写入操作与读取操作一样简单。我们使用write()或writelines()方法将数据写入到文件中。

例如，下面的Python代码将一些文本写入到一个文件中：

f = open('test.txt', 'w')
f.write('Hello, world!')
f.close()

在这段代码中，我们首先以写入模式打开了一个文件，然后使用write()方法将字符串’Hello, world!'写入到了文件中，最后使用close()方法关闭了文件。

英语口语中，我们可能会这样描述这个过程：“We open the file ‘test.txt’ in write mode, write the string ‘Hello, world!’ into the file using the ‘write’ method, and then close the file.”（我们以写入模式打开’test.txt’文件，使用’write’方法将字符串’Hello, world!'写入到文件中，然后关闭了文件。）

相比之下，C++提供了更多的写入文件的方式，例如使用<<运算符或write()函数。以下是一个C++写入文件的示例：

#include <fstream>
std::ofstream f("test.txt");
f << "Hello, world!";
f.close();

在这个例子中，我们首先创建了一个ofstream对象来打开文件，然后使用<<运算符将字符串"Hello, world!"写入到了文件中，最后使用close()方法关闭了文件。

以下表格总结了Python和C++在写入文件方面的主要差异：

	Python	C++
函数/方法	`write()`, `writelines()`	`<<`运算符， `write()`
处理字符串和其他数据类型	自动	需要显式转换

接下来，我们将通过一个完整的代码示例来比较Python和C++写入文件的方式：

Python版本：

# 打开文件
f = open('test.txt', 'w')
# 写入一些内容
lines = ['Hello, world!\n', 'Welcome to Python.\n']
f.writelines(lines)
# 关闭文件
f.close()

C++版本：

#include <fstream>
// 打开文件
std::ofstream f("test.txt");
// 写入一些内容
f << "Hello, world!\n";
f << "Welcome to C++.\n";
// 关闭文件
f.close();

这两个示例中，Python版本的代码更为简洁，更易于理解。这再次展现了Python在文件操作上的优势。

2.4 文件的关闭

在完成对文件的操作后，无论是读取还是写入，我们都应该关闭文件。这是因为打开的文件会占用系统资源，而且如果在程序结束时文件还处于打开状态，可能会导致数据丢失或损坏。

在Python中，我们可以使用close()方法来关闭一个文件，如下所示：

f = open('test.txt', 'r')
content = f.read()
f.close()

在英语口语中，我们可能会这样描述这个过程：“We open the file ‘test.txt’, read its content, and then close the file using the ‘close’ method.”（我们打开了’test.txt’文件，读取了其内容，然后使用’close’方法关闭了文件。）

同样，在C++中，我们也使用close()函数来关闭一个文件，如下所示：

#include <fstream>
std::ifstream f("test.txt");
// ... do some operations on f ...
f.close();

在这两种情况下，都强烈建议在完成文件操作后关闭文件，以释放系统资源并确保数据的安全。

在Python中，还有一种更为推荐的文件操作方式，即使用with语句。with语句可以确保在所有操作完成后文件会被正确关闭，即使在处理文件的过程中出现异常也是如此。例如：

with open('test.txt', 'r') as f:
    content = f.read()

在这段代码中，with语句创建了一个上下文环境，f就是这个上下文环境的一部分。当上下文环境结束时（即with语句块结束时），Python会自动调用f.close()来关闭文件。

C++中也有类似的RAII（Resource Acquisition Is Initialization）机制，当对象的生命周期结束时，它的析构函数会被自动调用。对于std::fstream来说，析构函数会自动关闭文件，因此在C++中通常不需要（但也可以）显式地调用close()。例如：

#include <fstream>
{
    std::ifstream f("test.txt");
    // ... do some operations on f ...
}  // f's destructor is called here, automatically closing the file

需要注意的是，无论在Python还是在C++中，都应当在确认文件不再需要之后尽快关闭它。在很多情况下，尤其是在处理大文件或者在资源受限的环境下，这是非常重要的。

第3章 Python文件的高级操作

3.1 文件的读写模式

在Python中，我们可以以不同的模式打开一个文件，这些模式包括只读（read, ‘r’），只写（write, ‘w’），追加（append, ‘a’）等等。然而，在C/C++中，文件打开模式也有相似的概念，但是处理的细节上有所不同。

模式	Python描述	C/C++描述
‘r’	只读模式	“r"或"rb”
‘w’	只写模式	“w"或"wb”
‘a’	追加模式	“a"或"ab”
‘r+’	读写模式	"r+“或"rb+”
‘w+’	读写模式	"w+“或"wb+”
‘a+’	读写模式	"a+“或"ab+”

在Python中，我们可以使用open()函数并设置不同的模式打开文件，比如：

f = open('test.txt', 'r') # 这是只读模式
f = open('test.txt', 'w') # 这是只写模式
f = open('test.txt', 'a') # 这是追加模式

而在C/C++中，我们可以使用fopen()函数来以类似的方式打开文件，如：

FILE *f = fopen("test.txt", "r"); // 这是只读模式
FILE *f = fopen("test.txt", "w"); // 这是只写模式
FILE *f = fopen("test.txt", "a"); // 这是追加模式

尽管Python和C/C++在语法上有所不同，但是他们处理文件的基本逻辑是类似的。在Python中，我们更偏向于使用with语句来操作文件，这样可以帮助我们更好地管理文件资源，而在C/C++中，我们通常需要在操作完文件后显式地调用fclose()函数关闭文件。例如，在Python中，我们可以这样操作文件：

with open('test.txt', 'r') as f:
    content = f.read() # 读取文件内容
print(content)

而在C/C++中，我们需要这样操作：

FILE *f = fopen("test.txt", "r");
char content[256];
fscanf(f, "%s", content); // 读取文件内容
printf("%s", content);
fclose(f); // 关闭文件

注意到Python在语法上的简洁性，这使得Python在处理文件操作上更为灵活和便捷。同时，Python还提供了更多的文件处理函数和方法，比如readlines()用于读取所有行，seek()用于改变当前文件指针的位置等等，这些都使得Python在文件处理上更具有优势。

当我们在英语口语交流中谈及这些操作时，我们可以说：“In Python, we use the open() function with different modes to handle files. For example, we can use the ‘read’ mode to open a file for reading, or the ‘write’ mode to open a file for writing.” （在Python中，我们使用带有不同模式的open()函数来处理文件。例如，我们可以使用’read’模式来打开一个用于读取的文件，或者使用’write’模式来打开一个用于写入的文件。）

这些模式的英文表述可以直接用于描述这些操作的过程，这就是Python和C/C++在文件操作上的一些基本区别。

3.2 使用with语句操作文件

当我们处理文件时，一种常见的做法是使用 with 语句，也被称为上下文管理器（Context Manager）。这种方式可以确保文件在使用结束后会被正确关闭，无需手动调用 close() 方法。这是 Python 的特性之一，能够帮助开发者更加有效地管理资源。

举个例子，如果我们要读取一个文件，我们可以这样做：

with open('example.txt', 'r') as f:
    content = f.read()
print(content)

在上述代码中，当我们离开 with 语句的缩进块时，文件 f 将自动关闭。这样，我们就不需要担心忘记关闭文件，或者在程序中途出错时文件没有被正确关闭的问题。

然而，在 C/C++ 中，我们需要显式地关闭文件。例如：

FILE *f = fopen("example.txt", "r");
char content[256];
fscanf(f, "%s", content);
printf("%s", content);
fclose(f);

在这个例子中，如果我们忘记调用 fclose(f)，文件将保持打开状态，可能会导致资源泄露或其他问题。

因此，从这个角度来看，Python 的 with 语句为文件操作提供了一种更加安全、更具可读性的方式。

在英语口语交流中，你可以说：“In Python, we often use the with statement when dealing with files. This ensures the file is properly closed after its use, even if an error occurs.” （在Python中，我们经常在处理文件时使用 with 语句。这确保了即使发生错误，文件也会在使用后被正确关闭。）

3.3 文件迭代

在Python中，文件对象是可迭代的，这意味着我们可以直接在文件对象上使用for循环，来逐行读取文件内容。这种方法在处理大文件时特别有效，因为它只会在需要时读取每一行，而不是一次性加载整个文件到内存。

以下是一个Python的例子，展示了如何逐行读取文件：

with open('example.txt', 'r') as f:
    for line in f:
        print(line.strip())  # 使用strip()方法移除行尾的换行符

然而，在C/C++中，文件迭代需要使用while循环和fgets()函数，如下所示：

FILE *f = fopen("example.txt", "r");
char line[256];
while (fgets(line, sizeof(line), f)) {
    printf("%s", line);
}
fclose(f);

在英语口语交流中，你可以说：“In Python, file objects are iterable. This means we can use a for loop to read through a file line by line, which is particularly useful when dealing with large files.” （在Python中，文件对象是可迭代的。这意味着我们可以使用for循环逐行读取文件，这在处理大文件时特别有用。）

4. 文件内容的查找和变更

4.1 文本文件中的内容查找

在Python中查找文件内容，常用的方式是通过 read() 或 readlines() 函数读取文件内容，然后使用字符串（String）的 find() 或 in 操作符来搜索指定的文本。我们通过以下示例来详细介绍。

with open('sample.txt', 'r') as file:
    content = file.read()
    search_term = 'Python'
    position = content.find(search_term)
    if position != -1:
        print(f"'{search_term}' found at position {position}")
    else:
        print(f"'{search_term}' not found in the file")

在这个代码中，我们首先打开名为 ‘sample.txt’ 的文件，然后读取它的全部内容。然后我们搜索字符串 ‘Python’，如果找到了就打印它在文件中的位置，否则打印没有找到。在C/C++中，我们通常需要手动管理文件的打开和关闭，而Python的 with 语句可以自动处理文件的关闭，这是Python的一大优势。

而在口语交流中，我们可以这样描述这个操作：“First, I opened the file called ‘sample.txt’ and read its entire content. Then I searched for the string ‘Python’. If found, I printed its position in the file; otherwise, I printed that it wasn’t found.”（首先，我打开了名为 ‘sample.txt’ 的文件，并读取了它的全部内容。然后我搜索了字符串 ‘Python’。如果找到了，我就打印出它在文件中的位置；否则，我就打印没有找到。）

以下是Python的 find() 方法与C/C++的对比：

Python	C/C++
str.find()	strstr(), strcasestr() in <string.h>
Automatic	Manual file closing required
Exceptions	Error handling via return codes

对于一些大文件，我们可能希望逐行搜索，而不是一次性读取全部内容。这种情况下，我们可以使用 readlines() 方法或者直接迭代文件对象。这将在接下来的章节进行讲解。

4.2 文本文件中的内容替换

在 Python 中，对文件内容的替换操作通常涉及到读取原文件内容，进行字符串替换，然后写回文件。下面的代码示例展示了如何使用 Python 实现文件内容的替换：

with open('sample.txt', 'r') as file:
    content = file.read()
new_content = content.replace('Python', 'Java')
with open('sample.txt', 'w') as file:
    file.write(new_content)

在这个例子中，我们首先打开文件并读取全部内容，然后使用字符串的 replace() 方法将所有出现的 ‘Python’ 替换为 ‘Java’，最后我们将修改后的内容写回文件。在C/C++中，这样的操作通常需要更多的代码，并且需要手动处理文件的关闭，错误处理等问题。

在口语交流中，我们可以这样描述这个操作：“First, I opened the file and read its entire content. Then I replaced all occurrences of the string ‘Python’ with ‘Java’. Finally, I wrote the new content back to the file.”（首先，我打开文件并读取了全部内容。然后我将所有出现的 ‘Python’ 替换为 ‘Java’。最后，我将新的内容写回了文件。）

以下是Python的 replace() 方法与C/C++的对比：

Python	C/C++
str.replace()	strcpy(), strncpy() in <string.h>
Automatic	Manual file closing required
Exceptions	Error handling via return codes

请注意，这种替换方法可能对于大文件来说不太高效，因为它需要将整个文件内容加载到内存中。对于大文件，我们可能需要使用更复杂的替换策略，比如分块读取和替换，这将在后续章节进行讲解。

以下是博客中的第5章第1小节的内容：

5. 文件信息和属性

5.1 获取文件的基本信息

Python3 提供了一套丰富的文件操作 API，用于获取和处理文件的基本信息。在这一小节中，我们将着重介绍如何使用这些 API 来获取文件的基本信息，包括文件的名字，大小，创建时间等。

import os
def file_info(file_path):
    stat_info = os.stat(file_path)
    print(f"File Path: {file_path}")
    print(f"File Size: {stat_info.st_size}")
    print(f"Creation Time: {stat_info.st_ctime}")
    print(f"Last Modified Time: {stat_info.st_mtime}")
file_info("sample.txt")

这段代码首先导入了 os 模块，然后定义了一个 file_info 函数，这个函数接收一个文件路径作为参数，然后使用 os.stat 函数获取这个文件的状态信息，并打印出文件的路径，大小，创建时间以及最后修改时间。

在 C/C++ 中，获取文件信息的方法相对复杂一些，主要使用的是 stat 系统调用。在Python中，os.stat 函数实际上是对这个系统调用的封装，使得在 Python 中获取文件信息变得更为简洁和方便。

C/C++中获取文件信息的示例代码如下：

#include <sys/types.h>
#include <sys/stat.h>
#include <unistd.h>
#include <stdio.h>
void file_info(const char* file_path) {
    struct stat stat_info;
    if (stat(file_path, &stat_info) == 0) {
        printf("File Path: %s\n", file_path);
        printf("File Size: %lld\n", (long long) stat_info.st_size);
        printf("Creation Time: %lld\n", (long long) stat_info.st_ctime);
        printf("Last Modified Time: %lld\n", (long long) stat_info.st_mtime);
    } else {
        printf("Failed to get stat for %s\n", file_path);
    }
}
int main() {
    file_info("sample.txt");
    return 0;
}

这段 C/C++ 代码使用了 stat 系统调用来获取文件的状态信息。虽然在功能上和 Python 的 os.stat 函数类似，但是在使用上明显不如 Python 来得简洁方便。因此，Python 在处理文件操作方面的优势就在于它的简洁性和易用性。

在接下来的章节中，我们将继续深入介绍 Python 文件操作的其他功能，包括获取和修改文件权限，判断文件状态等。在实际使用中，你将会发现 Python 的文件操作 API 不仅强大，而且易用，能够帮助你轻松地处理各种文件操作任务。

5.2 获取和修改文件权限

在操作系统中，文件权限控制着文件的访问方式，包括读（Read）、写（Write）和执行（Execute）等操作。在Python中，我们可以使用os模块来获取和修改文件权限。

在详细介绍之前，我们先来看一下这些文件权限的具体含义：

权限	含义
读®	可以读取文件内容
写(W)	可以修改文件内容
执行(X)	可以执行文件（仅适用于程序或脚本）

5.2.1 获取文件权限

Python的os模块中的stat函数可以用于获取文件的状态信息，包括文件权限。例如：

import os
import stat
# 获取文件权限
file_stat = os.stat('myfile.txt')
file_perm = stat.filemode(file_stat.st_mode)
print(file_perm)

在这个例子中，os.stat函数返回一个包含了文件状态信息的对象，其中的st_mode属性是文件的模式，包含了文件类型和文件权限信息。我们可以使用stat.filemode函数将这个模式转换为一个易于理解的字符串，比如’-rw-r–r–'，表示这是一个普通文件，拥有者有读写权限，其他用户有读的权限。

在英语中我们可以这样描述这个过程：“I am using the stat function in the os module to get the file permission.” (我正在使用os模块中的stat函数来获取文件权限。)

5.2.2 修改文件权限

Python的os模块中的chmod函数可以用于修改文件的权限。例如：

import os
# 修改文件权限
os.chmod('myfile.txt', 0o755)

在这个例子中，os.chmod函数用于改变文件的模式。第一个参数是文件名，第二个参数是新的权限，使用八进制数来表示。在这个例子中，我们将文件的权限设置为755，也就是’-rwxr-xr-x’，表示拥有者有读写执行权限，其他用户有读和执行的权限。

在英语中我们可以这样描述这个过程：“I am using the chmod function in the os module to change the file permission.” (我正在使用os模块中的chmod函数来修改文件权限。)

以上就是Python中获取和修改文件权限的基本操作。接下来我们将继续介绍文件状态的判断。

6. 文件内容的统计与过滤

在本章节中，我们将讨论如何使用Python来统计文件的行数。对于C++程序员来说，你可能已经熟悉使用C++的文件流来处理这个任务，但是你会发现，在Python中，这个过程更加的直观和简洁。

6.1 统计文件的行数

在Python中，我们可以使用内建的open函数（在C++中，我们会使用fstream）打开一个文件，然后迭代这个文件的每一行来统计行数。下面是一个基本的例子：

def count_lines(filename):
    with open(filename, 'r') as file:
        lines = file.readlines()
    return len(lines)

这个函数会打开一个文件，然后使用readlines方法将文件的每一行读取为一个列表。然后，我们只需要返回列表的长度，也就是行数。

然而，对于非常大的文件，这种方法可能会消耗大量的内存。为了避免这个问题，我们可以使用一个更有效的方法来统计行数，如下：

def count_lines_efficient(filename):
    count = 0
    with open(filename, 'r') as file:
        for line in file:
            count += 1
    return count

在这个函数中，我们没有将所有的行一次性读取到一个列表中，而是逐行迭代文件。这种方法的内存使用情况会更优。

对比C++，Python处理文件的方法更加直接和清晰。在C++中，我们需要实例化一个ifstream对象，然后反复调用getline方法来逐行读取文件。然而，在Python中，我们可以直接迭代文件对象，使得代码更加简洁。

当我们在口语交流中描述这个过程，我们可以说 “In Python, we can count the lines of a file by opening the file with the built-in open function and then iterating over each line of the file.” (在Python中，我们可以通过使用内建的open函数打开文件，然后迭代文件的每一行来统计行数)。

以下是对比Python和C++处理文件的主要差异的表格：

功能	Python	C++
打开文件	使用内建的`open`函数	使用`fstream`类
读取文件	直接迭代文件对象	使用`getline`函数
计数	直接使用内建的`len`函数或者逐行迭代	逐行迭代并计数

以上的Python方法和技巧可以帮助您更有效地处理文件，无论是在简单的脚本中，还是在大型项目中。我们鼓励您继续探索Python的文件操作，发现其强大

之处。

6.2 文件内容的过滤和统计

在某些情况下，我们可能需要过滤文件中的内容，然后对满足某些条件的行进行统计。这在Python中同样简单直接。

6.2.1 文件内容过滤

首先，让我们看看如何过滤文件内容。假设我们想过滤出文件中包含某个关键字的行，可以使用如下代码：

def filter_lines(filename, keyword):
    with open(filename, 'r') as file:
        lines = [line for line in file if keyword in line]
    return lines

在这个函数中，我们使用了列表推导式（List Comprehension）来过滤出包含关键字的行。这个表达式会迭代文件的每一行，如果一行中包含关键字，就将这一行添加到列表中。最后，函数返回包含所有符合条件的行的列表。

在C++中，我们需要使用一个循环和string::find函数来达到同样的效果。Python的列表推导式提供了一种更简洁的方式来完成这个任务。

6.2.2 文件内容统计

过滤文件内容之后，我们可能想要对结果进行统计。例如，我们可以统计包含某个关键字的行数，或者统计关键字出现的总次数。

以下是如何统计关键字出现的总次数：

def count_keyword(filename, keyword):
    count = 0
    with open(filename, 'r') as file:
        for line in file:
            count += line.count(keyword)
    return count

在这个函数中，我们迭代文件的每一行，然后使用string::count函数来统计每一行中关键字出现的次数。

对比C++，在Python中，我们不需要实例化一个std::string对象，然后使用std::count算法。我们可以直接对字符串使用count方法。

当我们在口语交流中描述这个过程，我们可以说 “In Python, we can filter the lines of a file by using a list comprehension with a conditional statement. We can then count the occurrences of a keyword by iterating over each line of the file and calling the count method on each line.” (在Python中，我们可以使用带条件语句的列表推导式来过滤文件的行。然后我们可以通过迭代文件的每一行，对每一行调用count方法，来统计关键字的出现次数。)

功能	Python	C++
文件内容过滤	列表推导式	循环和`string::find`函数
文件内容统计	`string::count`方法	`std::count`算法

7. 目录的操作

7.1 目录的创建和删除

在Python中，我们使用 os 模块来进行目录的操作。这个模块提供了丰富的方法来处理文件和目录。在C++中，我们通常使用库进行类似的操作。

创建目录

在Python中，我们使用 os.mkdir(path) 创建目录。这与C++中的 std::filesystem::create_directory(path) 类似。

下面是一个示例，创建一个名为 “new_directory” 的目录：

import os
try:
    os.mkdir("new_directory")
    print("Directory 'new_directory' created")
except FileExistsError:
    print("Directory 'new_directory' already exists")

在这个例子中，我们首先尝试创建一个名为 “new_directory” 的目录。如果目录已经存在，我们将捕获 FileExistsError 异常并打印一条消息。

在美语中，我们会说 “We are creating a new directory using os.mkdir() function.”（我们使用 os.mkdir() 函数创建一个新的目录。）

删除目录

在Python中，我们使用 os.rmdir(path) 来删除一个目录。这与C++中的 std::filesystem::remove(path) 类似。需要注意的是，这两个函数只能删除空的目录。

这是一个删除目录 “new_directory” 的示例：

import os
try:
    os.rmdir("new_directory")
    print("Directory 'new_directory' removed")
except FileNotFoundError:
    print("Directory 'new_directory' does not exist")

在这个例子中，我们尝试删除 “new_directory”。如果目录不存在，我们将捕获 FileNotFoundError 异常并打印一条消息。

在美语中，我们会说 “We are removing a directory using os.rmdir() function.”（我们使用 os.rmdir() 函数删除一个目录。）

对比一下，Python和C++在处理文件系统时的一些区别：

方法	Python	C++
创建目录	os.mkdir(path)	std::filesystem::create_directory(path)
删除目录	os.rmdir(path)	std::filesystem::remove(path)

在这两种语言中，操作文件系统的方法大致相同，但是Python提供的异常处理机制使得代码更容易理解和调试。而C++的库虽然也很强大，但使用起来可能需要更多的代码和精细的错误处理。

7.2 目录的查找和遍历

在Python和C++中，我们都可以查找和遍历目录中的文件和子目录。这对于需要处理文件系统的任务来说非常有用，比如查找特定的文件、自动组织文件等等。

查找目录

在Python中，我们使用 os.path.exists(path) 来检查一个路径（文件或目录）是否存在。这与C++中的 std::filesystem::exists(path) 类似。

下面是一个检查 “directory” 目录是否存在的示例：

import os
if os.path.exists("directory"):
    print("Directory 'directory' exists")
else:
    print("Directory 'directory' does not exist")

在美语中，我们会说 “We are checking if a directory exists using os.path.exists() function.”（我们使用 os.path.exists() 函数检查一个目录是否存在。）

遍历目录

在Python中，我们使用 os.walk(path) 来遍历一个目录及其所有子目录。这与C++中的 std::filesystem::recursive_directory_iterator(path) 类似。

下面是一个遍历 “directory” 目录及其所有子目录的示例：

import os
for dirpath, dirnames, filenames in os.walk("directory"):
    print(f"Found directory: {dirpath}")
    for filename in filenames:
        print(f"\t{filename}")

在这个例子中，os.walk() 生成一个三元组，包括当前目录的路径，当前目录下的所有目录名，以及当前目录下的所有文件名。

在美语中，我们会说 “We are walking through a directory using os.walk() function.”（我们使用 os.walk() 函数遍历一个目录。）

对比一下，Python和C++在处理文件系统时的一些区别：

方法	Python	C++
检查路径是否存在	os.path.exists(path)	std::filesystem::exists(path)
遍历目录	os.walk(path)	std::filesystem::recursive_directory_iterator(path)

Python的 os 模块使得操作文件和目录变得简单易行，而C++的库提供了更底层、更灵活的接口。在选择哪种语言进行文件操作时，你可以根据你的需求和熟悉程度来决定。

8. Python 文件操作的底层原理

在此章节，我们将深入探讨Python文件操作的底层原理。在介绍这些细节之前，我们首先需要理解文件是什么。

8.1 文件的底层概念

在操作系统中，文件（File）是存储在某种长期存储设备上的信息的命名集合。这些信息可以是用户数据、程序等等。文件系统则是操作系统用来管理文件的部分。

文件的本质

从操作系统的角度来看，文件就是一个数据集合。在Linux系统中，所有的文件、目录、设备，甚至进程，都被视为文件。这样的设计原则，让文件系统的处理变得更为简单统一。

Python的文件操作，本质上都是对这些系统调用（System Call）的封装，以便我们能在更高层次上进行操作。系统调用，即系统呼叫（在讲述时我们通常会直接说 “System Call”）是应用程序主动进入操作系统执行一项操作，并且返回结果给应用程序的一种机制。

下面，我们通过一个示例来看看Python在打开文件时实际上发生了什么。

# Python 示例
f = open('test.txt', 'r')

这个简单的Python语句，实际上做了什么呢？

首先，Python调用了操作系统提供的open系统调用。系统调用的接口是一种内核代码，它可以为用户程序提供服务。open系统调用会在文件系统中查找指定的文件，然后创建一个文件描述符来跟踪文件的状态。

文件描述符（File Descriptor）是一个用于访问文件的索引值。当我们在Python中打开一个文件时，操作系统会返回一个文件描述符，我们可以用它来读取、写入或修改这个文件。

Python和C++在文件操作上的差异

相比于C++，Python的文件操作更为简洁。这主要是因为Python在设计上注重易读性和简洁性。它通过内置的文件对象以及相关的方法和属性，使得对文件的读取、写入、关闭等操作都非常方便。

例如，在C++中，我们打开和读取文件需要如下操作：

// C++ 示例
#include <iostream>
#include <fstream>
#include <string>
int main() {
    std::string line;
    std::ifstream myfile ("example.txt");
    if (myfile.is_open())
    {
        while ( getline (myfile,line) )
        {
            std::cout << line << '\n';
        }
        myfile.close
();
    }
    else std::cout << "Unable to open file"; 
    return 0;
}

在Python中，同样的操作更加简洁：

# Python 示例
with open('example.txt', 'r') as myfile:
    for line in myfile:
        print(line)

Python的with关键字在这里发挥了重要的作用。它可以自动处理文件的打开和关闭，无需程序员显式调用close方法。这样可以有效防止因忘记关闭文件而导致的资源泄露。

再如，Python的for循环可以直接在文件对象上进行，无需使用额外的函数如C++中的getline。这些设计使得Python在文件操作上更加简洁和易用。

在接下来的章节，我们会更深入地探讨Python文件操作的高级应用和相关的底层原理。

8.2 Python文件操作的系统调用

在探索Python如何处理文件的底层原理之前，我们先来了解一下什么是系统调用。

系统调用的概念

系统调用（System Call）是应用程序向操作系统请求服务的主要方式，如创建进程、执行I/O操作、建立网络连接等。这些服务通常由操作系统内核提供。应用程序通过系统调用来执行一些它无法直接执行的操作。

系统调用提供了用户级进程与操作系统内核之间的接口。由于操作系统具有对硬件的完全控制权，因此用户级进程不能直接访问硬件或资源。通过这个接口，用户级进程可以请求操作系统内核以他们的名义执行I/O操作。

Python和系统调用

在Python进行文件操作时，其实是在进行一系列系统调用。例如，当你使用open()函数打开一个文件时，Python实际上会调用open系统调用；使用read()函数读取数据时，Python会调用read系统调用；使用write()函数写入数据时，Python会调用write系统调用。

让我们通过以下代码示例来解释这个过程：

# Python 示例
f = open('test.txt', 'r')  # open系统调用
data = f.read()  # read系统调用
f.close()  # close系统调用

这段Python代码中的open()、read()和close()函数分别对应到操作系统的open、read和close系统调用。

因此，当我们在Python中进行文件操作时，我们实际上是在使用Python提供的接口来进行底层的系统调用。

Python与C++的系统调用对比

Python和C++在系统调用的实现方式上有所不同。在C++中，你需要使用特定的库函数（如POSIX API）来进行系统调用。例如，你可以使用open、read、write等函数来进行文件操作。然而，这些函数的使用方式相比Python来说较为复杂。

在Python中，系统调用被抽象为简单易用的内置函数和方法。例如，你可以使用open()函数来打开文件，使用文件对象的read()和write()方法来读写数据。Python已经为你处理了底层的细节，你只需要关心如何使用这些函数和方法。

这种高级抽象使得Python在文件操作上的代码更为简洁和易读，特别适合用于脚本编程和快速开发。

9. 常见的Python文件操作使用场景

9.1 实战Python文件操作：文本日志分析

在Python编程中，文件操作是经常需要进行的一项任务。在这一章节中，我们将以文本日志分析为例，介绍Python在实战中的文件操作。

文本日志是一种常见的数据记录方式，它可以是网站访问日志，系统运行日志，应用程序日志等。我们在这里将使用Python来分析一个模拟的网站访问日志，这个日志记录了用户的IP地址，访问时间，访问的URL等信息。

# 以下是一个模拟的日志文件示例
"""
192.168.1.1 - - [21/Jun/2023:13:11:52 -0700] "GET /python-tutorial HTTP/1.1" 200 2326
192.168.1.2 - - [21/Jun/2023:13:11:53 -0700] "GET /python-tutorial HTTP/1.1" 200 2326
192.168.1.1 - - [21/Jun/2023:13:11:55 -0700] "GET /python-guide HTTP/1.1" 404 2
"""

接下来，我们将用Python进行以下操作：

读取日志文件
统计每个IP的访问次数
找出访问最多的IP
统计每个URL的访问次数
找出访问最多的URL
统计出现404错误的次数

这些操作在C/C++中也是可以做的，但是在Python中更简单直观。Python的with open()语句可以方便地打开文件，并且在结束后自动关闭文件（File handling in Python, with open()）。相比之下，C/C++需要使用fopen和fclose两个函数，而且必须手动关闭文件。

我们会首先打开文件，然后按行读取每一条日志，对于每一条日志，我们会使用正则表达式（Regular Expressions, 通常被称为RegEx）来解析出IP地址和URL。在Python中，可以使用re模块来使用正则表达式，而在C/C++中，则需要引入额外的库。

接下来，我们将解析出的IP地址和URL记录在字典中，并统计次数。最后，我们将找出访问最多的IP和URL，以及统计404错误的次数。

在Python中，字典（Dictionary）是一种内置的数据类型，它可以方便地存储和查找键值对。相比之下，在C/C++中，虽然也有map这种数据结构，但使用起来没有Python中的字典直观。

以下

是我们的Python代码示例，其中包含了详细的注释：

import re
# 初始化字典
ip_counts = {}
url_counts = {}
error_404_count = 0
# 打开日志文件
with open("log.txt", "r") as file:
    # 按行读取日志
    for line in file:
        # 使用正则表达式解析IP地址和URL
        ip = re.search(r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}', line).group()
        url = re.search(r'"GET (.*) HTTP', line).group(1)
        
        # 更新字典
        ip_counts[ip] = ip_counts.get(ip, 0) + 1
        url_counts[url] = url_counts.get(url, 0) + 1
        
        # 检查是否为404错误
        if " 404 " in line:
            error_404_count += 1
# 输出结果
print("Most visited IP:", max(ip_counts, key=ip_counts.get))
print("Most visited URL:", max(url_counts, key=url_counts.get))
print("Number of 404 errors:", error_404_count)

以上就是一个Python文件操作的实际应用示例。在这个示例中，我们使用Python的文件操作，正则表达式，和字典来分析日志文件。相比C/C++，Python的文件操作更为简单直观，而且Python的字典和正则表达式使得处理这种问题更加方便。

当然，这只是Python文件操作的众多使用场景中的一个。在实际的工作中，你可能会遇到更复杂的问题，但是Python的强大功能肯定能够帮助你解决这些问题。

9.2 高级用法：Python与CSV文件的交互

Python在处理文件操作的过程中，对于CSV文件的操作是一个非常常见的场景。CSV（Comma-Separated Values）文件是一种常用的数据存储格式，数据以纯文本形式存储，其中的各个字段由逗号分隔。这种格式被广泛应用于数据导入导出，数据分析，机器学习等领域。

与C/C++的文件读写相比，Python提供了一个非常强大的库csv，可以轻松地处理CSV文件。而在C/C++中，我们可能需要自己实现分隔符解析，错误处理等逻辑。

以下我们将通过一个示例，展示如何使用Python读取和写入CSV文件。

读取CSV文件

import csv
with open('example.csv', 'r') as file:
    reader = csv.reader(file)
    for row in reader:
        print(row)

在这个例子中，csv.reader()函数返回一个迭代器，我们可以方便地遍历CSV文件的每一行。这样就避免了在C/C++中需要手动解析每一行数据的麻烦。

写入CSV文件

import csv
data = [
    ['Name', 'Age', 'City'],
    ['John Doe', '30', 'New York'],
    ['Jane Doe', '25', 'San Francisco'],
]
with open('output.csv', 'w', newline='') as file:
    writer = csv.writer(file)
    writer.writerows(data)

在这个例子中，csv.writer()函数返回一个写入器对象，我们可以使用writerow()或writerows()方法写入一行或多行数据。这样，我们可以非常直观地操作CSV文件，而无需像在C/C++中那样，手动处理分隔符和换行符。

这是Python与CSV文件交互的一个简单例子。通过Python的csv库，我们可以非常方便地读取和写入CSV文件，这大大提高了我们处理此类任务的效率。

在实际应用中，我们可能还需要处理更复杂的情况，比如包含特殊字符的字段，包含逗号或换行符的字段，不同字段类型的转换等。这些情况在Python中都可以方便地处理。并且，Python的数据分析库pandas也提供了更强大的CSV文件处理能力，可以进行数据筛选，排序，聚合等操作，这在C/C++中则需要更多的代码和工作。

总的来说，Python在处理CSV文件方面具有很大的优势，它使得我们可以更加高效地完成任务，也使得代码更加清晰和易读。

10. 结语

在这篇全面的Python文件操作指南中，我们详细地探讨了Python文件操作的各个方面，从最基本的文件读写，到文件内容的查找、变更和过滤，再到文件权限和状态的获取与修改，以及如何创建、查找和遍历目录。我们还深入探讨了Python文件操作的底层原理，以及在实际应用中的应用场景和高级用法。

对于有C++基础的读者来说，我们希望通过比较Python和C++在文件操作上的差异，能够帮助你更好地理解和掌握Python的文件操作。同时，我们也讨论了如何在口语交流中准确地描述Python的文件操作过程和方法。

尽管Python在语法上与C++有很大的差异，但是我们希望你能够看到，Python为文件操作提供了一种更简洁、更直观的方式。这一切都得益于Python强大的内建函数和方法，以及它的灵活性和易读性。

在这篇指南中，我们只是探讨了Python文件操作的一部分内容。Python的文件操作还有更多的功能等待你去探索和发现。我们鼓励你继续学习和实践，发掘Python在文件操作上的无限可能。

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【Python 基础教程 21】Python3 文件操作全面指南：从入门到精通的综合教程

1. 引言

1.1 文件系统基础

1.2 Python对文件操作的一般流程

2. Python文件的基本操作

2.1 文件的创建和打开

2.2 文件的读取

2.3 文件的写入

2.4 文件的关闭

第3章 Python文件的高级操作

3.1 文件的读写模式

3.2 使用with语句操作文件

3.3 文件迭代

4. 文件内容的查找和变更

4.1 文本文件中的内容查找

4.2 文本文件中的内容替换

5. 文件信息和属性

5.1 获取文件的基本信息

5.2 获取和修改文件权限

5.2.1 获取文件权限

5.2.2 修改文件权限

6. 文件内容的统计与过滤

6.1 统计文件的行数

6.2 文件内容的过滤和统计

6.2.1 文件内容过滤

6.2.2 文件内容统计

7. 目录的操作

7.1 目录的创建和删除

创建目录

删除目录

7.2 目录的查找和遍历

查找目录

遍历目录

8. Python 文件操作的底层原理

8.1 文件的底层概念

文件的本质

Python和C++在文件操作上的差异

8.2 Python文件操作的系统调用

系统调用的概念

Python和系统调用

Python与C++的系统调用对比

9. 常见的Python文件操作使用场景

9.1 实战Python文件操作：文本日志分析

9.2 高级用法：Python与CSV文件的交互

读取CSV文件

写入CSV文件

10. 结语

热门文章

最新文章

相关课程

相关电子书

推荐镜像