Python生成器 vs 迭代器：从内存到代码的深度解析

2025-09-23 472

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在Python中，处理大数据或无限序列时，迭代器与生成器可避免内存溢出。迭代器通过`__iter__`和`__next__`手动实现，控制灵活；生成器用`yield`自动实现，代码简洁、内存高效。生成器适合大文件读取、惰性计算等场景，是性能优化的关键工具。

「程序类软件工具合集」
链接：https://pan.quark.cn/s/0b6102d9a66a

在Python中处理数据时，我们常遇到这样的场景：需要逐个访问百万级数字、读取GB级日志文件，或生成无限序列（如斐波那契数列）。若用列表存储所有数据，内存可能瞬间爆满；若用普通函数一次性计算所有结果，程序可能卡顿甚至崩溃。此时，迭代器和生成器便成为解决内存与性能问题的关键工具。
探秘代理IP并发连接数限制的那点事 (88).png

一、基础概念：从“遍历”说起
1.1 什么是迭代？
迭代（Iteration）是访问集合元素的标准化方式。无论是列表、字典还是字符串，Python都支持通过for循环逐个访问元素。这种能力并非所有对象天生具备，只有实现了“可迭代协议”（Iterable Protocol）的对象才能被迭代。

示例：

my_list = [1, 2, 3]
for num in my_list:
print(num) # 输出：1 2 3

1.2 迭代器的本质：协议与对象
迭代器（Iterator）是实现了“迭代器协议”（Iterator Protocol）的对象，需满足两个核心方法：

iter()：返回迭代器自身（return self）。
next()：返回下一个元素，无元素时抛出StopIteration异常。
手动实现迭代器：

class NumberIterator:
def init(self, max_num):
self.max_num = max_num
self.current = 1

def __iter__(self):
    return self

def __next__(self):
    if self.current > self.max_num:
        raise StopIteration
    num = self.current
    self.current += 1
    return num

使用迭代器

num_iter = NumberIterator(3)
print(next(num_iter)) # 输出：1
print(next(num_iter)) # 输出：2
for num in num_iter: # 继续遍历剩余元素
print(num) # 输出：3

1.3 生成器的简化：用yield替代手动实现
生成器（Generator）是迭代器的“语法糖”，通过yield关键字自动实现迭代器协议，无需手动编写iter和next。其核心特性是“惰性计算”（Lazy Evaluation）：仅在需要时生成值，生成后暂停，下次调用时从暂停处继续。

生成器函数示例：

def number_generator(max_num):
current = 1
while current <= max_num:
yield current # 暂停并返回值
current += 1

使用生成器

num_gen = number_generator(3)
print(next(num_gen)) # 输出：1
print(next(num_gen)) # 输出：2
for num in num_gen: # 继续遍历剩余元素
print(num) # 输出：3

生成器表达式（类似列表推导式，但用圆括号）：

gen_expr = (x for x in range(1, 4))
for num in gen_expr:
print(num) # 输出：1 2 3

二、核心区别：从实现到行为
2.1 实现方式：代码量与复杂度
迭代器：需显式定义类，实现iter和next，逻辑复杂但控制灵活。
生成器：通过函数或表达式定义，yield自动管理状态，代码简洁易读。
对比：读取日志文件

迭代器实现（需手动管理文件对象和状态）：
class LogIterator:
def init(self, file_path):
self.file_path = file_path
self.file = None

def __iter__(self):
    self.file = open(self.file_path, 'r')
    return self

def __next__(self):
    line = self.file.readline()
    if not line:
        self.file.close()
        raise StopIteration
    return line.strip()

生成器实现（自动管理资源）：
def log_generator(file_path):
with open(file_path, 'r') as f: # 自动关闭文件
for line in f:
yield line.strip()

2.2 内存效率：惰性计算的威力
迭代器：若需预加载数据（如自定义列表迭代器），可能占用大量内存。
生成器：按需生成值，内存占用极低，尤其适合处理大数据或无限序列。
测试：生成100万个数字

列表：占用约80MB内存（每个整数约8字节）。
生成器：仅保存当前状态，内存占用可忽略不计。

列表实现（内存爆炸）

big_list = [x for x in range(1, 1000001)] # 占用大量内存

生成器实现（内存友好）

def big_generator():
for x in range(1, 1000001):
yield x
gen = big_generator() # 内存占用极低

2.3 状态管理：手动 vs 自动
迭代器：需在next中手动记录状态（如当前位置、循环条件）。
生成器：yield自动保存局部变量和执行位置，减少出错风险。
对比：生成斐波那契数列

迭代器实现：
class FibonacciIterator:
def init(self, max_count):
self.max_count = max_count
self.count = 0
self.a, self.b = 0, 1

def __iter__(self):
    return self

def __next__(self):
    if self.count >= self.max_count:
        raise StopIteration
    result = self.a
    self.a, self.b = self.b, self.a + self.b
    self.count += 1
    return result

生成器实现：
def fibonacci_generator(maxcount):
a, b = 0, 1
for in range(max_count):
yield a
a, b = b, a + b

2.4 适用场景：选择工具的依据
迭代器：
需自定义复杂遍历逻辑（如深度优先遍历树结构）。
数据量较小且需多次迭代（如自定义矩阵迭代器）。
生成器：
处理大数据流（如读取大文件、数据库分页查询）。
生成无限序列（如素数生成器）。
简化代码逻辑（如管道处理日志）。
三、性能对比：从理论到实践
3.1 内存占用：生成器的绝对优势
生成器通过惰性计算避免预加载数据，内存占用仅与当前状态相关。例如，读取1GB日志文件时：

迭代器：若预加载所有行到内存，可能导致内存不足。
生成器：逐行读取，内存占用恒定（仅保存当前行和文件指针）。
3.2 执行速度：迭代器的潜在优势
对于小型数据集，迭代器可能因无需函数调用开销而略快。但差异通常可忽略，生成器的简洁性远胜于微小性能损失。

测试：生成1000个数字

import time

迭代器实现

class RangeIterator:
def init(self, n):
self.n = n
self.current = 0

def __iter__(self):
    return self

def __next__(self):
    if self.current >= self.n:
        raise StopIteration
    num = self.current
    self.current += 1
    return num

生成器实现

def range_generator(n):
for x in range(n):
yield x

测试迭代器

start = time.time()
iter_obj = RangeIterator(1000)
list(iter_obj) # 强制迭代
print(f"迭代器耗时: {time.time() - start:.6f}秒")

测试生成器

start = time.time()
gen_obj = range_generator(1000)
list(gen_obj) # 强制迭代
print(f"生成器耗时: {time.time() - start:.6f}秒")

结果：两者耗时接近（通常生成器略慢，但差异在毫秒级）。
3.3 代码可维护性：生成器的胜利
生成器通过yield将逻辑分解为步骤，代码更易读。例如，实现一个交互式生成器：

def interactive_gen():
total = 0
while True:
value = yield total # 接收外部输入并返回当前总和
if value is None:
break
total += value

gen = interactive_gen()
next(gen) # 启动生成器
print(gen.send(5)) # 输出: 5
print(gen.send(3)) # 输出: 8

四、高级应用：从工具到模式
4.1 生成器管道：处理数据流
结合多个生成器实现类似Unix管道的功能：

def read_logs(file_path):
with open(file_path) as f:
for line in f:
yield line.strip()

def filter_errors(lines):
for line in lines:
if "ERROR" in line:
yield line

def extract_timestamps(lines):
for line in lines:

    # 假设时间戳在行首
    yield line.split()[0]

构建管道

pipeline = extract_timestamps(filter_errors(read_logs("app.log")))
for timestamp in pipeline:
print(timestamp)

4.2 生成器委托：yield from
简化嵌套生成器的代码：

def flatten(nested_list):
for sublist in nested_list:
yield from sublist # 等价于 for item in sublist: yield item

nested = [[1, 2], [3, 4], [5, 6]]
for num in flatten(nested):
print(num) # 输出：1 2 3 4 5 6

4.3 异步生成器：Python 3.6+
结合async/await实现异步数据流：

async def async_generator():
for i in range(3):
await asyncio.sleep(1) # 模拟异步操作
yield i

async def main():
async for num in async_generator():
print(num)

import asyncio
asyncio.run(main()) # 输出：0（1秒后）1（2秒后）2

五、总结：选择生成器还是迭代器？
特性迭代器生成器
实现方式类，手动实现iter和next 函数或表达式，使用yield
内存效率依赖实现（可能高或低）极高（惰性计算）
状态管理需手动记录自动保存
代码复杂度较高极低
适用场景复杂遍历逻辑、小型数据集大数据流、无限序列、简化代码
行动建议：

默认使用生成器：其简洁性和内存效率在大多数场景下更优。
需要精细控制时选择迭代器：如自定义数据结构遍历或状态机实现。
结合使用：在生成器中调用其他生成器（如yield from）或构建管道处理复杂逻辑。
无论是迭代器还是生成器，它们的核心目标都是“按需生成数据”，避免不必要的内存占用。理解它们的区别与联系，能让你在Python编程中写出更高效、更优雅的代码。

Python生成器 vs 迭代器：从内存到代码的深度解析

使用迭代器

使用生成器

列表实现（内存爆炸）

生成器实现（内存友好）

迭代器实现

生成器实现

测试迭代器

测试生成器

构建管道

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Python生成器 vs 迭代器：从内存到代码的深度解析

使用迭代器

使用生成器

列表实现（内存爆炸）

生成器实现（内存友好）

迭代器实现

生成器实现

测试迭代器

测试生成器

构建管道

热门文章

最新文章

相关课程

相关电子书

推荐镜像