一.什么玩意是迭代器?
先说说什么是迭代吧,迭代就是一件事情重复很多次,比如说for循环。
for循环可以对一切有__iter__方法的对象进行迭代,那么什么是__iter__方法呢?
一个对象是否可迭代,全都取决于这个对象是否有__iter__方法,调用对象的__iter__方法,就回返回一个迭代器,这个迭代器一定具有next方法,在调用这个迭代器的next方法时,迭代器就回返回它的下一个值,当迭代器中没有值可以返回了,就回抛出一个名为StopIteration的异常,停止迭代。
迭代器还有个很重要的特性,就是不可逆,只能前进,不能后退。
for循环就是这样工作的,for循环在循环一个对象的时候,会调用这个对象的__iter__方法,得到迭代器,然后在调用这个迭代器的next方法,去获得这个迭代器中包涵的每个值。
二.列表和迭代器的区别在哪里?如何可以实现一个基本的迭代器?
迭代器的工作方式,是在使用的时候计算一个值获取一个值,而列表呢,是一次性获取所有的值,如果有很多值,就会占用很大的内存。
当自己创建一个对象时,如何让自己的对象可迭代?
class test_class:
def __init__(self,start_num,stop_num):
self.start_num = start_num
self.stop_num = stop_num
def next(self):
if self.start_num < self.stop_num:
self.start_num += 1
return self.start_num
def __iter__(self):
return self
test_obj = test_class(0,3)
print test_obj.next()
>>>1
print test_obj.next()
>>>2
print test_obj.next()
>>>3
三.什么是生成器?
个人的理解,生成器是个比较特殊的可迭代对象,它与其他的可迭代对象不太一样的地方,就是,其他的可迭代对象需要调用__iter__方法,返回个迭代器对象,然后通过迭代器对象去执行next方法,获取迭代器中的值,但是生成器直接可以被迭代,无需执行__iter__方法。
在python中生成器有两种表达形式:
-
函数式生成器:也就是字面意思,在常规的函数中定义的生成器,语句的返回值不再使用return去返回,而是使用yield关键字每次返回一个结果,一个函数中不可以有多个return,但是可以有多个yield,函数中的每一个yield都会返回一个结果,每执行一个yield,函数的执行状态都会被‘挂起’可以理解为暂停,下次继续调用这个函数的时候,会从上次挂起的位置继续向下执行。
下面是关于函数式生成器的例子:
下面这个例子验证了yield的两种特性,第一种是一个函数可以yield多个值,有多个yield,另外一个就是函数式生成器的挂起特性。
def func1():
yield 1
print "第一个yield执行完成~"
yield 2
print "第二个yield执行完成~"
yield 3
print "第三个yield执行完成~"
for i in func1():
print i
>>>1
第一个yield执行完成~
2
第二个yield执行完成~
3
第三个yield执行完成~
-
生成器表达式:使用类似于列表推导式的方法,但是返回的对象不再是一个列表,而是一个可以按需生成结果的一个对象(生成器)。
例1:
for i in (i for i in range(10000)):
print i
(i for i in range(5)) 这个就是生成器表达式。
(i for i in range(10000)) = def test(): for i in range(10000):yield i
这两个种写法起到的作用是一样的,只不过是写法不同,一个是生成器表达式,另一种是函数式生成器。
有没有觉得这种生成器表达式和列表推导式看起来很像,不同的地方就在于列表推导式是使用[]中括号,而生成器表达式使用的是()小括号?
事实就是如此,它们之间的语法确实只差一个括号,但是,生成器表达式更节省内存空间。
关于生成器,大致就说的差不多了,最后来个总结:
-
生成器的定义方法与普通的函数是一模一样的,不同的地方就是生成器使用yield返回一个值,函数使用return返回一个值。
-
在python中,生成器会自动实现迭代协议,在没有值可以返回的时候,返回一个StopIteration异常。
-
生成器使用yield语句返回一个值。yield语句挂起该生成器函数的状态,保留足够的信息,以便之后从它离开的地方继续执行。
下面的例子是列表推导式和生成器表达式执行的效率对比,感兴趣的小伙伴可以在自己电脑上执行一下试试。
#列表解析
sum([i for i in range(100000000)])#内存占用大,机器容易卡死
#生成器表达式
sum(i for i in range(100000000))#几乎不占内存
本文转自苏浩智 51CTO博客,原文链接:http://blog.51cto.com/suhaozhi/1908913,如需转载请自行联系原作者