前面知道了在scapy中,不管是ip包,还是以太包,还有tcp包,或者它们集合在一起的包都是一个Packet,这是在数据包组织意义上讲的,另外从数据包最终组合的意义上讲,scapy最引人入胜的地方还在于Packet本身也是一个生成器,即generator,这是python中一个很重要的概念。Packet是一个生成器并不是为了方便或者美观,而是scapy本身要求的。 由于Packet表示的是一个单独层的数据包或者多层组合后的数据包,比如tcp数据段作为ip数据报的载荷(payload),因此如果设计的好一些,我们希望能按照协议栈本身理解数据包的方式去组合数据包,也就是说,完全按照分层协议的自解释机制,来一层一层从下往上将数据包构建好,比如在链路层的时候,看到上层是ip,那么就生成一个IP对象,然后在ip层,看到上层是tcp,那么生成一个TCP对象,依次类推,这样就会很方便,如果按照这个思路去设计,我觉得任何人都能想到递归和枚举,剩下的就是针对不同语言的编码问题了,scapy由python实现,将Packet本身作为一个generoter也是一个很自然的想法,这是因为对于一个自链路层开始向上构建的数据包,它只知道ip是它的payload,而不知道ip上面是什么,对于ip来讲也是一样,可是不管怎样,任何的payload都是一个Packet,因此如果我们能从链路层开始对其payload做for...in...操作的话,就能遍历到整个的协议层,将以太层的payload设置为payloadS(复数,因为这个payload还包含有更上层的payloadS...),然后第一次我们取出eth本身,第二次取出ip1,第三次取出tcp1...,针对于每一层的Packet,它本身又是一个生成器,生成器生成一个迭代器,该迭代器返回的next即是它本身,这样再通过递归就可以将所有层次的数据包组合在一起了。 所有这一切的开始都在str函数,在str中:def __str__(self): return self.__iter__().next().build()self.__iter__().next()得到了Ether对象,调用它的build即可先构建以太头,再构建payload:def do_build(self): p="" for f in self.fields_desc: p = f.addfield(self, p, self.__getattr__(f)) pkt = p+str(self.payload) return pkt在do_build中,str(self.payload)又会开启一次针对payload的__str__()(间接的对payload的__iter__的调用)的调用,从而开始了构建IP对象的过程,依次类推。这样就需要将__iter__实现的非常好:00def __iter__(self):01 def loop(todo, done, self=self):02 if todo:03 eltname = todo.pop() 04 elt = self.__getattr__(eltname)05 if not isinstance(elt, Gen):06 if self.fieldtype[eltname].islist:07 elt = SetGen([elt])08 else:09 elt = SetGen(elt)10 for e in elt:11 done[eltname] = e12 for x in loop(todo[:], done):13 yield x 14 else:15 if isinstance(self.payload,NoPayload):16 payloads = [None]17 else:18 payloads = self.payload19 for payl in payloads:20 done2 = done.copy()21 for k in done2:22 if isinstance(done2[k], RandNum):23 done2[k] = int(done2[k])24 pkt = self.__class__(**done2)25 pkt.underlayer = self.underlayer26 pkt.overload_fields = self.overload_fields.copy()27 if payl is None:28 yield pkt29 else:30 yield pkt/payl 31 return loop(map(lambda x:str(x), self.fields.keys()), {}) 其实它只有一行,那就是第31行,它调用了一个子函数,首先map函数将所有我们手工设置的该层Packet的fields转化成一个list,然后调用loop,整个loop分为两大块,以17行的else做分割。在前半部分,将fields链表中的字段一个个pop出,比如对于IP对象而言就是src,dst,ttl之类,直到没有了的时候再次在12行递归调用loop的时候会进入后半部分else分支,此时处理它的payloadS(所有的上层数据),这个核心的实现尽在第19行,一个for...in的调用,这里就会对payloadS调用其__iter__方法,过程又回到了第31行,只是这次的self变了,也就是对象变了,变成了上一层数据的Packet对象了,然后一切如故...。 在L3PacketSocket的send中从str的调用开始构建整个以太帧,整个调用过程如下:00 call Ethernet obj-__str__ 1 01 call Ethernet obj-__iter__ 202 call Ethernet obj-__iter__-loop 303 没有为Ether设置属性,因此直接进入else04 call IP obj-__iter__ 405 call IP obj-__iter__-loop 506 取出dst07 call IP obj-__iter__-loop 608 取出src09 call IP obj-__iter__-loop 710 没有其它属性了,进入else11 call TCP obj-__iter__ 812 call TCP obj-__iter__-loop 913 取出sport14 call TCP obj-__iter__-loop 1015 取出dport16 call TCP obj-__iter__-loop 1117 没有其它属性了,进入else18 call None obj-__iter__ 1219 11返回TCP obj20 10返回TCP obj21 9返回TCP obj22 8返回IP obj23 7返回IP obj24 6返回IP obj25 4返回Ether obj26 2返回Ether obj27 call Ethernet obj-__iter__-next 1328 13返回Ether obj29 call Ether obj-build 1430 call Ether obj.payload-str 1531 call IP obj-__str__32 从第4行到第24行33 ...从32行可以看出,在从下到上的构建过程中,在构建上一层的时候也即是构建此层的payload的时候,需要对payload调用str函数,由于在第一次构建Ether obj的时候已经做过这件事了,也就是说,在构建链路层数据包的时候调用str(Ether obj),由于__iter__的实现有递归的性质,以上各层的Packet对象其实已经构造好了,实在没有必要再来一次,就是说,如果现在有4件事,分别分1,2,3,4,从1开始做,我们希望的是1-2-3-4这个顺序,或者1,2,3,4也可以,然而scapy的方式却是:1,2,3,4-2,3,4-3,4-4这实在是一个我认为可以改进的地方。不过既然scapy实现了如此复杂又美妙的__iter__以及数据包兼作generator的角色,我觉得已经可以抵消美中之不足矣!
本文转自 dog250 51CTO博客,原文链接:http://blog.51cto.com/dog250/1271134