如何使用scrapy的item来封装数据
我们是使用字典来对数据进行传递,使用字典有以下缺点。
- 无法直观地了解数据中包含哪些字段
- 缺乏对字段名字的检测
- 不便于携带元数据
为了克服上述问题,我们可以使用scrapy中自定义的item类封装爬取到的数据。
spider.py文件
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
新建一个文件bookitem.py
- 1
- 2
- 3
- 4
- 5
- 6
可以看到运行结果如下:
正确传送了name和price数据。
核心代码解读
item = BookItems()
item[‘name’] = name
item[‘price’] = price
yield item
首先实例化BookItems,然后将解析得到的name和price传入给item,并用yield返回给引擎处理。
注意,这里item的键是和定义的字段相对应的,如果写成item[‘names’] = name,会报错。
class BookItems(Item):
name = Field()
price = Field()
Item类是自定义数据类(BookItems)的基类,需要被自定义数据类继承。
Field类是用来描述自定义数据类包含哪些字段,如name、price等。
小结
该篇简单介绍了Item基类和用来定义字段的Field类的用法,还有更多的用法以后再学习。