这本书比较全面系统,但是也有一些问题。
第一个方面就是内容很多(当然这其实不是问题,但是新手可能会觉得太多了)。在第一章配置时就劝退了,因为配置环境就要安装二十几个库和软件。 而如果你只是想爬取小规模的数据,比如某个网站的图片,豆瓣电影,某APP上的评论,其实不会用到后面的分布式爬虫,自然也不需要安装对应的库。所以我觉得具体的章节时再参考第1章安装相应的库就好。
另一个就是学习Python时都会遇到的问题,就是Python版本差异,有些差异甚至会导致程序完全无法运行。建议学习时尽量和书上的版本一样,而不要选其他的版本。
第三个是经常遇到的尴尬问题:你爬的网站结构变了,原来的代码不能用了。可以参考GitHub上作者给出的代码,但是也只是参考。有些代码已经不和网站同步更新。这时候只能自己参考书上的思路,调整代码。或者是选取一个合适的网站爬取,比如淘宝商品因为淘宝的反导致无法正常爬取,这时候就可以考虑京东的商品。
END。
2020/05/26
晚上用Scrapy写了个图片玩,不得不说去框架虽然学得时候感觉有点多,但是用的时候是真的快,代码写的快而且不太会出错,下载得也比自己写的快几十倍。
还有一个感受就是,Xpath或者Css一定要熟练一个,还有正则也得会一点,不然想选择自己要爬取的内容很难。会发现自己写的大部分时间都花在这种本来几分钟就完成的事情上。