scrapy相关专题总结-阿里云开发者社区

开发者社区> Python技术进阶> 正文

scrapy相关专题总结

简介: 本月的scrapy已经写完,关于scrapy写了常用的中间件、数据管道、以及scrapy的相关源码,但是感觉可写的内容不是很多,要门是使用相关的要么是一些不用关注的源码。 所以写完scrapy之后还写了些一些其他内容,算是在充数吧,同时预下一个专题是python的数据结构和算法,将对九大算法及其常用数据结构分享,同时将算法应用于数据结构上。

本月的scrapy已经写完,关于scrapy写了常用的中间件、数据管道、以及scrapy的相关源码,但是感觉可写的内容不是很多,要门是使用相关的要么是一些不用关注的源码。

所以写完scrapy之后还写了些一些其他内容,算是在充数吧,同时预下一个专题是python的数据结构和算法,将对九大算法及其常用数据结构分享,同时将算法应用于数据结构上。

本月scrapy专题相关内容:

Scrapy框架快速创建项目命令、框架的结构

scrapy中最为重要的两个对象Request、Response

scrapy中数据处理的两个模块:Item Pipeline与Exporter

scrapy自带文件下载器,实现多层级目录结构的存储

scrapy中间件源码分析及常用中间件大全

scrapy框架通用爬虫、深度爬虫、分布式爬虫、分布式深度爬虫,源码解析及应用

RedisSpider的调度队列实现过程及其源码

scrapy中scrapy_redis分布式内置pipeline源码及其工作原理

scrapy分布式调度源码及其实现过程

scrapy分布式Spider源码分析及实现过程

scrapy分布式去重组件源码及其实现过程

python中配置文件的使用方法

scrapy_redis中序列化源码及其在程序设计中的应用

scrapy_redis分布式组件Connection源码解读及工作原理

分布式scrapy_redis源码总结,及其架构

使用scrapy 1.6自带的Telnet控制台

scrapy官方文档提供的常见使用问题

通过核心API启动单个或多个scrapy爬虫

scrapy配置文件操作核心API解读

scrapy爬虫加载API,配置自定义加载模块

scrapy常用设置参考手册

除此之外还有些其他方面的文章:

python中is、id、==与浅拷贝和深拷贝

selenium启动Chrome配置参数问题

python常用内建函数

requests库核心API源码分析

python面向对象思想的最深处——元类

python常用内建属性大全

今天又想到本公众号的定位问题,按照当初的想法的话是定位中高阶段的一个公众号,不分享基础的知识,一方面是对于读者而言学基础知识最佳的方式是通过有体系的学习,像基础全面的书,一套完整的视频教程,这些能构建初学者的知识体系,才是最有益的渠道。

我对技术公众的理解就是提高、升华、复写、融合,因为公众号很难成体系所以他的价值应该是读者读后一种豁然开朗的感觉,或者让读者感觉原来还可以这么玩,这就是我当初写这个公众号的目的。

于我而言,每天写一篇不能太基础的文章,也有挑战,因为按照专题来写,一些专题绞尽脑汁也只能写这么多内容,所以在素材上收集上想了又想,有些时候写一篇文章只需要几十分钟,但是面对电脑想写些什么却要一两个小时。

到目前公众号持续更新三个多月,后面还将继续下去,如果有感兴趣的或者有想要分享的可以联系我,同时感谢读者朋友们的一路相随。


版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
Python技术进阶
使用钉钉扫一扫加入圈子
+ 订阅

官网链接