数据采集

首页 标签 数据采集
# 数据采集 #
关注
17022内容
RedisSpider的调度队列实现过程及其源码
对于非分布式的scrapy爬虫而言,不能共享爬虫队列,不能实现分布式。RedisSpider是依赖Redis存储中介,来实现多台主机多爬虫之间的通信,RedisSpider是去重是内部的queue.py文件实现的,内部实现了队列、堆栈、优先级队列,在调度的统一协调下最终实现分布式协同工作。
学习笔记2 - 利用元数据管理数据质量
大数据Clouder:利用元数据管理数据质量 元数据①定义:元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。
8年前诞生于淘宝,细数阿里云RPA 的前世今生!
阿里云RPA,在集团内部历经8年的验证,已经覆盖了阿里巴巴大部分BU,普遍赋能集团内部,如天猫、淘宝、蚂蚁金服、菜鸟、CCO、飞猪、阿里通信等。
python 让挑选家具更方便
原文链接:https://mp.weixin.qq.com/s/tQ6uGBrxSLfJR4kk_GKB1Q 家中想置办些家具,听朋友介绍说苏州蠡(li第二声)口的家具比较出名,因为工作在苏州,也去那边看过,简直...,走断双腿都逛不完,更何况还疲于逛街的。
免费试用