scrapy学习笔记---初识

简介: scrapy学习笔记---初识
  1. 生成一个scrapy目录
 (1)scrapy startproject 目录名           在当前目录创建scrapy项目
 (2)cd 目录名                            移动到创建的目录下
 (3)scrapy genspider demo 网站域名       生成一个demo.py文件,产生spiders爬虫
 (4)scrapy crawl demo                    执行这个demo
 (5)保存数据
      scrapy crawl demo -o test.json       将数据保存在test.json文件里
    scrapy crawl demo -o test.csv        将数据保存在test.csv文件里
    保存到数据库
        pipelines.py里的item就是传过来的数据
      插入dict(item)数据
        记得在settings.py中开启 ITEM_PIPELINES

2.yield关键字

def gen(n)
    for i in range(n):
        yield i**2
>> 结果输出的是list[0,1,4,9...]

作用:节约资源,将数据yield到pipelines里,进行数据解析

3.伪装

(1)设置代理ip
    1.进入middlewares.py文件
    2.写入代码类似:
        """
        TODO
        import base64  # 代理服务器
        class my_proxy(object):
            def process_request(self, request, spider):
                request.meta['proxy'] = 'http://http-cla.abuyun.com:9030'
                proxy_name_pass = b'H211EATS905745KC:F8FFBC929EB7D5A7'
                encode_pass_code = base64.b64encode(proxy_name_pass)
                request.headers['Proxy-Authrization'] = 'Basic '+ encode_pass_code.decode()
        """
    3.修改settings.py里的 DOWNLOADER_MIDDLEWARES值
        """
        DOWNLOADER_MIDDLEWARES = {
            'douban.middlewares.my_proxy': 543,
        }
        """

(2)随机设置http头的User_ager
    1.进入middlewares.py文件
    2.写入代码类似:
        """
        TODO
        import random
        class my_useragent(object):
            def process_request(self,request,spider):
                agents = [xxxx]
            # 随机选取agents
            agent = random.choice(agents)
            request.headers['User_Agent'] = agent
        """
    3.修改settings.py里的 DOWNLOADER_MIDDLEWARES值
        """
        DOWNLOADER_MIDDLEWARES = {
            'douban.middlewares.my_useragent': 544,
        }
        """

4.extract()

将xpath对象转换成unicode字符串
.encode("utf-8")        转成utf-8编码
目录
相关文章
|
10月前
|
数据采集 存储 中间件
scrapy案例教程
scrapy案例教程
63 0
|
10月前
|
数据采集 存储 中间件
scrapy简单入门
scrapy简单入门
48 0
|
1月前
|
存储 数据采集 中间件
scrapy实战2586个小姐姐带回家
scrapy实战2586个小姐姐带回家
40 3
scrapy实战2586个小姐姐带回家
|
3月前
|
数据采集 中间件 数据处理
scrapy的入门和使用
scrapy的入门和使用
|
IDE 开发工具 Python
scrapy安装详解--秒懂!
scrapy安装详解--秒懂!
213 0
scrapy安装详解--秒懂!
|
存储 Python
python requests的基本使用
使用python的requests库快速发起http请求,获取采集数据。
129 0
python requests的基本使用
|
数据采集 JSON 数据格式
Python爬虫:requests库基本使用
Python爬虫:requests库基本使用
|
数据采集 API Python
python爬虫入门requests模块
python爬虫入门requests模块
101 0
|
数据采集 机器学习/深度学习 Web App开发
Crawler之Scrapy:Scrapy简介、安装、使用方法之详细攻略
Crawler之Scrapy:Scrapy简介、安装、使用方法之详细攻略
Crawler之Scrapy:Scrapy简介、安装、使用方法之详细攻略
|
数据采集 Python
Py之requests:python的requests包的简介、安装、使用方法详细攻略
Py之requests:python的requests包的简介、安装、使用方法详细攻略
Py之requests:python的requests包的简介、安装、使用方法详细攻略