Python之scrapy的post请求、日志和代理

2023-01-11 257

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

日志服务 SLS，月写入数据量 50GB 1个月

简介： Python之scrapy的post请求、日志和代理

1. post请求

1、重写start_requests方法：

def start_requests(self)

2、start_requests的返回值：

scrapy.FormRequest(url=url, headers=headers, callback=self.parse_item, formdata=data)   
  url: 要发送的post地址 
  headers：可以定制头信息 
  callback: 回调函数 
  formdata: post所携带的数据，这是一个字典

使用

# 创建项目
scrapy startproject scrapy_post
cd scrapy_post/scrapy_post/spiders
scrapy genspider testpost http://fanyi.baidu.com/

testpost.py

import scrapy
import json
class TestpostSpider(scrapy.Spider):
    name = 'testpost'
    allowed_domains = ['fanyi.baidu.com']
    # post请求 如果没有参数 那么这个请求将没有任何意义
    # 所以start_urls 也没有用了
    # parse方法也没有用了
    # start_urls = ['http://fanyi.baidu.com/']
    #
    # def parse(self, response):
    #     pass
    # def parse(self, response):
    #     pass
    def start_requests(self):
        url = 'https://fanyi.baidu.com/sug'
        data = {
            'kw': 'final'
        }
        yield scrapy.FormRequest(url=url, formdata=data, callback=self.parse_second)
    def parse_second(self, response):
        content = response.text
        obj = json.loads(content, encoding='utf-8')
        print(obj)

2. 日志信息和日志等级

日志级别：

CRITICAL：严重错误

ERROR：一般错误

WARNING：警告

INFO: 一般信息

DEBUG：调试信息

默认的日志等级是DEBUG ，只要出现了DEBUG或者DEBUG以上等级的日志，那么这些日志将会打印

settings.py文件设置：

默认的级别为DEBUG，会显示上面所有的信息。在配置文件中 settings.py

LOG_FILE : 将屏幕显示的信息全部记录到文件中，屏幕不再显示，注意文件后缀一定是.log

LOG_LEVEL: 设置日志显示的等级，就是显示哪些，不显示哪些

3. 代理

1、settings.py中，打开选项

DOWNLOADER_MIDDLEWARES = { 
    'postproject.middlewares.Proxy': 543, 
}

2、middlewares.py中使用代理

def process_request(self, request, spider): 
    request.meta['proxy'] = 'https://113.68.202.10:9999' 
    return None

Python之scrapy的post请求、日志和代理

1. post请求

使用

2. 日志信息和日志等级

3. 代理

热门文章

最新文章

相关课程

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Python之scrapy的post请求、日志和代理

1. post请求

使用

2. 日志信息和日志等级

3. 代理

热门文章

最新文章

相关课程

推荐镜像