【Python爬虫】<万物可爬>Scrayp框架

简介: 【1月更文挑战第22天】【Python爬虫】<万物可爬>Scrayp框架

 目录

Scrapy概述:

安装Scrapy:

创建一个Scrapy爬虫项目:

1.使用scrapy创建一个工程:

2.创建爬虫文件:

Scrapy项目结构:

response的属性和方法:

Scrapy架构组成:

Scrapy Shell:

安装:

应用:


Scrapy概述:

       Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。

安装Scrapy:

pip install scrapy

image.gif

pip install -I cryptography

image.gif

创建一个Scrapy爬虫项目:

1.使用scrapy创建一个工程:

scrapy startproject scrapy项目名称

image.gif

image.gif编辑

注意:项目的名称不允许使用数字开头,也不能包含中文!

2.创建爬虫文件:

注意:要在spiders文件夹中去创建爬虫文件!

cd 项目名称\项目名称\spiders

image.gif

 修改君子协定:

image.gif编辑

image.gif编辑

创建爬虫文件:

scrapy genspider 爬虫文件的名字 要爬取的网页

image.gif

import scrapy
class BaiduSpider(scrapy.Spider):
    # 爬虫的名字 用于运行爬虫的时候 url使用指:
    name = 'baidu'
    # 允许访问的域名:
    allowed_domains = ['https://www.baidu.com']
    # 起始的url地址 指的是第一次要访问的域名
    # start_urls是在allowed_domains的前面添加一个http://,在allowed_domains后面添加一个/
    start_urls = ['https://www.baidu.com/']
    # 是执行了start_urls之后,执行的方法,方法中的response 就是返回的那个对象
    # 相当于 response = urllib.request.urlopen()
    #       response = request.get()
    def parse(self, response):
        print('------------------\n'
              '------------------\n'
              '------Hello-------\n'
              '------World-------\n'
              '------------------\n'
              '------------------\n')
        pass

image.gif

执行爬虫文件:

scrapy crawl 爬虫文件文件名

image.gif

image.gif编辑

Scrapy项目结构:

image.gif编辑

response的属性和方法:

image.gif编辑

response.text 获取的是响应的字符串
response.body 获取的是二进制数据
response.xpath 可以直接是xpath方法来解析response中的内容

response.extract()

提取selector对象的data属性值
response.extract_first() 提取selector列表的第一个数据

Scrapy架构组成:

    • 引擎:自动运行,无需关注,会自动组织所有的请求对象,分发给下载器。
    • 下载器:从引擎处获取请求对象后,请求数据。
    • Spiders:Spider类定义了如何爬取某个(某些)网站,包括爬取的动作(例如:是否跟进连接)以及如何从网页的内容中提取结构化数据(爬取item)。Sprider就是定义爬取的动作及分析某个网页(或者有些网页)的地方。
    • 调度器:有自己的调度规则,无需关注。
    • 管道(Item pipeIine):最终处理数据的管道,会预留接口进行数据处理。当Item正在Spider中被收集之后,它将会被传递到Item Pipline,一些组件会按照一定的顺序执行对Item的处理。每个Item PipLine组件是实现了简单方法的Python类,他们接收到Item并通过它执行一些行为,同时也决定此Item是否继续通过pipiline或者是丢弃不再进行处理。

    以下是item pipline的一些典型应用:

      • 清理HTML数据
      • 验证爬取的数据(检查item包含某些字段)
      • 查重(并丢弃)
      • 将爬取的结果保存到数据库中

      image.gif编辑


      Scrapy Shell:

             Scrapy终端,是一个交互终端,可以在未启动Spider的情况下尝试及调试爬虫代码。其本意是用来测试和提取数据的代码,不过可以被作为正常的Python终端,在上面测试任何的Python代码。

             该终端用来测试XPath或CSS表达式,查看他们的工作方式及从网页中提取数据。在编写您的Spider时,该终端提供了交互性测试您的表达式代码的功能,免去了每次修改后运行Spider的麻烦。

             一旦熟悉Scrapy终端后,就能发现其在开发和调试Spider时发挥的巨大作用。

      安装:

      pip install ipython

      image.gif

             如果安装了IPython,Scrapy终端将会使用IPython(代替标准Python终端),IPython终端与其他相比较更为强大,提供智能化的自动补全,高亮输出,及其他特性。

      应用:

      直接在CMD中启动后,会自动打开IPython终端:

      scrapy shell URL地址(爬取指定目标地址)

      image.gif

      image.gif编辑

      image.gif编辑

      启动IPthon终端:

      image.gif编辑

      scrapy shell www.daidu.com
      scrapy shell https://www.baidu.com
      scrapy shell "https://www.baidu.com"
      scrapy shell "www.baidu.com"


      相关文章
      |
      1月前
      |
      数据采集 存储 XML
      Python爬虫:深入探索1688关键词接口获取之道
      在数字化经济中,数据尤其在电商领域的价值日益凸显。1688作为中国领先的B2B平台,其关键词接口对商家至关重要。本文介绍如何通过Python爬虫技术,合法合规地获取1688关键词接口,助力商家洞察市场趋势,优化营销策略。
      |
      7天前
      |
      数据采集 存储 缓存
      如何使用缓存技术提升Python爬虫效率
      如何使用缓存技术提升Python爬虫效率
      |
      8天前
      |
      数据采集 Web App开发 监控
      Python爬虫:爱奇艺榜单数据的实时监控
      Python爬虫:爱奇艺榜单数据的实时监控
      |
      17天前
      |
      数据采集 JSON API
      如何利用Python爬虫淘宝商品详情高级版(item_get_pro)API接口及返回值解析说明
      本文介绍了如何利用Python爬虫技术调用淘宝商品详情高级版API接口(item_get_pro),获取商品的详细信息,包括标题、价格、销量等。文章涵盖了环境准备、API权限申请、请求构建和返回值解析等内容,强调了数据获取的合规性和安全性。
      |
      17天前
      |
      JSON 数据可视化 测试技术
      python+requests接口自动化框架的实现
      通过以上步骤,我们构建了一个基本的Python+Requests接口自动化测试框架。这个框架具有良好的扩展性,可以根据实际需求进行功能扩展和优化。它不仅能提高测试效率,还能保证接口的稳定性和可靠性,为软件质量提供有力保障。
      49 7
      |
      15天前
      |
      分布式计算 大数据 数据处理
      技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
      随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
      51 2
      |
      22天前
      |
      数据采集 存储 API
      利用Python爬虫获取1688关键词接口全攻略
      本文介绍如何使用Python爬虫技术合法合规地获取1688关键词接口数据,包括环境准备、注册1688开发者账号、获取Access Token、构建请求URL、发送API请求、解析HTML及数据处理存储等步骤,强调遵守法律法规和合理使用爬虫技术的重要性。
      |
      29天前
      |
      数据采集 JSON 开发者
      Python爬虫京东商品详情数据接口
      京东商品详情数据接口(JD.item_get)提供商品标题、价格、品牌、规格、图片等详细信息,适用于电商数据分析、竞品分析等。开发者需先注册账号、创建应用并申请接口权限,使用时需遵循相关规则,注意数据更新频率和错误处理。示例代码展示了如何通过 Python 调用此接口并处理返回的 JSON 数据。
      |
      2月前
      |
      XML 数据采集 数据格式
      Python 爬虫必备杀器,xpath 解析 HTML
      【11月更文挑战第17天】XPath 是一种用于在 XML 和 HTML 文档中定位节点的语言,通过路径表达式选取节点或节点集。它不仅适用于 XML,也广泛应用于 HTML 解析。基本语法包括标签名、属性、层级关系等的选择,如 `//p` 选择所有段落标签,`//a[@href='example.com']` 选择特定链接。在 Python 中,常用 lxml 库结合 XPath 进行网页数据抓取,支持高效解析与复杂信息提取。高级技巧涵盖轴的使用和函数应用,如 `contains()` 用于模糊匹配。
      |
      30天前
      |
      敏捷开发 测试技术 持续交付
      自动化测试之美:从零开始搭建你的Python测试框架
      在软件开发的马拉松赛道上,自动化测试是那个能让你保持节奏、避免跌宕起伏的神奇小助手。本文将带你走进自动化测试的世界,用Python这把钥匙,解锁高效、可靠的测试框架之门。你将学会如何步步为营,构建属于自己的测试庇护所,让代码质量成为晨跑时清新的空气,而不是雾霾中的忧虑。让我们一起摆脱手动测试的繁琐枷锁,拥抱自动化带来的自由吧!