Scrapy框架简介

2024-07-13 234

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Scrapy框架简介

Scrapy框架简介

Scrapy是一个用于网络抓取的快速高级框架，用于从网站上抓取结构化的数据。它提供了多种类型的爬虫（Spiders）来定义如何抓取页面（Page）以及如何从页面中提取结构化数据（Scraped Item）。

创建一个Scrapy项目

首先，我们需要安装Scrapy。如果你还没有安装，可以通过pip来安装：

pip install scrapy

然后，我们可以创建一个新的Scrapy项目。例如，我们创建一个名为my_scrapy_project的项目，并定义一个名为my_spider的爬虫：

scrapy startproject my_scrapy_project
cd my_scrapy_project
scrapy genspider my_spider example.com

编写Spider类

在spiders/my_spider.py文件中，你会看到一个基本的Spider类定义。Spider类是Scrapy用于爬取网站的类，它定义了如何爬取某个（或某些）网站。

import scrapy

class MySpider(scrapy.Spider):
    name = 'my_spider'  # 爬虫的名字
    allowed_domains = ['example.com']  # 爬虫被允许爬取的域名列表
    start_urls = ['http://www.example.com/some/page']  # 爬虫开始爬取的URL列表

    def parse(self, response):
        # 这是一个回调函数，Scrapy下载完start_urls中的URL后，会调用这个函数
        # 这里我们只是简单地打印出页面的标题
        title = response.css('title::text').get()
        print(f"Title: {title}")

        # 我们也可以发送新的请求来爬取其他页面
        # 例如，我们假设页面中有一个链接列表，我们想要爬取这些链接指向的页面
        for href in response.css('a::attr(href)').getall():
            # 注意：这里只是一个示例，实际使用时你可能需要过滤掉一些不需要的链接
            yield scrapy.Request(url=response.urljoin(href), callback=self.parse)

解释

导入Scrapy模块：首先，我们导入了Scrapy模块，这是使用Scrapy框架的基础。
定义Spider类：我们定义了一个名为MySpider的类，它继承了scrapy.Spider。这个类定义了我们如何爬取网站。
设置Spider属性：

* `name`：爬虫的名字，用于在Scrapy命令行工具中识别爬虫。
* `allowed_domains`：一个包含爬虫被允许爬取的域名列表的字符串列表。当OffsiteMiddleware启用时（默认启用），这个列表用于过滤掉不在列表中的域名。
* `start_urls`：爬虫开始爬取的URL列表。Scrapy会依次下载这些URL，并将下载后的内容传递给Spider的`parse`方法（或其他指定的回调函数）进行处理。

编写parse方法：parse方法是Scrapy下载完start_urls中的URL后调用的回调函数。在这个方法中，我们可以使用Scrapy提供的选择器（如XPath或CSS选择器）来从页面中提取数据。在这个示例中，我们只是简单地打印出页面的标题。
发送新的请求：在parse方法中，我们还可以使用scrapy.Request对象来发送新的请求，以爬取其他页面。在这个示例中，我们假设页面中有一个链接列表，我们想要爬取这些链接指向的页面。因此，我们遍历了页面中的所有链接，并使用scrapy.Request对象发送了新的请求。注意，我们使用response.urljoin(href)来确保链接是完整的（即包含域名和路径）。我们还指定了回调函数为self.parse，这意味着当新的请求被下载后，Scrapy会再次调用parse方法来处理新的页面。

运行爬虫

要运行爬虫，你可以使用Scrapy命令行工具。在项目的根目录下（即包含scrapy.cfg文件的目录），运行以下命令：

scrapy crawl my_spider

这将启动Scrapy引擎，并开始爬取start_urls中指定的URL。Scrapy会下载这些URL的内容，并将内容传递给MySpider类的parse方法进行处理。你可以在控制台上看到打印出的页面标题。

扩展内容

当然，上述示例只是一个非常基础的Scrapy爬虫。在实际使用中，你可能需要处理更复杂的情况，如处理登录验证、处理
处理结果：

Scrapy框架简介

创建一个Scrapy项目

首先，我们需要安装Scrapy。如果你还没有安装，可以通过pip来安装：
bashbash
在spiders_my_spider.py文件中，你会看到一个基本的Spider类定义。Spider类是Scrapy用于爬取网站的类，它定义了如何爬取某个（或某些）网站。
```python
class MySpider(scrapy.Spider)_
name = 'my_spider' # 爬虫的名字
allowed_domains = ['example.com'] # 爬虫被允许爬取的域名列表
start_urls = ['http___www.example.com_somepage'] # 爬虫开始爬取的URL列表
def parse(self, response)

这是一个回调函数，Scrapy下载完start_urls中的URL后，会调用这个函数

这里我们只是简单地打印出页面的标题

title = response.css('title_text').get()
print(f"Title {title}")

我们也可以发送新的请求来爬取其他页面

例如，我们假设页面中有一个链接列表，我们想要爬取这些链接指向的页面

for href in response.css('a_attr(href)').getall()

注意：这里只是一个示例，实际使用时你可能需要过滤掉一些不需要的链接

yield scrapy.Request(url=response.urljoin(href), callback=self.parse)

导入Scrapy模块：首先，我们导入了Scrapy模块，这是使用Scrapy框架的基础。
定义Spider类：我们定义了一个名为MySpider的类，它继承了scrapy.Spider。这个类定义了我们如何爬取网站。
设置Spider属性：

name：爬虫的名字，用于在Scrapy命令行工具中识别爬虫。
allowed_domains：一个包含爬虫被允许爬取的域名列表的字符串列表。当OffsiteMiddleware启用时（默认启用），这个列表用于过滤掉不在列表中的域名。
start_urls：爬虫开始爬取的URL列表。Scrapy会依次下载这些URL，并将下载后的内容传递给Spider的parse方法（或其他指定的回调函数）进行处理。
编写parse方法：parse方法是Scrapy下载完start_urls中的URL后调用的回调函数。在这个方法中，我们可以使用Scrapy提供的选择器（如XPath或CSS选择器）来从页面中提取数据。在这个示例中，我们只是简单地打印出页面的标题。
发送新的请求：在parse方法中，我们还可以使用scrapy.Request对象来发送新的请求，以爬取其他页面。在这个示例中，我们假设页面中有一个链接列表，我们想要爬取这些链接指向的页面。因此，我们遍历了页面中的所有链接，并使用scrapy.Request对象发送了新的请求。注意，我们使用response.urljoin(href)来确保链接是完整的（即包含域名和路径）。我们还指定了回调函数为self.parse，这意味着当新的请求被下载后，Scrapy会再次调用parse方法来处理新的页面。
运行爬虫
要运行爬虫，你可以使用Scrapy命令行工具。在项目的根目录下（即包含scrapy.cfg文件的目录），运行以下命令：
```bash
扩展内容
当然，上述示例只是一个非常基础的Scrapy爬虫。在实际使用中，你可能需要处理更复杂的情况，如处理登录验证、处理

Scrapy框架简介

Scrapy框架简介

创建一个Scrapy项目

编写Spider类

解释

运行爬虫

扩展内容

Scrapy框架简介

创建一个Scrapy项目

这是一个回调函数，Scrapy下载完start_urls中的URL后，会调用这个函数

这里我们只是简单地打印出页面的标题

我们也可以发送新的请求来爬取其他页面

例如，我们假设页面中有一个链接列表，我们想要爬取这些链接指向的页面

注意：这里只是一个示例，实际使用时你可能需要过滤掉一些不需要的链接

运行爬虫

扩展内容

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Scrapy框架简介

Scrapy框架简介

创建一个Scrapy项目

编写Spider类

解释

运行爬虫

扩展内容

Scrapy框架简介

创建一个Scrapy项目

这是一个回调函数，Scrapy下载完start_urls中的URL后，会调用这个函数

这里我们只是简单地打印出页面的标题

我们也可以发送新的请求来爬取其他页面

例如，我们假设页面中有一个链接列表，我们想要爬取这些链接指向的页面

注意：这里只是一个示例，实际使用时你可能需要过滤掉一些不需要的链接

运行爬虫

扩展内容

热门文章

最新文章

相关电子书