scrapy常用命令总结

简介: scrapy常用命令总结

1.创建scrapy项目的命令:

    scrapy startproject <项目名字>

示例:

    scrapy startproject myspider

2.通过命令创建出爬虫文件,爬虫文件为主要的代码文件,通常一个网站的爬取动作都会在爬虫文件中进行编写。

命令:

    在项目路径下执行:

    scrapy genspider <爬虫名字> <允许爬取的域名>

爬虫名字: 作为爬虫运行时的参数

允许爬取的域名: 为对于爬虫设置的爬取范围,设置之后用于过滤要爬取的url,如果爬取的url与允许的域不通则被过滤掉。

示例:

cd myspider 这一步是进入当前项目路径

scrapy genspider lianjia lianjia.com 再创建爬虫文件

item : 定制你要抓取的字段 比方说你要去爬取一个网站 里面有标题 用name变量去接收 就先在item里面定制好接收的字段

setting:放的是你爬虫的最基本信息 包括爬虫的初始化伪装 也需要在这里面去完成

pipelines:保存数据 --不管你是要保存数据到Excel里面或者数据里面都需要在这个文件抒写

middlewares:爬虫中间件

  1. 运行scrapy
    命令:在项目目录下执行scrapy crawl <爬虫名字>

示例:scrapy crawl 爬虫名字 --nolog 忽略日志信息

7.1 也可爬虫项目中执行命令

每次我们写完代码进行测试的时候,都要去安装目录执行,所以为了方便,我们要写一个再爬虫项目根目录中创建.py结尾的文件,执行以下指令:

from scrapy import cmdline

cmdline.execute([‘scrapy’,‘crawl’,‘lianjia’])

#.extract()提取内容方法

打开Scrapy Shel

例如:

cd mySpider 进入项目路径

scrapy shell https://cs.lianjia.com/zufang/ #想要测试的url

相关文章
|
数据采集 中间件 开发者
如何使用 scrapy.Request.from_curl() 方法将 cURL 命令转换为 Scrapy 请求
我们可能需要将 cURL 命令转换为 Scrapy 请求,以便在 Scrapy 中使用 cURL 的功能。例如,我们可能想要使用 cURL 的代理设置、头部信息、表单数据等。这时候,我们可以使用 scrapy.Request.from_curl() 方法来实现这个转换。
148 0
如何使用 scrapy.Request.from_curl() 方法将 cURL 命令转换为 Scrapy 请求
|
JSON 中间件 API
Scrapy中的parse命令:灵活处理CSV数据的多功能工具
Scrapy是一个用Python编写的开源框架,它可以快速地从网站上抓取数据。Scrapy提供了许多强大的功能,其中之一就是parse命令,它可以让你灵活地处理CSV数据。CSV(逗号分隔值)是一种常用的数据格式,它用逗号来分隔不同的字段。在本文中,我们将介绍parse命令的基本用法,以及它的一些亮点和案例。
145 0
Scrapy中的parse命令:灵活处理CSV数据的多功能工具
|
数据采集 Python
python爬虫:scrapy命令失效,直接运行爬虫
python爬虫:scrapy命令失效,直接运行爬虫
234 0
|
数据采集 Shell 调度
Scrapy框架快速创建项目命令、框架的结构
Scrapy在爬虫开发领域是非常不错的一款框架,如果要从事爬虫开发那么这款框架一定要非常熟悉,尽管在实际开发中可能用不上,但是其中的架构思想也能让自己写的爬虫质量有不一般的提升。 Scrapy框架应该掌握的几条命令: CMD命令行界面执行 scrapy shell [url] 该条命令常用于scrapy开发前的测试,如:scrapy shell  执行完该条命令后可运行,view(response)将用默认浏览器打开下载的URL页面。
1199 0
|
4月前
|
数据采集 存储 数据处理
Scrapy:Python网络爬虫框架的利器
在当今信息时代,网络数据已成为企业和个人获取信息的重要途径。而Python网络爬虫框架Scrapy则成为了网络爬虫工程师的必备工具。本文将介绍Scrapy的概念与实践,以及其在数据采集和处理过程中的应用。
52 1
|
4月前
|
数据采集 中间件 Python
Scrapy爬虫:利用代理服务器爬取热门网站数据
Scrapy爬虫:利用代理服务器爬取热门网站数据
|
30天前
|
数据采集 中间件 调度
Scrapy 爬虫框架的基本使用
Scrapy 爬虫框架的基本使用
|
2月前
|
数据采集 存储 NoSQL
Redis 与 Scrapy:无缝集成的分布式爬虫技术
Redis 与 Scrapy:无缝集成的分布式爬虫技术