PyCharm下进行Scrapy项目的调试

简介: PyCharm下进行Scrapy项目的调试,可以在爬虫项目的根目录创建一个main.py,然后在PyCharm设置下运行路径,那么就不用每次都在命令行运行代码,直接运行main.py就能启动爬虫了。

PyCharm下进行Scrapy项目的调试,可以在爬虫项目的根目录创建一个main.py,然后在PyCharm设置下运行路径,那么就不用每次都在命令行运行代码,直接运行main.py就能启动爬虫了。

1、首先创建一个Scrapy项目:

在命令行输入:

scrapy startproject project_name

project_name为项目名称,比如我的项目名称为py_scrapyjobbole,生成的目录为:

这里写图片描述


2、创建新的Spider

在命令行输入:

scrapy genspider jobbole(spider名称) blog.jobbole.com(爬取的起始url)
# -*- coding: utf-8 -*-
import scrapy


class JobboleSpider(scrapy.Spider):
    name = 'jobbole'
    allowed_domains = ['blog.jobbole.com']
    start_urls = ['http://blog.jobbole.com/111322/']

    def parse(self, response):
        re_select = response.xpath('//*[@id="post-111322"]/div[1]/h1')
        pass

3、配置setting.py文件(这步很重要)

BOT_NAME = 'py_scrapyjobbole'

SPIDER_MODULES = ['py_scrapyjobbole.spiders']
NEWSPIDER_MODULE = 'py_scrapyjobbole.spiders'

# Crawl responsibly by identifying yourself (and your website) on the user-agent
# USER_AGENT = 'py_scrapyjobbole (+http://www.yourdomain.com)'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

ROBOTSTXT_OBEY = False一定要设置成 False,断点调试才能正常进行。


4、在工程目录下建立main.py文件,稍后将会在这里面进行调试!

from scrapy.cmdline import execute
import sys
import os

# 打断点调试py文件
# sys.path.append('D:\PyCharm\py_scrapyjobbole')
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
print(os.path.dirname(os.path.abspath(__file__)))
execute(['scrapy', 'crawl', 'jobbole'])

5、进行断点调试

这里写图片描述


附录

xpath相关知识

在用Scrapy进行数据爬取时可能会用到xpath相关知识,所以简单地展示一张图:

这里写图片描述

在这里面值得注意的是‘’/“和”//“的区别!

/:代表子元素,选取的元素必须是父子关系

//:代表所有后代元素,选取的元素不一定是父子关系,只要是后代元素即可

不过,大家要是觉得难的话,也可以利用chrome的元素查找功能进行xpath路径的复制:

这里写图片描述

相关文章
|
3月前
|
IDE 开发工具 Python
解决pycharm运行项目时控制台乱码
解决pycharm运行项目时控制台乱码
78 0
|
Java 开发工具 数据库
|
2月前
|
Python
Pycharm为Python项目配置环境不生效,解决办法
在PyCharm中,项目依赖配置更改后未生效。解决步骤包括:1) 查找`C:\Users\username\AppData\Roaming\JetBrains\PyCharm2022.2\options\jdk.table.xml`,2) 删除`<jdk></jdk>`标签内的旧配置内容,然后重启PyCharm以应用新目录。
83 0
Pycharm为Python项目配置环境不生效,解决办法
|
2月前
|
数据采集 数据库 Python
为什么基于 Django 和 Scrapy 的项目需要 @sync_to_async 装饰器
通过使用 @sync_to_async 装饰器,我们可以在 Scrapy 的异步环境中高效地调用同步的 Django ORM 操作。这样可以避免阻塞事件循环,充分利用 Scrapy 的异步 I/O 优势,从而提升爬虫的性能和并发处理能力。在构建基于 Django 和 Scrapy 的项目时,理解并正确使用 @sync_to_async 是非常重要的,这将帮助你构建高效、健壮的应用程序。
|
3月前
|
Python
【python】在pycharm创建一个新的项目
【python】在pycharm创建一个新的项目
431 0
|
8月前
|
Ubuntu Python
Python(六)使用pycharm创建项目报错:ModuleNotFoundError No module named distutils.util
在ubuntu上使用pycharm创建项目的时候报错: ModuleNotFoundError: No module named 'distutils.util'
867 0
|
3月前
|
数据采集 Web App开发 搜索推荐
项目配置之道:优化Scrapy参数提升爬虫效率
项目配置之道:优化Scrapy参数提升爬虫效率
|
3月前
|
开发工具 git Python
Pycharm克隆github项目
Pycharm克隆github项目
|
9月前
|
机器学习/深度学习 自然语言处理 异构计算
完全小白的pycharm深度学习调试+for循环断点条件设置
完全小白的pycharm深度学习调试+for循环断点条件设置
303 0
|
数据采集 XML 存储
构建一个简单的电影信息爬虫项目:使用Scrapy从豆瓣电影网站爬取数据
这个案例展示了如何使用 Scrapy 框架构建一个简单的爬虫项目,从网页中提取数据并保存到文件中。通过配置、编写爬虫代码、定义数据模型和数据处理管道,你可以灵活地构建各种爬虫应用。
277 0
构建一个简单的电影信息爬虫项目:使用Scrapy从豆瓣电影网站爬取数据